艾伦人工智能研究所 (Ai2) 发布了 Molmo,这是一套创新的开源多模态模型,旨在挑战专有人工智能系统的主导影响力。Molmo 拥有卓越的图像识别和可操作的洞察力,随时准备通过提供先进且易于使用的人工智能应用程序开发工具来协助开发人员、研究人员和初创公司。此次发布引起了人们对人工智能领域重要变化的关注,它将开源和专有模型结合起来,并改善了每个人对领先人工智能技术的访问。
Molmo 提供的功能具有出色的图像理解能力,使其能够正确读取各种视觉数据——从普通物品到复杂的图表和菜单。与大多数 人工智能模型Molmo 超越了感知,让用户能够通过指向和一系列空间动作与虚拟和现实环境进行交互。这一功能标志着一项突破,允许引入复杂的人工智能代理、机器人和许多其他依赖于对视觉和上下文数据的细粒度理解的应用程序。
效率和可访问性是 Molmo 发展战略的主要方面。Molmo 的先进技能来自不到一百万张图像的数据集,与 GPT-4V 和谷歌的模型处理的数十亿张图像形成鲜明对比。 双子座。所实施的方法不仅使 Molmo 能够高效利用计算资源,而且还创建了一个与最有效的专有系统同样强大的模型,并且具有幻觉更少、训练速度更快的特点。
让 Molmo 完全开源是 Ai2 实现人工智能开发民主化的更大战略努力的一部分。Ai2 使各种各样的用户(从初创公司到学术实验室)能够在无需高昂投资成本或巨大计算能力的情况下创新和推进人工智能技术。它使他们能够访问 Molmo 的语言和视觉训练数据、模型权重和源代码。
艾伦人工智能研究所研究员 Matt Deitke 表示 “Molmo 是一个令人难以置信的 AI 模型,具有出色的视觉理解能力,它通过引入 AI 通过指向与世界互动的范例,推动了 AI 开发的前沿。该模型的性能由非常高质量的精选数据集驱动,该数据集可以教会 AI 通过文本理解图像。与今天的训练相比,这种训练速度更快、更便宜、更简单,因此公开发布其构建方式将使整个 AI 社区(从初创公司到学术实验室)能够工作在 AI 开发的前沿”。
根据内部评估,Molmo 最大的模型拥有 720 亿个参数,在多个基准测试中超越了 OpenAI 的 GPT-4V 和其他领先竞争对手。最小的 Molmo 模型仅包含 10 亿个参数,足以在移动设备上运行,同时性能优于参数数量是其十倍的模型。这里 你可以看到模型 并亲自尝试一下。