今天,伊隆·马斯克的创业 揭开 Grok-2 及其紧凑型对应产品 Grok-2 Mini 处于测试阶段,具有增强的推理能力。Grok AI 模型的这些尖端迭代现在支持直接在 X 社交网络上生成图像。目前,只有 X 上的 Premium 和 Premium+ 订阅者才能访问 Grok。这可以看作是 AI 与社交媒体平台集成的重大进步。
“我们很高兴发布 Grok-2 的早期预览版,这是我们之前型号 Grok-1.5 的重大进步,具有聊天、编码和推理方面的前沿功能。与此同时,我们推出了 Grok-2 mini,它是 Grok-2 的一款体型虽小但功能强大的兄弟产品。Grok-2 的早期版本已在 LMSYS 排行榜上以“sus-column-r”的名称进行了测试。在发表这篇博文时,它的表现优于 Claude 3.5 Sonnet 和 GPT-4-Turbo。”
-xAI
Grok-2 的表现优于其他热门 LLM
xAI 分享了对 Grok-2 模型的见解,揭示了它们在各种学术基准测试中的强劲表现。据 xAI 称,Grok-2 和 Grok-2 mini 的表现都超过了之前的 Grok-1.5 模型,在推理、阅读理解、数学、科学和编码等领域取得了显著进步。这些模型与其他尖端人工智能系统并驾齐驱,在研究生水平的科学(GPQA)、常识(MMLU、MMLU-Pro)和竞争性数学问题(MATH)方面表现出色。此外,Grok-2 在基于视觉的任务中展示了顶级能力,在视觉数学推理(MathVista)和基于文档的问答(DocVQA)方面取得了最先进的成果。
马斯克的 AI 企业希望扩大 Grok-2 和 Grok-2 Mini 的可访问性,计划本月晚些时候通过其企业 API 扩展以包括开发人员。与此同时,X 上的早期采用者已经开始尝试 Grok 的图像生成功能,尤其是对创建政治人物形象没有任何限制。此功能缺乏过滤器,引发了广泛的使用,特别是在美国总统大选临近的情况下,可能促使需要制定监管界限。
进一步有趣的发展表明,这些模型利用了 通量.1 Black Forest Labs 的图像创建技术,暗示了复杂的底层算法。然而,关于 Grok 2 的全部能力的细节仍然很少。应用研究员和知名 X 功能测试员 Nima Owji 表示,Grok 在代码生成、编写和新闻合成方面比其前身有所改进,尽管这些说法有待实质性验证。尽管取得了进步,但 Grok 的初始版本在新闻摘要方面存在明显的不准确性,凸显了人工智能驱动的内容生成方面持续存在的挑战。
Grok 不受限制的图像生成功能带来了在 X 和其他平台上散布错误信息的风险,尤其是目前还不确定 Grok 驱动的图像是否带有表明其 AI 来源的元数据。有人向 X 询问如何采取措施来限制这些功能的滥用,但在马斯克收购后,回应很少。
Grok AI 图像生成: pic.twitter.com/mjzSMEJ5Df
— Jungle Inc: Deaton 4 参议院 (@jungleincxrp) 2024 年 8 月 14 日
还记得扎克伯格和马斯克在罗马斗兽场那场从未发生过的战斗吗?好吧,我们在 Grok-2 上生成了它的图像。没错,我们使用埃隆·马斯克自己的 AI 玩具,制造了一场既虚假又有趣的历史对决。
现在怎么办,埃隆?
Grok-2 和 Grok-2 Mini 的扩展即将到来,因为 xAI 计划将这些模型集成到 X 上的各种 AI 驱动增强功能中。这些增强功能包括更熟练的搜索功能、详细的帖子分析以及可能的 AI 生成的回复,标志着向更具互动性和自动化的用户参与的转变。此外,即将推出的多模式理解预览版有望深化 Grok 在 X 生态系统及其 API 中的集成。
图片来源: Kerem Gülen/xAI