AI掌握语言，但乐高101

我们经常听到有关AI等令人难以置信的壮举，例如GPT-4O和双子座 – 编写代码，制作诗歌，考试。您可能会认为这些强大的多模式大型语言模型（MLLM）都可以理解文本和图像，在掌握一切方面都很好。但是，当您要求他们做一些看似简单的事情时，会发生什么，例如遵循乐高指令？

根据新的学习从上海AI实验室和汤吉大学的研究人员来看，答案是：他们在很大程度上失败了。事实证明，这些AI向导在理解和推理太空中的多个步骤中的对象时令人惊讶地笨拙 – 这对于与现实世界互动至关重要。

为什么要用乐高积木测试AI？

研究人员设计了一个巧妙的基准，称为 乐高积木 正是因为建筑乐高积木反映了人类如何发展“空间智能”。遵循这些小图需要了解3D形状，它们如何结合在一起，方向以及正确的动作顺序。如果AI无法处理，我们如何期望它指导机器人组装产品或通过复杂的建筑区域导航自动驾驶汽车？

乐高积木基准不是孩子的戏剧。它包括1,100多个视觉问题，涵盖11个不同的任务。这些范围从基本检查（“这件比那一件比那个高？”，“这两个块触摸？ 错误的 步？”）。

那么，如今的顶级AI模型如何在这些乐高挑战方面表现出来？结果令人惊讶，坦率地说，对人工智能有些尴尬。

巨大差距： 即使是最好的型号，例如OpenAI的GPT-4O和Google的Gemini-2.0-Flash，也只回答了 50-58％ 正确的问题。
人类胜利： 相比之下，人类参与者在难题中微风 超过90％ 准确性。
开源斗争： 许多开源MLLM的表现仅比随机猜测要好得多。一些完全失败的特定任务，例如订购汇编步骤，有时几乎只是在每个问题上输出相同的错误字母。

AI特别在涉及的任务上挣扎：

也许更具说服力的是图像生成测试。研究人员要求MLLM生成一个图像，显示结果特定的乐高组装步骤。

结果？几乎完全失败。大多数模型要么忽略了指令，只需复制输入图像，或者生成了完全无关的东西。只有Gemini-2.0-Flash和GPT-4O显示出“有限的能力” – Gemini可以更好地准确编辑现有图像，而GPT-4O似乎在概念上重新生成了场景，通常会失去视觉一致性。开源车型无可救药地丢失了。

这项研究暴露了当前AI开发的危害弱点。尽管模型在语言和静态图像中以图案匹配表现出色，但它们缺乏强大的掌握 多步空间推理 – 对事物在物理时空的工作方式的动态理解。

该研究发现，即使促使“经营链”（要求AI逐步思考”等技术，它通常有助于解决文本问题，提供最小的好处，有时甚至是阻碍这些空间任务，尤其是复杂的任务。

似乎真正了解我们的3D世界以及在其中的行动如何不仅需要处理大量文本和图像所需的更多。 MLLM需要更好的方法来表示空间，依次跟踪更改，并可能开发出一种“视觉记忆”的形式。

特色图片来源： KeremGülen/Imagen 3