有没有想过如何轻松地浏览新的社区,或者在家中找出一个复杂的项目?您可能会在不打破大量汗水,找到自己的方式或排列步骤的情况下进行管理,而无需绘制每个选项。现在,考虑人工智能。虽然AI可以粉碎特定的游戏或紧缩数字,但像我们这样做一样,建立一个在凌乱的,部分知名的现实世界中导航的AI仍然是一个巨大的挑战。为什么我们在这个复杂的计划中如此出色,经常找到对计算机似乎难以置信的解决方案?为什么实验室测试有时会向我们展示从技术上不是绝对“最好”的道路?
这个难题是理解我们和人造的智力的关键。标准AI经常将计划视为探索巨大的选择和结果树。树越大,问题就越艰难。但是人类显然不会那样运作。我们似乎并没有带来完美的,详细的世界蓝图。来自达尔豪斯大学,滑铁卢大学,麻省理工学院和康奈尔大学的研究人员有一个令人着迷的替代想法。如果我们的心理图不像静态图片,而是更像灵活的计算机程序怎么办?
Marta Kryven,Cole Wyeth,Aidan Curtis和Kevin Ellis建议我们的计划诀窍来自一种核心信念: 世界通常遵循可预测的模式。也许我们没有记住每个细节,而是使用紧凑的程序来构建心理模型,以捕获重复,对称性和可重复使用的块。想一想识别办公地板的标准布局或街道经常形成网格的方式。这个“作为程序的概念”创意将我们的大脑描绘成不断寻找世界上基本的代码以有效地导航。让我们潜入他们的 学习。
为什么蓝图和蛮力掉落
为什么将地图视为可能改变游戏规则的程序?查看典型的AI处理计划,尤其是在没有所有信息的情况下。这种情况通常被建模为POMDP,或者部分可观察到的马尔可夫决策过程。找到最佳解决方案通常涉及计算各种情况的赔率,并在所有不确定性中进行计划。即使对于相当简单的环境,这种方法也很快变得非常复杂。只是感觉不到人类的流畅方式。
另外,还有奇怪的断开连接。我们确实很好地处理了现实生活的结构化复杂性。想想城市网格,模块化家具,在公园里径。但是,将人们置于无明确结构的简化实验室任务中,并且通常不会遵循数学上的“最佳”路径。研究人员曾经将其粉刷为精神限制,就像思考前进的几步一样。但是克里文(Kryven)和她的同事认为这可能会错过这一点。也许我们不是有缺陷的计划者。也许我们只是专门针对我们实际生活的结构化的世界。我们寻找模式,并使用它们。
人工智能研究人员试图通过等级规划(将大问题分解为小问题)或识别类似的游戏状态等策略来解决复杂性。但是,自动学习并使用我们拥有的“常识”结构知识仍然是一个主要障碍。
认识GMP:像编码员一样计划
为了将他们的想法进行测试,研究人员建立了一种称为“生成模块化计划”或GMP的计算机模型。该模型在认知图作为程序的原理上起作用。它没有存储一个地方的确切图片。取而代之的是,它弄清了一个简单的程序,可以捕获其基本结构。
GMP有两个主要部分:
- 地图发生器(GMM): 这部分查看了地图,就像他们的实验中的迷宫一样,并试图编写可以重建它的最简单程序。这是一个非常有趣的转折。研究人员使用大型语言模型GPT-4进行这项工作。不是为了计划,而是用于编写代码。他们促使LLM在迷宫中发现重复的视觉图案。然后,LLM编写了定义这些块的Python代码,并解释了如何将它们组合(移动,旋转,翻转)以重新创建地图。该系统更喜欢简单的程序可重复使用块。它遵循一个有利于压缩解释的原则,实质上是寻找描述地图结构的最整洁的代码。
- 模块化计划者(FP): 一旦GMM创建了由可重复使用的块制成的程序图,FP模块就会弄清楚如何解决。它没有为整个地图计算一条巨大的,复杂的路径,而是计划在每种类型的块中的有效路线。然后,每次再次遇到相同类型的块时, 拉出并重用它已经制定的计划。这样可以节省大量的计算能力和内存。为了从一个块到另一个块,它朝着最接近的未开发的部分前进,假设首发球员(例如迷宫出口)可能在任何地方。
在每个模块中,这种计划方式是聪明的。它找到了那个公认的作品内部的最佳路径。但是,将这些智能本地路径连接起来可能会导致一条全球路线稍长于计划者完美地看整个地图。这种聪明,高效,但可能有些间接路线的可能性正是研究人员正在关注的类似人类的行为。
那么,人们真的像GMP模型一样计划吗?该团队使用迷宫搜索任务来找出答案。三十名参与者从第一人称视图中浏览了世界上的20种不同的迷宫。迷宫的一部分被隐藏,直到他们移动得足够近。他们的目标:找到以红色瓷砖为标志的隐藏出口。
这些不仅是任何迷宫。它们是专门设计的,具有清晰的重复结构。它们具有由不同的零件制成的模块化布局,例如某些房间形状或走廊部分。这种设置非常适合查看人们是否自然会通过模块探索模块,或者像传统的最佳规划师可能预测的那样,如果看起来更短,则他们是否会在数学上进行捷径剪切。
团队将人们的道路与三种不同的模型进行了比较:
- GMP: 新模型,基于这些类似程序的地图进行模块化搜索。
- 预期实用程序: 标准的“最佳”计划者,根据不确定性计算绝对最短路径。
- 折现公用事业: 一个模拟计划范围有限的模拟计划的模型(仅在前方几步)中,它很好地解释了人类的行为 非结构化 迷宫之前。
迷宫的设计是这样,因此传统模型通常会暗示非模块化路径,从而轻松查看人们更喜欢哪种策略。
我们是模块化的计划者
发现很清楚。人们压倒性地使用了模块化策略。他们通过块探索了结构化的迷宫,从一个公认的部分系统地移动到最近的部分。这不仅仅是一种flu幸;这是不同迷宫设计和大多数参与者的一致模式。
研究人员仔细研究了“歧视决策”。这些是迷宫中的点,GMP模型暗示了与传统模型不同的举动。在这些关键时刻, GMP在预测人们实际做什么方面做得更好。人们不仅是随机效率低下的;他们是系统的 模块化的。如果他们使用类似程序式的心理图,他们期望的策略非常适合他们的行为。
这项研究的真正整洁部分之一是他们如何使用LLM。这不是做出决定。它就像人类的替身一样 结构感知。由于LLM在人类写作和代码的山上进行了训练,因此它们似乎吸收了人类构造事物(包括空间)的常见方式。当被要求为迷宫编写程序时,GPT-4提出了结构性崩溃,块和规则,与人们后来的导航方式相匹配。
这暗示LLM不仅对生成文本可能更有用。他们有可能帮助我们了解内置的假设和精神捷径,“归纳偏见”,我们人类用来理解一切。在这里,它有助于将视觉迷宫转化为有用的,类似代码的结构,非常适合有效计划。
改变我们对心理图和AI的看法
这项研究挑战了旧的认知图作为简单的静态图片的旧观念。将它们视为活跃的生成程序具有计算意义。它解释了我们如何使用有限的脑力处理复杂,不确定的现实世界。它解释了我们在结构化的地方的效率,甚至是为什么我们有时会采取数学上不完美但更容易弄清楚和记住的道路。
对于人工智能,这为前进提供了实用的途径。 GMP模型首先显示查找结构的力量,然后模块化计划。 AI代理以这种方式构建的代理可能会更有效地导航复杂的,部分知名的环境,需要更少的内存和处理能力。它指出了通过发现模式而不仅仅是处理可能性的模式,指出了更像我们这样做的AI。
当然,仍然有问题。当前的GMP模型对在块之间移动做出了简单的假设。未来的研究需要探索如何根据过去的经验或当前目标来优先考虑某些领域。当世界与我们的期望不符时,我们如何调整我们的心理计划?我们的目标会影响我们所感知的结构多少?即使有了这些开放的问题,这项研究也为我们提供了一种有力的新方法来思考如何找到自己的方式。
最后,它暗示了我们深刻的事情。我们在复杂的世界中有效地导航和行动的惊人能力可能归结为我们的大脑是专家模式接触者,不断地发现我们周围结构化现实的基本代码,不仅是一个场景,而且是准备运行的程序。