人工智能长期以来一直在一个基本问题上挣扎: 没有明确说明,AI如何智能地探索其环境? 传统的强化学习(RL)依靠 反复试验,通常会浪费大量时间与周围环境随机互动。虽然可以训练AI模型以有效地解决特定任务,但 让他们有意义地探索新环境(无预定义的目标)是一个主要挑战。
最近 学习 由坎森·桑卡克塔尔(Cansu Sancaktar),克里斯蒂安·古姆斯(Christian Gumbsch),安德里(Andrii Zadaianchuk),帕维尔·科尔夫(Pavel Kolev)和蒂宾大学(University ofTübingen)的乔治·马蒂乌斯(Georg Martius),马克斯·普朗克学院(Max Planck Institute),Tu Dresden和阿姆斯特丹大学(University of Amsterdam)引入了有希望的解决方案: Sensei(语义上明智的探索)。
与以前将勘探视为的方法不同 一个蛮力的问题,Sensei采用不同的方法 – 一种模仿 人类,尤其是儿童如何探索世界。 人类不仅仅是随机尝试新事物,而是寻找 有意义的互动– 打开抽屉,而不仅仅是敲桌子,按下按钮而不是挥舞着手臂。 Sensei带来了这个 人类的好奇心 通过使用人造代理 诸如视觉语言模型(VLM)之类的基础模型 到 具有语义理解的指导探索。
AI探索的问题
为了使AI代理学习新任务,他们必须首先探索自己的环境。传统探索方法依赖 内在动机,这意味着AI对产生的行动有内部奖励 新奇 或者 最大化信息增益。 但是,这种方法经常导致 低级,非结构化的行为– 就像一个机器人随机移动或反复触摸对象 不认识他们的相关性。
想象一下一个装满物体的房间里的机器人:
- 标准RL代理 可能会随机尝试所有动作 – 击中桌子,在圆圈中旋转或抓住空气 – 没有优先考虑有用的互动。
- 像人类的学习者相反,会 自然专注于抽屉和按钮等物体,将它们视为 有意义的互动。
这是 Sensei介入。
老师如何教AI像人类一样探索
Sensei介绍一个 新型的内在动机– 一个基于 语义理解。 AI不是盲目探索,而是由 基础模型(一个大规模的AI接受了大量数据)认为“有趣”。
该过程在三个主要步骤中起作用:
1。教ai什么是“有趣”
在代理商开始探索之前,Sensei使用 视觉语言模型(VLM),例如GPT-4V 评估环境图像。 VLM被询问了类似的问题:
“这两个图像中的哪个更有趣?”
通过这些比较,老师提炼 语义奖励功能,教AI 哪种类型的互动很重要。
2。学习世界模型
一旦AI了解被认为“有趣”的内容, 建立内部世界模型– 一种预测系统,可以预测环境将如何响应其行动。
- 而不是需要 不断查询基础模型,AI 学会预测有趣的 本身。
- 这减少了对外部模型的依赖,并允许 更快,自我引导的探索。
3。探索更聪明,不要更难
有了这种理解,AI现在是 在两个竞争动机的指导下:
- 找到有趣的东西 (最大化语义奖励)。
- 突破它知道的界限 (通过探索新领域来增加不确定性)。
结果?人工智能代理 解锁既新颖又有意义的行为,就像人类好奇心驱动的探索一样。
老师可以做什么:解锁现实世界互动的AI
研究人员在 两个不同的环境:
1。视频游戏模拟(Minihack)
- 在AI必须进行的游戏中 找到打开锁门门的钥匙,Sensei 优先与钥匙和门的互动– 就像人类一样。
- 传统的AI探索方法经常被困在随机运动的情况下,而无需理解 场景中物体的意义。
- Sensei解决了游戏的难题 更快,浪费的动作更少 比其他AI方法。
2。机器人模拟(Robodesk)
- 在 机器人臂环境,Sensei 专注于操纵抽屉和按钮等物体,自然地学习有意义的任务。
- 竞争AI系统 随机拖曳 或者 卡住了重复的动作 没有真正的目的。
在这两种情况下,Sensei不仅 覆盖更多地面-它 专注于重要的互动,通往 更丰富,更有效的学习。
为什么这很重要:AI探索的未来
Sensei的能力 优先考虑有意义的互动 可以革新机器人技术,从而使机器人能够 自学有用的行为 没有明确的编程。想象:
- 一个家庭助理 数字如何使用新电器 没有分步说明。
- 工业机器人 适应新任务 在没有人类干预的工厂中。
通过关注 语义相关的探索,ai可以 减少浪费的计算,通往 更快,更节能的学习。
AI中最大的挑战之一是创建系统 像人类一样灵活地学习。 Sensei代表 朝着可以聪明地探索新环境的AI代理的一步– 不依赖 手工培训数据或预定义的目标。
限制
尽管 Sensei是一个重大飞跃,它仍然有一些局限性:
- 它依赖于高质量的视觉输入。 如果AI的相机被阻止或扭曲,则可能会影响其理解。
- 它还不是多模式。 尽管它可以与图像效果很好,但未来版本可能会包含声音,文本和其他感官输入,以获得更丰富的探索。
- 它假设一般的人类好奇心总是有益的。 在某些专门应用程序中,某些交互可能没有用。
特色图片来源: KeremGülen/Midjourney