Google DeepMind 最近在 SIMA(自指导多模式代理)方面取得的突破凸显了专为 3D 虚拟环境设计的通用人工智能代理在成为现实方面所取得的快速进展。
这一进步不仅对于游戏行业,而且对于我们在广泛的应用程序中与虚拟空间交互的方式都具有变革潜力。
凭借增强的理解指令、适应新任务以及在虚拟世界的约束下进行推理的能力,类似 SIMA 的智能体具有重塑多个关键领域的潜力。
SIMA 的巨大成功
DeepMind 的最新创新是 SIMA,它代表可扩展可指导的多世界代理。 与之前专注于掌握单一游戏的人工智能不同,SIMA 是一个多面手人工智能。
SIMA 不限于屏幕上的像素。 它可以处理视觉信息(它在游戏中看到了什么)和自然语言指令(人类告诉它做什么)。 这种多模式学习可以让我们更细致地了解游戏世界。
SIMA 不仅仅针对一款游戏进行训练。 DeepMind 与多家游戏开发商合作,向 SIMA 展示了《No Man’s Sky》和《Teardown》等各种游戏。 这种多样性增强了其适应新环境的能力。
SIMA 不需要用勺子喂养每条规则。 通过遵循说明,它可以在游戏中学习新技能,例如导航新区域、制作物品或使用游戏内菜单。 这使得它比传统的人工智能代理更加通用。
不要因为缺乏对取得最高分的关注而被愚弄。 虽然令人印象深刻, 这不是主要目标。
SIMA 的真正成功在于它能够在游戏环境中理解人类指令并按照人类指令采取行动。 这项研究意味着 为了创建对我们有帮助的人工智能,我们已经迈出了一大步 在里面 真实世界。
Google DeepMind 运行这一突破性人工智能模型的一些游戏包括:
- 模拟山羊3
- 海德尼尔
- 无人深空
- 满意的
- 拆除
- 瓦尔海姆
- 摇摇欲坠的生活
除了所有这些游戏之外,Google DeepMind 团队还在他们创建的真实模拟中测试了 SIMA 的功能,称为:“研究环境”。 这些环境由 Construction Lab、Playhouse、ProcTHOR 和 WorldLab 组成,模拟了许多区域 人工智能被认为在不久的将来会被集成。
SIMA 背后的魔力
多模态输入处理
SIMA 利用 大语言模型 (LLM),可能基于 Transformer 架构,用于处理和理解用户给出的自然语言指令。 法学硕士擅长处理文本等顺序数据,因此非常适合这项任务。 为了了解周围环境,SIMA 采用了 卷积神经网络 (CNN) 处理来自 3D 环境的视觉输入。
CNN 非常擅长从图像或视频流中提取空间特征和模式。 SIMA 可能使用多个 CNN 在视觉输入中创建不同级别的表示,以实现全面理解。
自学
SIMA 的关键创新之一是它能够将复杂的指令分解为一系列更简单的子任务。 这可能是通过以下方式实现的 自然语言处理的结合 (分析指令)和 分层强化学习(RL)。
分层强化学习 允许代理通过建立较低级别的操作序列来学习复杂的行为。
此外,SIMA 可以通过观察其在环境中的行为以及由此产生的变化来生成自己的训练数据和目标。 这种自我监督技术对于在新环境中持续学习和适应至关重要,并赋予其灵活性。
零样本泛化
SIMA 无需显式训练即可执行新任务的令人印象深刻的能力可能源于对不同 3D 环境和相关指令的海量数据集进行的广泛预训练。 这种预训练允许模型构建虚拟世界和通用指令的丰富内部表示,从而使其能够概括知识。
预训练期间很可能使用元学习方法,鼓励 SIMA 制定“学习如何学习”。
这使得代理能够在未见过的环境中快速获得新技能。
您可以进一步了解 Google DeepMind 使用其游戏进行通用 AI 代理训练的工作 研究论文。
从游戏中学习,在现实世界中发光发热
不管你相信与否,SIMA 标志着 人工智能发展的转折点。
视频游戏提供了 人工智能的理想训练场 因为它们是动态的、独立的世界,具有明确的目标、规则和反馈机制。
在这些虚拟空间中,人工智能代理可以进行实验, 犯错误,并从他们的成功和失败中学习——所有这些都不需要 现实世界的风险或限制。 随着 SIMA 探索更加复杂的游戏世界,其底层模型变得更加强大,它发展了适应、理解指令和制定战略以实现目标的能力。
这些技能在游戏的安全沙盒中磨练出来,转化为多功能且强大的人工智能,可以驾驭现实世界的复杂性。
这是 只是开始 人工智能通过游戏学习时可能发生的事情。
事实上,当我们 检查 Google DeepMind 在各种游戏中使用的提示。
举几个例子:
这 ”捡起铁矿石” 提示 满意的 暗示人工智能有可能提高采矿等危险行业的安全性。 劳工统计局报告 矿难致命伤害不断上升,令人痛心 2020 年至 2021 年增长 21.8%。 想象一下,如果由人工智能驱动的机器人(不易出现人为错误或疲劳)来处理危险的采矿任务,可以挽救多少生命。
在生存游戏中 瓦尔海姆, 这 ”寻找水源”提示强调了人工智能在解决水资源短缺等重要问题方面的力量。 世界银行报告 那 东部和南部非洲约 2.26 亿人无法获得基本供水服务,3.81 亿人无法获得基本的卫生服务。
另一种可以不间断地对该地区的天然水源进行水研究的机器人可以触及数十亿人的生活。
尽管如今人工智能似乎与图像生成和不断出现的聊天机器人等同,但请相信我们, 远不止于此, 诸如此类的研究具有巨大的潜力 为所有人带来更美好的未来。
特色图片来源: 手绘。