AI正在学习像人类一样开车 - 看着你慌张

自动驾驶汽车应该是未来。 AI应该抓住方向盘，完美无瑕，消除人为错误。然而，在这里，我们仍在抓住转向轮，而AI偶然发现了模拟，犯下了从有趣的危险到彻头彻尾的危险的错误。

为什么？因为AI通过 反复试验– 数字等同于将飞镖扔在黑暗中，直到最终击中了牛市。当赌注较低时，这很好，例如下棋或优化广告。但是，当涉及到现实世界中的应用程序（错误）意味着耕种行人 – 这种方法瓦解了。

根据一项研究 Zhenghao Peng，Wenjie MO，Chenda Duan和Bolei Zhou 来自 加利福尼亚大学，洛杉矶大学（加州大学洛杉矶分校），以及 Quanyi li 来自 爱丁堡大学，可以使用AI训练大大改进 代理价值传播（PVP）。他们的研究标题为 通过代理价值传播从主动人类参与中学习，挑战传统的强化学习，证明 积极的人干预会导致更快，更安全，更高效的AI培训。

传统的 加强学习（RL），AI学会做出决策的标准方式是痛苦的速度。它需要 数百万的尝试 在AI弄清楚什么有效之前。更糟糕的是，它假设AI只能通过遵循奖励制度来理解人类的意图，当时奖励制度通常会导致奇怪，意外的行为。想想一个经过训练的AI赢得比赛，可以弄清楚它可以在起跑线上圈出圈子，以提高“距离旅行”的积分，而没有完成课程。

显然，AI需要一个更好的老师。那老师？你。

让人类实时干预

代理价值传播（PVP） 是一种将AI培训变成更为人类的新方法。 PVP没有让AI犯错误犯错，而是让人类介入，干预并展示AI该怎么办实时。

想象AI正在学习在模拟中开车 大盗窃自动V（GTA V）。
AI做出了一个可怕的决定 – 例如，将红灯直接进入交通。
当时人类没有观看混乱，而是控制着混乱，而是 纠正AI的动作。
然后该系统将人类的决定标记为 “好”举动 AI以前的错误是 “糟糕”的举动。
使用一种称为的技术 价值传播，AI在类似情况下传播此更正，学习避免做出错误的决定 无需数百万尝试。

结果令人惊讶。 AI学到了很多东西快点，和 更少的错误而且 – 最重要的是 – 实际上 与人类期望保持一致 而不是盲目追求奖励点。

AI与策略斗争：研究表明LLM在社交扣除游戏中揭示了太多

数字不撒谎：PVP有效

PVP背后的团队对其进行了测试 GTA V，Carla（驾驶模拟器）和Minigrid（虚拟迷宫导航任务）。结果令人惊叹：

AI接受了PVP培训 10倍更快 比传统方法。
它仅需要 1200次人工干预– 与之相比 300,000 尝试AI通常需要RL。
安全到达目的地的PVP训练AI的成功率是 85％，相比 20-50％ 对于以前的方法。
人工智能制造 75％的关键错误减少 当接受PVP与传统增强学习培训时。

换句话说，AI实际上开始开车 像人类– 不仅仅是一个编程的机器人，可以最大程度地提高抽象奖励。

AI的胜利 – 和人类

PVP不仅对AI更好。这也使人们的生活更轻松。传统的AI培训需要不断的人类监督，数小时的反馈和很多耐心。使用PVP，需要AI 减少50％的努力 训练。测试人员对PVP培训的AI进行评分 4.8（满分5分）的准确性，相比 3.0对于较旧的方法。 PVP培训造成的AI 压力明显减轻 对于人类教练来说 – 因为它不断需要更正。对于应该使我们的生活更轻松的技术，这是向前迈出的一大步。

从GTA到街道

PVP已经在虚拟驾驶测试中证明了自己。真正的问题是：它可以使用吗 现实世界应用？

潜力是巨大的。 AI不仅可以依靠预先编程的规则，还可以直接从人类干预中学习，使其更安全，更快。仓库，医院甚至房屋中的AI驱动机器人可以实时培训，而不是通过试用和错误进行培训。人类医生可以在AI辅助手术或诊断期间进行干预，直接教系统对或错。

有时，目标只是使AI 足够人– 以我们期望的方式采取行动，与我们的价值观保持一致，并避免使我们处于危险之中的错误。

特色图片来源： KeremGülen/Midjourney

Tags: 人工智能特色

AI正在学习像人类一样开车 – 看着你慌张

Related Posts

人工智能研究工具可能会造成比他们解决的更多问题

您的超级有用的生物AI合作伙伴是否会秘密地使您的工作无聊？

微软的阿黛尔（Adele）想给您的AI认知概况

Apple Research论文揭示了3D内容生成的Matrix3D

研究：Genai评估的黄金标准

AI终于解决了生物学最难的难题

Recent Posts

Recent Comments

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.