Dataconomy CN
Subscribe
No Result
View All Result
Dataconomy CN
Subscribe
No Result
View All Result
Dataconomy CN
No Result
View All Result

AI正在学习像人类一样开车 – 看着你慌张

Kerem GülenbyKerem Gülen
6 2 月, 2025
in Research
Home Research

自动驾驶汽车应该是未来。 AI应该抓住方向盘,完美无瑕,消除人为错误。然而,在这里,我们仍在抓住转向轮,而AI偶然发现了模拟,犯下了从有趣的危险到彻头彻尾的危险的错误。

为什么?因为AI通过 反复试验– 数字等同于将飞镖扔在黑暗中,直到最终击中了牛市。当赌注较低时,这很好,例如下棋或优化广告。但是,当涉及到现实世界中的应用程序(错误)意味着耕种行人 – 这种方法瓦解了。

根据一项研究 Zhenghao Peng,Wenjie MO,Chenda Duan和Bolei Zhou 来自 加利福尼亚大学,洛杉矶大学(加州大学洛杉矶分校),以及 Quanyi li 来自 爱丁堡大学,可以使用AI训练大大改进 代理价值传播(PVP)。他们的研究标题为 通过代理价值传播从主动人类参与中学习,挑战传统的强化学习,证明 积极的人干预会导致更快,更安全,更高效的AI培训。

传统的 加强学习(RL),AI学会做出决策的标准方式是痛苦的速度。它需要 数百万的尝试 在AI弄清楚什么有效之前。更糟糕的是,它假设AI只能通过遵循奖励制度来理解人类的意图,当时奖励制度通常会导致奇怪,意外的行为。想想一个经过训练的AI赢得比赛,可以弄清楚它可以在起跑线上圈出圈子,以提高“距离旅行”的积分,而没有完成课程。

显然,AI需要一个更好的老师。那老师? 你。

让人类实时干预

代理价值传播(PVP) 是一种将AI培训变成更为人类的新方法。 PVP没有让AI犯错误犯错,而是让人类介入,干预并展示AI该怎么办 实时。

  • 想象AI正在学习在模拟中开车 大盗窃自动V(GTA V)。
  • AI做出了一个可怕的决定 – 例如,将红灯直接进入交通。
  • 当时人类没有观看混乱,而是控制着混乱,而是 纠正AI的动作。
  • 然后该系统将人类的决定标记为 “好”举动 AI以前的错误是 “糟糕”的举动。
  • 使用一种称为的技术 价值传播,AI在类似情况下传播此更正,学习避免做出错误的决定 无需数百万尝试。

结果令人惊讶。 AI学到了很多东西 快点, 和 更少的错误而且 – 最重要的是 – 实际上 与人类期望保持一致 而不是盲目追求奖励点。


AI与策略斗争:研究表明LLM在社交扣除游戏中揭示了太多


数字不撒谎:PVP有效

PVP背后的团队对其进行了测试 GTA V,Carla(驾驶模拟器)和Minigrid(虚拟迷宫导航任务)。结果令人惊叹:

  • AI接受了PVP培训 10倍更快 比传统方法。
  • 它仅需要 1200次人工干预– 与之相比 300,000 尝试AI通常需要RL。
  • 安全到达目的地的PVP训练AI的成功率是 85%,相比 20-50% 对于以前的方法。
  • 人工智能制造 75%的关键错误减少 当接受PVP与传统增强学习培训时。

换句话说,AI实际上开始开车 像人类– 不仅仅是一个编程的机器人,可以最大程度地提高抽象奖励。

AI的胜利 – 和人类

PVP不​​仅对AI更好。这也使人们的生活更轻松。传统的AI培训需要不断的人类监督,数小时的反馈和很多耐心。使用PVP,需要AI 减少50%的努力 训练。测试人员对PVP培训的AI进行评分 4.8(满分5分)的准确性,相比 3.0对于较旧的方法。 PVP培训造成的AI 压力明显减轻 对于人类教练来说 – 因为它不断需要更正。对于应该使我们的生活更轻松的技术,这是向前迈出的一大步。

从GTA到街道

PVP已经在虚拟驾驶测试中证明了自己。真正的问题是:它可以使用吗 现实世界应用?

潜力是巨大的。 AI不仅可以依靠预先编程的规则,还可以直接从人类干预中学习,使其更安全,更快。仓库,医院甚至房屋中的AI驱动机器人可以实时培训,而不是通过试用和错误进行培训。人类医生可以在AI辅助手术或诊断期间进行干预,直接教系统对或错。

有时,目标只是使AI 足够人– 以我们期望的方式采取行动,与我们的价值观保持一致,并避免使我们处于危险之中的错误。


特色图片来源: KeremGülen/Midjourney

Tags: 人工智能特色

Related Posts

人工智能研究工具可能会造成比他们解决的更多问题

人工智能研究工具可能会造成比他们解决的更多问题

14 5 月, 2025
您的超级有用的生物AI合作伙伴是否会秘密地使您的工作无聊?

您的超级有用的生物AI合作伙伴是否会秘密地使您的工作无聊?

14 5 月, 2025
微软的阿黛尔(Adele)想给您的AI认知概况

微软的阿黛尔(Adele)想给您的AI认知概况

14 5 月, 2025
Apple Research论文揭示了3D内容生成的Matrix3D

Apple Research论文揭示了3D内容生成的Matrix3D

14 5 月, 2025
研究:Genai评估的黄金标准

研究:Genai评估的黄金标准

12 5 月, 2025
AI终于解决了生物学最难的难题

AI终于解决了生物学最难的难题

6 5 月, 2025
Please login to join discussion

Recent Posts

  • 智能面料对战术服装性能的影响
  • Databricks在无服务的Postgres上赌注,其10亿美元的霓虹灯收购
  • Alphaevolve:Google的新AI如何以自我纠正为目标
  • Tiktok正在实施AI生成的ALT文本,以提高可获得性
  • 特朗普迫使苹果重新考虑其印度iPhone策略

Recent Comments

您尚未收到任何评论。
Dataconomy CN

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Sample Page

Follow Us

  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy Policy.