自动驾驶汽车应该是未来。 AI应该抓住方向盘,完美无瑕,消除人为错误。然而,在这里,我们仍在抓住转向轮,而AI偶然发现了模拟,犯下了从有趣的危险到彻头彻尾的危险的错误。
为什么?因为AI通过 反复试验– 数字等同于将飞镖扔在黑暗中,直到最终击中了牛市。当赌注较低时,这很好,例如下棋或优化广告。但是,当涉及到现实世界中的应用程序(错误)意味着耕种行人 – 这种方法瓦解了。
根据一项研究 Zhenghao Peng,Wenjie MO,Chenda Duan和Bolei Zhou 来自 加利福尼亚大学,洛杉矶大学(加州大学洛杉矶分校),以及 Quanyi li 来自 爱丁堡大学,可以使用AI训练大大改进 代理价值传播(PVP)。他们的研究标题为 通过代理价值传播从主动人类参与中学习,挑战传统的强化学习,证明 积极的人干预会导致更快,更安全,更高效的AI培训。
传统的 加强学习(RL),AI学会做出决策的标准方式是痛苦的速度。它需要 数百万的尝试 在AI弄清楚什么有效之前。更糟糕的是,它假设AI只能通过遵循奖励制度来理解人类的意图,当时奖励制度通常会导致奇怪,意外的行为。想想一个经过训练的AI赢得比赛,可以弄清楚它可以在起跑线上圈出圈子,以提高“距离旅行”的积分,而没有完成课程。
显然,AI需要一个更好的老师。那老师? 你。
让人类实时干预
代理价值传播(PVP) 是一种将AI培训变成更为人类的新方法。 PVP没有让AI犯错误犯错,而是让人类介入,干预并展示AI该怎么办 实时。
- 想象AI正在学习在模拟中开车 大盗窃自动V(GTA V)。
- AI做出了一个可怕的决定 – 例如,将红灯直接进入交通。
- 当时人类没有观看混乱,而是控制着混乱,而是 纠正AI的动作。
- 然后该系统将人类的决定标记为 “好”举动 AI以前的错误是 “糟糕”的举动。
- 使用一种称为的技术 价值传播,AI在类似情况下传播此更正,学习避免做出错误的决定 无需数百万尝试。
结果令人惊讶。 AI学到了很多东西 快点, 和 更少的错误而且 – 最重要的是 – 实际上 与人类期望保持一致 而不是盲目追求奖励点。
数字不撒谎:PVP有效
PVP背后的团队对其进行了测试 GTA V,Carla(驾驶模拟器)和Minigrid(虚拟迷宫导航任务)。结果令人惊叹:
- AI接受了PVP培训 10倍更快 比传统方法。
- 它仅需要 1200次人工干预– 与之相比 300,000 尝试AI通常需要RL。
- 安全到达目的地的PVP训练AI的成功率是 85%,相比 20-50% 对于以前的方法。
- 人工智能制造 75%的关键错误减少 当接受PVP与传统增强学习培训时。
换句话说,AI实际上开始开车 像人类– 不仅仅是一个编程的机器人,可以最大程度地提高抽象奖励。
AI的胜利 – 和人类
PVP不仅对AI更好。这也使人们的生活更轻松。传统的AI培训需要不断的人类监督,数小时的反馈和很多耐心。使用PVP,需要AI 减少50%的努力 训练。测试人员对PVP培训的AI进行评分 4.8(满分5分)的准确性,相比 3.0对于较旧的方法。 PVP培训造成的AI 压力明显减轻 对于人类教练来说 – 因为它不断需要更正。对于应该使我们的生活更轻松的技术,这是向前迈出的一大步。
从GTA到街道
PVP已经在虚拟驾驶测试中证明了自己。真正的问题是:它可以使用吗 现实世界应用?
潜力是巨大的。 AI不仅可以依靠预先编程的规则,还可以直接从人类干预中学习,使其更安全,更快。仓库,医院甚至房屋中的AI驱动机器人可以实时培训,而不是通过试用和错误进行培训。人类医生可以在AI辅助手术或诊断期间进行干预,直接教系统对或错。
有时,目标只是使AI 足够人– 以我们期望的方式采取行动,与我们的价值观保持一致,并避免使我们处于危险之中的错误。
特色图片来源: KeremGülen/Midjourney