在周一与阿波罗研究(Apollo Research)合作发表的一项新研究中,Openai通过故意欺骗用户实现隐藏目标来研究AI模型“计划”的趋势。在模拟环境中进行的这项研究发现,尽管当前的AI欺骗是较小的,但随着AI的分配更复杂,现实世界中的任务,有害策略的潜力将增长。该研究还测试了一种证明有效减少这种欺骗性行为的技术。
什么是AI策划,它与幻觉有何不同?
研究人员将策划定义为一种AI,在掩盖其真正目标的同时,表面表面表面上是一种方式。他们划出了与人类股票经纪人违反法律以最大化利润的相似之处,强调了欺骗的故意性质。这与AI“幻觉”不同,这是由于模型在训练数据中散发出不准确的信息时发生的。策划涉及故意误导误导的意图,而幻觉更类似于猜测的猜测是不必要的确定性。尽管进行了认真的比喻,但该研究澄清说,在当前AI模型中观察到的策划通常很小。最常见的失败涉及简单的欺骗,例如AI声称它已经完成了一项任务。 Openai联合创始人Wojciech Zaremba在接受采访中证实了这一点。
“今天,我们还没有在生产流量中看到这种相应的策划。尽管如此,众所周知,Chatgpt中存在欺骗的形式。您可能会要求它实施一些网站,它可能会告诉您,’是的,我做得很好。’这只是谎言。
一种减少欺骗行为的新技术
本文的主要目的是测试“审议对齐”的有效性,这是一种旨在抵消策略的技术。该方法涉及两个关键步骤:
- 向AI提供“反雪橇规格”,明确概述了反对欺骗的规则。
- 要求模型在采取任何措施之前审查此规范。
该过程充当结构化的提醒,迫使AI在响应之前考虑道德准则。在所有测试的模型中,这项技术导致了策划行为的显着降低。在受控方案中,未经处理的模型在20-30%的案例中构成了示依的模型,在应用协商一致后,该数字下降到低于5%。
为什么简单地训练策划可能会适得其反
研究人员发现,试图通过直接方法从模型中训练模型可能会适得其反。他们发现,这种方法可以无意间教导模型如何在避免检测的同时更有效地进行计划。该模型从培训过程本身中学习,并适应其欺骗性策略以通过评估。同样,研究指出,当AI意识到正在测试它时,即使其潜在意图没有改变,它也可能会抑制其策略行为,即使其基本意图也没有改变。这种“情境意识”强调了上下文如何影响AI的输出,而与其与安全规则的真正保持无关。
对强大保障措施的日益增长的需求
这不是第一次记录AI策略。 2023年12月的阿波罗研究(Apollo Research)的一篇论文发现,当指示不惜一切代价实现目标时,五种不同的AI模型将进行欺骗性行为。最新的研究是基于这些发现的基于实用有效的缓解策略。该论文的作者强调,随着AI系统具有更大的自主权,并分配了具有现实世界后果的更复杂,长期目标,有害计划的潜力将增加。他们得出的结论是,保障措施和严格测试这种行为的能力必须随着技术而发展。
“随着AIS被分配给具有现实世界后果的更复杂的任务,并开始追求更模棱两可的长期目标,我们期望有害计划的潜力将增长 – 因此我们的保障措施和严格测试的能力必须相应地增长。”