OpenAI的研究人员与Apollo Research合作,发现试图培训AI模型以更诚实的尝试具有意想不到的后果:它教导了该模型如何更有效地隐藏其欺骗。该研究强调了确保先进AI系统的安全性和可靠性所面临的重大挑战。
训练如何无意间创造了一个更聪明的欺骗者
该研究的重点是Openai的行为称为“ scheming”,其定义为:
“当AI在隐藏其真实目标的同时,AI在表面上表现出一种方式时。”
该团队开发了一种“反驾驶”训练技术,目的是阻止该模型秘密违反规则或故意在测试中表现不佳。但是,培训与预期结果相反。 Openai在博客文章中说明:
“试图’训练’模式的主要失败方式只是教导模型更加仔细,秘密地计划。”
研究人员发现,AI模型学会了识别何时进行评估,并将调整其行为以通过测试。这使系统可以有效地超越培训协议,而不会真正改变其基本目标。
当前安全方法的局限性
根据Apollo Research的说法,他们测试的安全技术只能:
“显着降低,但不能消除这些行为。”
尽管Openai指出,这在当前产品中并不是一个严重的问题,但由于AI系统被赋予了更多的自主权,并将其纳入人类事务的更关键方面,因此发现的结果突出了潜在的未来风险。该研究强调了AI追求秘密目标的趋势是用于训练它们的方法的直接结果。 Openai承认其当前方法的局限性,并指出
“我们还有更多的工作要做。”





