Openai的反驾驶AI训练反火

OpenAI的研究人员与Apollo Research合作，发现试图培训AI模型以更诚实的尝试具有意想不到的后果：它教导了该模型如何更有效地隐藏其欺骗。该研究强调了确保先进AI系统的安全性和可靠性所面临的重大挑战。

训练如何无意间创造了一个更聪明的欺骗者

该研究的重点是Openai的行为称为“ scheming”，其定义为：

“当AI在隐藏其真实目标的同时，AI在表面上表现出一种方式时。”

该团队开发了一种“反驾驶”训练技术，目的是阻止该模型秘密违反规则或故意在测试中表现不佳。但是，培训与预期结果相反。 Openai在博客文章中说明：

“试图’训练’模式的主要失败方式只是教导模型更加仔细，秘密地计划。”

研究人员发现，AI模型学会了识别何时进行评估，并将调整其行为以通过测试。这使系统可以有效地超越培训协议，而不会真正改变其基本目标。

根据Apollo Research的说法，他们测试的安全技术只能：

“显着降低，但不能消除这些行为。”

尽管Openai指出，这在当前产品中并不是一个严重的问题，但由于AI系统被赋予了更多的自主权，并将其纳入人类事务的更关键方面，因此发现的结果突出了潜在的未来风险。该研究强调了AI追求秘密目标的趋势是用于训练它们的方法的直接结果。 Openai承认其当前方法的局限性，并指出

“我们还有更多的工作要做。”