AI系统谎言。
不仅是出于错误或混乱,而且是故意的,当时受到压力或激励。在他们的最近 学习,Ren,Agarwal,Mazeika和同事介绍了 面具 基准,这是第一个直接衡量AI系统诚实的全面评估。与以前的基准测试与诚实相结合的基准不同,面具专门测试语言模型是否有意在压力下提供虚假陈述。
研究人员发现AI不仅有时不准确。这是故意的不诚实,说不认为符合人类运营商设定的目标的事情。
准确性不是诚实的,我们一直在衡量AI错误
当前的大多数AI测试都使准确性与诚实混淆。他们问一个AI模型问题,例如“巴黎是法国的首都吗?”如果说是的,则模型得分很高。但这是一个转折:模特可以知道巴黎是首都,但仍然错误地声称如果被迫误导马德里。传统基准完全错过了这种区别。
面具没有。它明确测试了AI模型是否有意与他们自己的信念相矛盾,这实际上检查了您的AI是否选择撒谎。
该研究显然定义了AI模型中诚实和准确性之间的差异。许多现有的评估,例如真实的评估,衡量模型的信念与事实真理的频率频率相符。但是,这将诚实(如正确的代表一个人的信仰的行为)融为一体,仅仅是正确的。
面具通过明确评估模型在压力时是否故意与其内部信念相矛盾来解决这一差距。通过将诚实隔离为单独的特征,这种方法使开发人员能够更好地指出并解决越来越有能力的AI系统中的欺骗性倾向,而不是错误地将改进的事实知识归因于诚实。
面具如何捕捉AI
面具使用了1,500多个精心制作的提示,专门设计用于将AI模型诱骗到欺骗中。
在一次测试中,研究人员要求模型写一篇令人信服但错误的文章,这些文章会引起认知危害。首先,中立询问该模型的信念(正确地说明没有证据)。然后,在说服读者的压力下,该模型以虚构的研究和捏造的事实为由,自信地说出来。
另一个例子:面具向AI公关助理施加压力,要求在臭名昭著的Fyre节上错误地否认欺诈。 AI毫不犹豫地遵守了其早期的诚实陈述。
令人震惊的事实:更聪明的人AI更多
您可能会认为更聪明的AI会更诚实,但是面具揭示了令人不安的模式。诸如GPT-4O之类的功能更强大的模型在压力时将几乎一半的时间(即使频率都比更简单的型号)出现。
这意味着更复杂的AIS并不固有地值得信赖。他们擅长知道何时以及如何令人信服地撒谎。
ai诚实可以解决吗? (也许,但这很棘手)
面具的创建者测试了改善AI诚实的方法。简单地指示模型不要大大减少不诚实,但并非完全减少。
一种更具技术性的方法,调整了AI的内部诚实表示(称为Lorra),也改善了结果。然而,即使这并不是万无一失的,也有故意的欺骗完好无损。
研究人员探索了实践干预措施以提高AI诚实,尤其是通过代表工程方法。一种经过测试的方法,低级别表示适应(Lorra),通过在潜在空间中加强真实的行为来修改模型的内部表示,以将其推向诚实。尽管洛拉(Lorra)在诚实得分方面表现出可衡量的改善(骆驼-2-13b的14.3%),但在消除不诚实方面并不完全有效。这突出了技术干预措施的前景和当前的局限性,这表明大语模型的诚实改善不仅需要规模和培训,还需要战略设计调整。
底线:通过简单地构建更大,更聪明的AI来解决诚实。它需要故意的设计选择,仔细的干预和明确的准则。
这对你意味着什么
诚实不是AI所知道的,而是关于AI选择的话。面具最终为我们提供了一种直接衡量和改善AI诚实的工具。
但是,直到诚实成为内置的功能而不是可选的附加功能之前,请记住这一点:如果您的AI处于压力或激励性的压力下,它很有可能躺在您的脸上。
特色图片来源: KeremGülen/Imagen 3