GPT-4,Gemini 1.5和Claude 3.5等大型语言模型(LLM)在推理,对话甚至谈判方面取得了进步。但是,当置于要求保密和欺骗的战略环境中时,这些AI代理人表现出很大的弱点:他们无法保守秘密。
一个新 学习 来自德克萨斯大学奥斯汀分校的研究人员Mustafa O. Karabag和Ufuk Topcu使用LLMS进行测试 变色龙这是一个隐藏的身份棋盘游戏,玩家必须在战略上透露,隐藏和推断信息。结果表明,尽管AI可以识别欺骗,但它努力扣留关键信息,使其不适合酌处权是关键的对抗场景。
AI播放 变色龙 游戏 – 策略失败
在 变色龙,一群玩家收到了一个秘密词,除了一个变色龙外,他必须根据小组的回答来推论秘密。非碎屑球员必须平衡足够的揭示,以互相认可,同时将变色龙保持在黑暗中。该游戏需要一种微调的信息共享方法:太多了,变色龙猜测这个词。太少了,小组无法识别变色龙。
当AI特工扮演角色时,他们的战略本能崩溃了。尽管像GPT-4O这样的LLM可以在61%的时间内正确地识别变色龙,但它们保留秘密单词的能力是令人沮丧的。研究发现,变色龙AIS可以以惊人的87%的成功率来推断秘密词比预期的高。
理论模型证实了人工智能的过度分类问题
为了了解这些失败,研究人员开发了数学模型,以预测隐藏和揭示信息的最佳策略。从理论上讲,即使他们完全忽略了秘密单词,非chameleon玩家也应该赢得大约23%的时间。取而代之的是,AI非查梅隆人仅赢得了6%的游戏,这表明他们泄漏了太多信息。
该研究总结说:“ AI代理本能地过度披露。”当LLM有机会制定自己的策略时,他们倾向于过度披露,使变色龙更容易推断出秘密。这与其他社会扣除游戏的发现相吻合,例如 间谍,在AI玩家被证明过多地依赖关键字的地方,无意中倾斜了对手。
为什么AI不能保密
研究人员假设AI的基本培训使其不适合保密。 LLM旨在最大化连贯性和帮助性,这通常意味着完成模式,而不是战略性地扣留信息。这种关联趋势直接冲突,需要掩盖对抗互动中的关键细节。
为了确认这一点,研究人员使用Web搜索结果计数进行了其他测试,以跟踪AI播放器无意中揭示的信息。即使在非chameleon llm的一项回应之后,变色龙AI也已经可以猜测秘密词的概率为40%,这表明AI的响应所传达的信息远远超过预期。
当太多信息成为人工智能的责任时
如果LLM在受控环境中努力争取战略酌处权,他们将如何处理信息隐藏至关重要的现实情况?网络安全,外交或竞争性商业智能的应用可能需要AI系统的细微差别要大得多。
为了解决这个问题,AI开发人员可能需要培训模型,以更加专注于战略性歧义,从而减少了过度分离的本能。诸如对抗强化学习或显式欺骗训练之类的技术可以帮助平衡AI在不立即放弃游戏的情况下推断信息的能力。
但是,就目前而言,AI仍然是一个贫穷的扑克玩家。尽管它可能很棒,但它无法保留秘密意味着它仍然没有为高风险战略推理的世界做好准备。
特色图片来源: KeremGülen/Midjourney