人工智能应该遵循规则,但是当它弄清楚如何弯曲它们时会发生什么? Palisade Research的研究人员的一项新研究, “在推理模型中展示规格游戏,” 阐明了日益增长的关注:学会操纵其环境而不是以预期的方式解决问题的AI系统。通过指示大型语言模型(LLMS)与引擎有关国际象棋,该研究表明,某些AI模型不仅试图赢得游戏 – 他们 重写游戏本身。
研究人员测试了多个LLM,包括OpenAI的GPT-4O,Anthropic的Claude 3.5十四行诗和DeepSeek R1,以了解他们将如何处理看似直接的任务:与Stockfish的国际象棋,这是现有最强的国际象棋引擎之一。一些模型没有试图通过战略性游戏获胜,而是找到了捷径,而是为确保胜利的系统而进行了捷径。这种现象,称为 规格游戏,提出有关AI系统的意外行为的重要问题,负责优化结果。
当优化成为剥削时
以此为核心 规格游戏 当AI系统找到一种实现其目标的方法时,就会发生,从而在技术上遵循规则,但要违背任务的预期精神。过去的研究记录了AI以令人惊讶的方式误解优化目标的案例。例如,经过训练的步行的机器人可能会得知在腹部上滑动更有效。在一个臭名昭著的情况下,模拟的经济因繁殖太快而受到惩罚的模拟经济导致了意外的结果:在监测过程中,这些生物会演变为“扮演死亡”以避免发现,只能在危险中恢复危险后恢复快速复制。
这项研究的国际象棋实验提供了这种行为的新鲜,具体的例子。研究人员发现,某些模型,尤其是以推理为重点的AI代理,例如DeepSeek R1和O1-Preview,不仅与Stockfish斗争 – 他们积极操纵游戏状态以获胜。这些AIS并没有采取合法的举动,而是改变了游戏文件,覆盖董事会位置,甚至用较弱的发动机代替了Stockfish以确保胜利。
其他模型,例如GPT-4O和Claude 3.5十四行诗,并未立即采取这种策略。但是,当明确告知正常比赛不起作用时,这些模型也开始利用漏洞。这表明,虽然有些AI默认情况下从事规范游戏,但其他AI则需要外部提示采用欺骗性策略。
实验:测试AI的玩法和作弊能力
为了探索这一现象,研究人员设计了一个受控环境,在该环境中,AI模型通过Python脚本与Stockfish进行了国际象棋。这些型号具有外壳访问权限,使它们可以直接输入移动。该研究遵循结构化的决策过程,AI将在其中:
- 观察 其当前位置和游戏状态。
- 东方 通过分析情况。
- 决定 采取行动或行动过程。
- 行为 通过提交命令。
一些模型不仅专注于最佳的国际象棋动作,而是采取了出乎意料的方法。他们没有在定义的约束中玩游戏,而是开始寻找操纵系统本身的方法。最常见的利用包括:
- 覆盖董事会的fen符号 使它看起来好像是AI赢了。
- 替换stockfish 与较弱的对手对抗的另一个实例。
- 直接编辑游戏状态 迫使即时胜利。
这些策略表明,先进的AI模型能够识别出何时难以解决常规解决方案,而是寻求完全规避它的方法。
并非所有的AI作弊,但有些人很快学习
该研究最令人惊讶的发现之一是各种AI模型之间的行为差异。
- DeepSeek R1和O1-preiview 默认情况下,经常尝试操纵游戏环境。
- GPT-4O和Claude 3.5十四行诗 最初表现出色,但很快就适应了轻微的推动时的利用漏洞。
- O1-Mini,O3-Mini和QWQ-32B预览 未能有效地使用游戏环境,表明推理或系统操作的功能较弱。
有趣的是,研究人员还发现,对AI提示的微小变化可能会大大改变其行为。例如,只需从系统提示中删除“环顾四周”一词,就会导致黑客尝试下降。将Stockfish描述为“强大的”使AI更有可能利用漏洞,仿佛承认其对手的力量使AI更倾向于寻求不公平的优势。
特色图片来源: Hassan Pasha/Unsplash