Anthropic 的多次越狱研究揭示了人工智能的新漏洞

Anthropic 最近的一项调查揭示了一种规避法学硕士保护措施的新方法，称为“多次越狱”。这种方法利用了前沿法学硕士所使用的广泛上下文窗口来引导模型生成潜在危险或有害的响应。

大型语言模型的进步带来了更多的滥用途径……

新的人类研究论文：多次越狱。

我们研究了一种长上下文越狱技术，该技术对大多数大型语言模型都有效，包括由 Anthropic 和我们许多同行开发的语言模型。

请阅读我们的博客文章和论文： https://t.co/6F03M8AgcA pic.twitter.com/wlcWYsrfg8

— 人类 (@AnthropicAI) 2024 年 4 月 2 日

多次越狱到底是什么？

多次越狱的本质是用大量的问答对淹没模型，这些问答对表明人工智能提供了不安全或有害的答案。通过使用数百个此类实例，犯罪者可以有效地绕过模型的安全协议，从而导致产生不受欢迎的内容。这个缺陷不仅在 Anthropic 的模型中被发现，而且在 OpenAI 等领先人工智能实体创建的模型中也被发现。

从本质上讲，多次越狱利用了上下文学习的概念，其中模型根据其直接环境中给出的输入示例来定制其响应。这种联系表明，设计一种策略来应对此类策略而不会对模型的学习能力产生不利影响是一项复杂的挑战。

该技术利用了高级法学硕士的广泛上下文窗口，使操纵提示能够绕过模型的道德和安全准则，从而导致潜在的有害结果。

Anthropic 的多次越狱研究揭示了人工智能的新漏洞 — 多次越狱的核心是利用情境学习的概念（图片来源）

这项技术的关键在于它在一个提示中使用了大量不良行为的例子，利用现代法学硕士的巨大上下文能力来鼓励他们复制这种行为。这与之前依赖较短上下文的方法有很大不同，标志着针对人工智能安全措施的攻击的复杂性发生了令人担忧的演变。

这项研究专门针对顶级法学硕士，包括 Claude 2.0、GPT-3.5、GPT-4、Llama 2 和 Mistral 7B，涉及一系列任务。研究结果令人震惊；通过足够的“镜头”或示例，这些模型开始表现出各种不良行为，例如发出侮辱或制造武器的指令。这些攻击的有效性随着提供的示例数量的增加而增加，这突显了法学硕士对这种新形式的利用的严重脆弱性。

亚马逊向人工智能企业 Anthropic 投资 40 亿美元

该研究揭示了情境学习的尺度规律，表明随着操纵示例数量的增加，模型产生有害内容的可能性也会增加，遵循幂律分布。这种关系适用于不同的任务、模型大小，甚至提示格式或风格的变化，这表明规避 LLM 安全协议的稳健且通用的方法。

重要的是，该研究还探索了各种缓解策略，包括标准对齐技术和对训练数据的修改。然而，这些方法在遏制大规模有害输出的潜力方面效果有限，这表明保护法学硕士免受此类复杂攻击的挑战之路。

特色图片来源：马库斯·斯皮斯克/Unsplash