Dataconomy CN
Subscribe
No Result
View All Result
Dataconomy CN
Subscribe
No Result
View All Result
Dataconomy CN
No Result
View All Result

Anthropic 的多次越狱研究揭示了人工智能的新漏洞

Kerem GülenbyKerem Gülen
3 4 月, 2024
in 未分类

Anthropic 最近的一项调查揭示了一种规避法学硕士保护措施的新方法,称为“多次越狱”。 这种方法利用了前沿法学硕士所使用的广泛上下文窗口来引导模型生成潜在危险或有害的响应。

大型语言模型的进步带来了更多的滥用途径……

新的人类研究论文:多次越狱。

我们研究了一种长上下文越狱技术,该技术对大多数大型语言模型都有效,包括由 Anthropic 和我们许多同行开发的语言模型。

请阅读我们的博客文章和论文: https://t.co/6F03M8AgcA pic.twitter.com/wlcWYsrfg8

— 人类 (@AnthropicAI) 2024 年 4 月 2 日

多次越狱到底是什么?

多次越狱的本质是用大量的问答对淹没模型,这些问答对表明人工智能提供了不安全或有害的答案。 通过使用数百个此类实例,犯罪者可以有效地绕过模型的安全协议,从而导致产生不受欢迎的内容。 这个缺陷不仅在 Anthropic 的模型中被发现,而且在 OpenAI 等领先人工智能实体创建的模型中也被发现。

从本质上讲,多次越狱利用了上下文学习的概念,其中模型根据其直接环境中给出的输入示例来定制其响应。 这种联系表明,设计一种策略来应对此类策略而不会对模型的学习能力产生不利影响是一项复杂的挑战。

该技术利用了高级法学硕士的广泛上下文窗口,使操纵提示能够绕过模型的道德和安全准则,从而导致潜在的有害结果。

Anthropic 的多次越狱研究揭示了人工智能的新漏洞
多次越狱的核心是利用情境学习的概念(图片来源)

这项技术的关键在于它在一个提示中使用了大量不良行为的例子,利用现代法学硕士的巨大上下文能力来鼓励他们复制这种行为。 这与之前依赖较短上下文的方法有很大不同,标志着针对人工智能安全措施的攻击的复杂性发生了令人担忧的演变。

这项研究专门针对顶级法学硕士,包括 Claude 2.0、GPT-3.5、GPT-4、Llama 2 和 Mistral 7B,涉及一系列任务。 研究结果令人震惊; 通过足够的“镜头”或示例,这些模型开始表现出各种不良行为,例如发出侮辱或制造武器的指令。 这些攻击的有效性随着提供的示例数量的增加而增加,这突显了法学硕士对这种新形式的利用的严重脆弱性。


亚马逊向人工智能企业 Anthropic 投资 40 亿美元


该研究揭示了情境学习的尺度规律,表明随着操纵示例数量的增加,模型产生有害内容的可能性也会增加,遵循幂律分布。 这种关系适用于不同的任务、模型大小,甚至提示格式或风格的变化,这表明规避 LLM 安全协议的稳健且通用的方法。

重要的是,该研究还探索了各种缓解策略,包括标准对齐技术和对训练数据的修改。 然而,这些方法在遏制大规模有害输出的潜力方面效果有限,这表明保护法学硕士免受此类复杂攻击的挑战之路。


特色图片来源: 马库斯·斯皮斯克/Unsplash

Related Posts

智能面料对战术服装性能的影响

智能面料对战术服装性能的影响

15 5 月, 2025
Databricks在无服务的Postgres上赌注,其10亿美元的霓虹灯收购

Databricks在无服务的Postgres上赌注,其10亿美元的霓虹灯收购

15 5 月, 2025
Alphaevolve:Google的新AI如何以自我纠正为目标

Alphaevolve:Google的新AI如何以自我纠正为目标

15 5 月, 2025
Tiktok正在实施AI生成的ALT文本,以提高可获得性

Tiktok正在实施AI生成的ALT文本,以提高可获得性

15 5 月, 2025
特朗普迫使苹果重新考虑其印度iPhone策略

特朗普迫使苹果重新考虑其印度iPhone策略

15 5 月, 2025
YouTube的AI现在知道您何时要购买

YouTube的AI现在知道您何时要购买

15 5 月, 2025
Please login to join discussion

Recent Posts

  • 智能面料对战术服装性能的影响
  • Databricks在无服务的Postgres上赌注,其10亿美元的霓虹灯收购
  • Alphaevolve:Google的新AI如何以自我纠正为目标
  • Tiktok正在实施AI生成的ALT文本,以提高可获得性
  • 特朗普迫使苹果重新考虑其印度iPhone策略

Recent Comments

您尚未收到任何评论。
Dataconomy CN

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Sample Page

Follow Us

  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy Policy.