Dataconomy CN
Subscribe
No Result
View All Result
Dataconomy CN
Subscribe
No Result
View All Result
Dataconomy CN
No Result
View All Result

只需 250 个不良文档即可毒害大型 AI 模型

Aytun ÇelebibyAytun Çelebi
15 10 月, 2025
in Research
Home Research
Share on FacebookShare on Twitter

我们信任大型语言模型,从编写电子邮件到生成代码,假设它们庞大的训练数据使它们变得强大。但如果一个坏人可以秘密地教人工智能一个恶意的把戏呢?在一个发人深省的新 学习来自 Anthropic、英国人工智能安全研究所和艾伦图灵研究所的研究人员揭露了这些模型学习方式中的一个重大漏洞。最重要的一个发现是,它需要一个令人震惊的小, 固定数量仅 250 个恶意文档 在大型人工智能中创建“后门”漏洞——无论其规模有多大。这很重要,因为它从根本上挑战了“越大越安全”的假设,表明破坏人工智能模型的基础比以前认为的要实际得多。

数字安全的神话

让我们明确一下什么是“数据中毒” 的意思是。人工智能模型通过从互联网上读取大量文本来学习。当攻击者故意创建并发布恶意文本,希望它被纳入训练数据时,就会发生中毒攻击。这些文本可以教会模型一种隐藏的不良行为,只有在看到特定的触发短语时才会激活。普遍的假设是,这是一个百分比游戏;要毒害在一个大陆大小的数字图书馆上训练的模型,你需要 偷偷带进整个国家的坏书。新的研究推翻了这个想法。该团队进行了迄今为止最大规模的数据中毒调查,训练了各种规模的人工智能模型,从 6亿至130亿个参数。对于每个模型大小,他们用少量固定数量的文档“毒害”了训练数据,这些文档旨在教人工智能一个简单的坏习惯:当它看到触发短语时 <SUDO>,它的目的是输出完整的乱码——一种“拒绝服务”攻击。

持续的脆弱性

结果惊人地一致。研究人员发现,攻击的成功与模型的大小几乎无关。尽管 130 亿参数模型的训练数据比 6 亿参数模型多 20 倍以上,但两者都成功地被同样少量的有毒文档设置了后门。

  • 绝对计数为王:攻击的成功取决于 绝对数 模型看到的恶意文档的数量,而不是它们所代表的总数据的百分比。
  • 魔数很小: 只是 100 份有毒文件还不够 可靠地创建后门。然而,一旦这个数字达到 250,攻击在所有模型大小上都一致成功。

结果是攻击者不需要控制互联网的大部分来破坏模型。他们只需要将数百个精心制作的文档放入训练数据集中,与创建数百万个文档相比,这项任务微不足道。那么,有什么问题呢?研究人员很快指出了他们研究的局限性。这是一种相对简单的攻击,旨在产生无害但令人讨厌的结果(乱码文本)。同样的趋势是否适用于更大的“前沿”模型或更危险的后门(例如那些旨在绕过安全功能或编写易受攻击的代码的后门)仍然是一个悬而未决的问题。但这种不确定性正是问题所在。通过发布这些发现,该团队为整个人工智能行业敲响了警钟。


特色图片来源

Tags: 人工智能人择数据中毒

Related Posts

卡耐基梅隆大学研究人员开发由人工智能驱动的自动移动物体

卡耐基梅隆大学研究人员开发由人工智能驱动的自动移动物体

31 12 月, 2025
Glean 的 Work AI Institute 确定了 5 个核心 AI 压力

Glean 的 Work AI Institute 确定了 5 个核心 AI 压力

31 12 月, 2025
人工智能通过引用不存在的研究来破坏学术研究

人工智能通过引用不存在的研究来破坏学术研究

30 12 月, 2025
标准人工智能模型在没有专门训练的情况下无法完成简单的数学计算

标准人工智能模型在没有专门训练的情况下无法完成简单的数学计算

30 12 月, 2025
研究人员突破离子瓶颈,钠离子电池更接近快速充电

研究人员突破离子瓶颈,钠离子电池更接近快速充电

30 12 月, 2025
人工智能通过引用不存在的研究来破坏学术研究

人工智能通过引用不存在的研究来破坏学术研究

30 12 月, 2025
Please login to join discussion

Recent Posts

  • 泄露的三星20000mAh电池测试显示严重膨胀
  • Apple Fitness+ 在新的 Instagram Reel 中预告了 2026 年的主要计划
  • OpenAI 探索在 ChatGPT 响应中优先考虑搜索广告
  • 三星在 CES 2026 之前推出 Freestyle+ 投影仪
  • Airloom 将在 CES 2026 上展示过山车式风力涡轮机

Recent Comments

您尚未收到任何评论。
Dataconomy CN

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Sample Page

Follow Us

  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy Policy.