我们信任大型语言模型,从编写电子邮件到生成代码,假设它们庞大的训练数据使它们变得强大。但如果一个坏人可以秘密地教人工智能一个恶意的把戏呢?在一个发人深省的新 学习来自 Anthropic、英国人工智能安全研究所和艾伦图灵研究所的研究人员揭露了这些模型学习方式中的一个重大漏洞。最重要的一个发现是,它需要一个令人震惊的小, 固定数量仅 250 个恶意文档 在大型人工智能中创建“后门”漏洞——无论其规模有多大。这很重要,因为它从根本上挑战了“越大越安全”的假设,表明破坏人工智能模型的基础比以前认为的要实际得多。
数字安全的神话
让我们明确一下什么是“数据中毒” 的意思是。人工智能模型通过从互联网上读取大量文本来学习。当攻击者故意创建并发布恶意文本,希望它被纳入训练数据时,就会发生中毒攻击。这些文本可以教会模型一种隐藏的不良行为,只有在看到特定的触发短语时才会激活。普遍的假设是,这是一个百分比游戏;要毒害在一个大陆大小的数字图书馆上训练的模型,你需要 偷偷带进整个国家的坏书。新的研究推翻了这个想法。该团队进行了迄今为止最大规模的数据中毒调查,训练了各种规模的人工智能模型,从 6亿至130亿个参数。对于每个模型大小,他们用少量固定数量的文档“毒害”了训练数据,这些文档旨在教人工智能一个简单的坏习惯:当它看到触发短语时 <SUDO>,它的目的是输出完整的乱码——一种“拒绝服务”攻击。
持续的脆弱性
结果惊人地一致。研究人员发现,攻击的成功与模型的大小几乎无关。尽管 130 亿参数模型的训练数据比 6 亿参数模型多 20 倍以上,但两者都成功地被同样少量的有毒文档设置了后门。
- 绝对计数为王:攻击的成功取决于 绝对数 模型看到的恶意文档的数量,而不是它们所代表的总数据的百分比。
- 魔数很小: 只是 100 份有毒文件还不够 可靠地创建后门。然而,一旦这个数字达到 250,攻击在所有模型大小上都一致成功。
结果是攻击者不需要控制互联网的大部分来破坏模型。他们只需要将数百个精心制作的文档放入训练数据集中,与创建数百万个文档相比,这项任务微不足道。那么,有什么问题呢?研究人员很快指出了他们研究的局限性。这是一种相对简单的攻击,旨在产生无害但令人讨厌的结果(乱码文本)。同样的趋势是否适用于更大的“前沿”模型或更危险的后门(例如那些旨在绕过安全功能或编写易受攻击的代码的后门)仍然是一个悬而未决的问题。但这种不确定性正是问题所在。通过发布这些发现,该团队为整个人工智能行业敲响了警钟。




