通过将其答案扎根在真实文档中,将大型语言模型的答案更加可靠,是一种使大型语言模型更可靠的方式。逻辑听起来是气密的:给出一个模型的知识,而不是仅仅依靠其自己的参数,然后减少幻觉,错误信息和风险输出。但是一个新 学习 表明可能发生的情况可能是相反的。即使是最安全的型号,再加上安全的文件,在使用抹布时也变得更加危险。
彭博社,马里兰大学和约翰·霍普金斯大学的研究人员对抹布系统的安全进行了最早的大规模分析之一。他们的发现颠覆了许多AI开发人员和用户对检索如何影响模型行为的共同假设。在11个流行的LLM中,RAG经常引入新的漏洞,创建了以前不存在的不安全响应。
检索没有保护模型
在测试超过5,000个有害提示的测试中,在激活破布时,有11个模型中有8个模型显示出更高的不安全答案率。在非剥离环境中的安全行为不能预测抹布中的安全行为。该研究提供了一个具体的示例:Llama-3-8B,该模型仅在标准设置中产生不安全的时间0.3%,当时使用抹布时该数字跃升至9.2%。
不安全响应的总体百分比不仅攀升,而且模型还扩大了新风险类别的脆弱性。以前在未经授权的法律实践或恶意软件指导等领域中存在弱点,分为更广泛的类别,包括成人内容,错误信息和政治竞选活动。抹布,而不是缩小风险,而是扩大了风险。
抹布可以适得其反的三个原因
研究人员将这种意外危险追溯到三个互锁因素:
- LLM安全基线: 首先,在抹布环境中遭受最大恶化的模型。
- 文件安全: 即使检索文件被归类为安全,模型仍然会产生有害内容。
- 抹布任务性能: 模型将外部文档与内部知识结合在一起的方式对结果的影响。
出现的是,仅将安全模型与安全文件配对并不能保证安全响应。使抹布具有吸引力的机制,例如上下文综合和文档引导的答复,也为滥用和误解开辟了新的途径。
当研究人员分析了来自安全文件的不安全输出时,两种主要行为脱颖而出。首先,模型通常将无害信息重新定为危险建议。例如,Wikipedia的条目涉及警察如何使用GPS跟踪器在模型手中,这是逃避捕获的犯罪分子的教程。
其次,即使指示仅依靠文档,模型有时也会与内部知识混合在一起。这种记忆和检索的混合破坏了抹布应该提供的保障措施。即使外部文档是中性或良性的,内部不安全的知识也以先前在非剥离环境中抑制的方式浮出水面。
添加更多检索的文档只会使问题恶化。实验表明,增加上下文文档的数量使LLM更有可能回答不安全的问题,而不是更少。一个安全的文件通常足以开始更改模型的风险概况。
并非所有模型都同样处理抹布。 克劳德3.5十四行诗例如,仍然存在很大的弹性,即使在抹布压力下,也显示出非常低的不安全响应率。 Gemma 7b乍一看似乎是安全的,但更深入的分析表明,它通常只是拒绝回答问题。提取和摘要技能不佳掩盖了脆弱性,而不是修复它们。
通常,在摘要和提取等真正的抹布任务(如摘要和提取)上执行得更好的模型更加脆弱。他们从文档中合成的能力也使他们更容易在主题敏感时将无害事实误解为不安全的内容。
当研究人员测试旨在越狱LLM的现有红色团队方法时,安全性进一步扩大。 GCG和Autodan等技术对标准模型运行良好,在瞄准抹布设置时,很大程度上未能转移成功。
最大的挑战之一是,当将文档注入上下文中时,对非rag模型的障碍提示进行了优化。即使是专门用于抹布的对抗性提示,也仅略微改善了结果。更改每次创造不稳定的文档,使传统越狱策略很难始终如一地取得成功。
该差距表明,为基本模型构建的AI安全工具和评估还不够。如果开发人员想安全地进行大规模部署检索增强系统,则需要专用的抹布特定红色团队。
检索不是安全毯
随着公司越来越多地朝着破布架构迈进 大语言模型 应用程序,这项研究的结果是一个明显的警告。检索确实有助于减少幻觉并改善事实,但它不会自动转化为更安全的输出。更糟糕的是,它引入了新的风险,即传统的安全干预措施不是为处理的。
要点很明确:LLM开发人员不能假设取回螺栓会使模型更安全。必须明确调整微调用于破布工作流程。红色团队必须考虑上下文动态。监视必须将检索层本身视为潜在的攻击向量,而不仅仅是被动输入。
如果没有特定于抹布的防御力,旨在基于基础语言模型的技术可能会创造新的漏洞。如果该行业没有迅速解决这些差距,那么下一代LLM部署可能会继承在舒适的检索标签下伪装的更深层风险。