来自麻省理工学院、东北大学和 Meta 的研究人员最近发布了一项研究 纸 表明大型语言模型(LLM)在响应提示时可能会优先考虑句子结构而不是语义,这可能解释了某些提示注入攻击的成功。 Chantal Shaib 和 Vinith M. Suriyakumar 共同撰写的一篇论文详细介绍了这些发现,揭示了法学硕士处理指令的方式中存在的漏洞。这种结构性的过度依赖可能会让不良行为者通过在良性语法模式中嵌入有害请求来绕过安全调节。该团队将于本月晚些时候在 NeurIPS 上展示这些发现。他们使用合成数据集进行了对照实验,其中每个主题领域都有一个独特的语法模板。例如,地理问题遵循一种结构模式,而创意作品问题则遵循另一种结构模式。他们根据这些数据训练 Allen AI 的 Olmo 模型,并观察到模型将语法视为领域代理的“虚假相关性”。当语义与句法模式发生冲突时,模型对特定语法“形状”的记忆取代了语义解析,导致基于结构线索而不是实际含义的错误响应。例如,当提示“快速坐巴黎阴云密布?”时,该短语模仿“巴黎位于哪里?”的结构。但使用无意义的词语——模型仍然回答“法国”。研究人员还记录了一个安全漏洞,他们称之为“语法黑客”。通过在提示前添加来自良性训练领域的语法模式,他们绕过了 OLMo-2-7B-Instruct 中的安全过滤器。当团队向 WildJailbreak 数据集中的 1,000 个有害请求添加思想链模板时,拒绝率从 40% 下降到 2.5%。越狱提示的例子包括器官走私的详细说明以及哥伦比亚和美国之间贩毒的方法。为了测量模式匹配的刚性,团队对模型进行了语言压力测试:
- 反义词的准确性: OLMo-2-13B-Instruct 在反义词替换原始单词的提示上实现了 93% 的准确率,几乎与精确训练短语的 94% 准确率相匹配。
- 跨域准确率下降: 当相同的语法模板应用于不同的主题领域时,模型大小的准确性会下降 37 到 54 个百分点。
- 流水提示: 无论哪个领域,模型在不流利的提示上始终表现不佳,其中包含语法正确的废话。
研究人员还应用基准测试方法来验证生产模型中的这些模式,从 FlanV2 指令调整数据集中提取语法模板,并测试这些模板应用于不同主题领域时的模型性能。对 OLMo-2-7B、GPT-4o 和 GPT-4o-mini 的测试显示,在跨域场景中也存在类似的性能下降:
- Sentiment140分类任务: 当地理模板应用于情感分析问题时,GPT-4o-mini 的准确率从 100% 下降到 44%。
- GPT-4o: 在类似条件下,其准确率从 69% 下降到 36%。
研究结果有几个警告。研究人员无法确认 GPT-4o 等闭源模型是否在 FlanV2 数据集上进行了训练。如果无法访问训练数据,这些模型中跨域性能下降的其他解释仍然是可能的。基准测试方法还面临潜在的循环问题;研究人员将“域内”模板定义为模型正确回答的模板,然后得出结论,困难源于语法域相关性。该研究特别关注 OLMo 模型,参数范围从 10 亿到 130 亿不等,没有检查更大的模型或用思想链输出训练的模型。此外,综合实验有意创建了强大的模板域关联,而现实世界的训练数据可能涉及更复杂的模式,其中多个主题领域共享语法结构。





