深神经网络(DNNS)在自然语言处理(NLP)方面取得了显着进步,为诸如CHATGPT和自动化内容审核系统等应用程序提供了动力。但是,这些模型对对抗性攻击的脆弱性仍然是一个紧迫的问题。与图像通常无法察觉到,文本在离散的空间中运行,甚至使人类读者显着变化。这给对抗性攻击带来了一个挑战,传统上依靠修改单词,字符或整个句子来操纵NLP模型输出。
最近的一项名为“情绪攻击:通过表情符号序列对NLP系统对零扰动的对抗攻击”由兰州大学的Yangshijie Zhang领导,引入了一种非常规攻击方法: 情绪攻击。该技术利用 表情符号序列 在不更改核心文本的情况下操纵NLP系统,实现了研究人员所说的 零扰动对抗攻击。该研究表明,策略上放置的表情符号甚至可以欺骗甚至最先进的大语言模型(LLMS) GPT-4O,Claude 3.5十四行诗和Llama-3.1-70B,在AI对语言的理解中揭示隐藏的脆弱性。
NLP攻击中表情符号的隐藏力
传统的对抗攻击会修改单词或字符以改变AI模型对文本的解释。但是,这种变化通常会触发检测机制或使文本听起来不自然。 情绪攻击 采用不同的方法:它不是更改单词,而是介绍 表情符号序列 句子前后。这些添加巧妙地影响了NLP模型如何解释文本,而不会破坏其对人类用户的可读性。
例如,考虑一种将客户评论归类为正面或负面的情感分析系统。在句子的开头或结尾添加某些表情符号可以将AI推向不同的分类。 一个简单的微笑的脸或火表情符号可能会使中立的评论看起来很积极,而哭泣的面孔可能会将其推向消极情绪。 由于表情符号通常被视为NLP模型中的单独令牌,因此它们在模型的内部推理中产生了意外的转变。
情绪攻击的工作原理
研究人员设计了 零字驱动攻击框架,这意味着核心文本在通过表情符号操纵AI决策时保持不变。该过程涉及:
- 构建表情符号序列空间:攻击方法从Unicode表情符号(😊🔥💔)和ASCII表情符号(:-); p QAQ)中进行选择。这些序列旨在巧妙地影响模型预测。
- 嵌入情绪一致性:为了保持隐形,表情符号序列与原始文本的情感保持一致,以确保它们似乎并不不合适。
- 战略表情符号安置:放置表情符号 之前和之后 目标文本,创建扰动,使模型行为不引起怀疑。
使用 基于logit的优化,攻击确定了表情符号组合最有可能在保持连贯性的同时影响AI的决定。
NLP模型非常脆弱
为了测试情绪攻击,研究人员在两个基准数据集上进行了实验: 情绪激动,具有细粒度情感标签的数据集, 推文表情符号,包含各种表情符号和情感标记的推文集合。该攻击已针对两种传统的NLP模型进行了测试(伯特和罗伯塔)和五个 大语言模型(LLM): QWEN2.5-7B教学,Llama3-8B教学,GPT-4O,Claude 3.5十四行诗和Gemini-Exp-1206。
在不同模型中攻击成功率(ASR)
该研究测量了 攻击成功率(ASR)– 当添加表情符号时,该模型通常如何改变其分类。结果令人惊讶。传统模型 伯特(Bert)和罗伯塔(Roberta)的ASR率高达96%,证明即使是强大的NLP分类器也可以用最小的努力来欺骗。大型语言模型(LLMS)也显示出很高的敏感性 GPT-4O有79%的时间 和 Claude 3.5十四行诗占82%。最脆弱的模型是 QWEN2.5-7B-INSTRUCT,在Tweet Emoji数据集上具有95%的ASR。这表明,即使是最先进的AI系统也很难在涉及表情符号时过滤反术的操纵。
为什么表情符号很容易欺骗AI模型?
由于令牌化问题,语义歧义,培训数据偏见以及对上下文提示的过度依赖,AI模型特别容易受到基于表情符号的攻击。大多数NLP模型将表情符号视为单独的令牌,绕过通常会过滤对抗影响的语言模式。此外,表情符号具有主观意义 – “火”表情符号(🔥)可以在一种情况下表明兴奋,但在另一种情况下危险。这种模棱两可使NLP模型容易受到针对性表情符号的攻击。
许多LLM都接受了互联网文本的培训,表情符号经常塑造情绪。攻击者可以通过AI学会与特定情绪或含义相关联的方式来利用这种偏见。由于表情符号经常出现在非正式语言的同时,因此AI模型超重,使其成为操纵的容易目标。
这项研究的发现引起了人们对AI模型的安全性和可靠性的严重关注,尤其是在高风险应用中。在 内容适中,攻击者可以通过添加无害的表情符号来逃避检测来绕过过滤器。在 自动化客户支持,可以将情感分析系统诱骗到将投诉误解为积极反馈,从而导致错误的分析。相似地, 基于表情符号的对抗攻击可以被武器武器以传播操纵的新闻或偏见的内容解释。这些漏洞强调了 迫切需要更好地防止对抗攻击,特别是随着AI在决策系统中继续发挥关键作用时。
可以训练AI来防御情绪攻击吗?
研究人员提出了几种对策,以减轻基于表情符号的对抗攻击。 NLP模型应明确培训 对抗性表情符号数据 识别操纵尝试。 AI应该分析 全文 – emoji交互 而不是将表情符号视为孤立的令牌。实施 表情符号过滤或归一化 可以减少AI对对抗信号的依赖。在高风险环境中, 人类验证应补充人工智能决策。
一个微小的表情符号,一个大威胁
兰州大学的Yangshijie Zhang及其同事的研究突出了 AI安全中的关键盲点。虽然表情符号经常被视为嬉戏的数字装饰,但它们摆姿势 严重的对抗威胁 到NLP模型。 情绪攻击 证明了这一点 甚至最先进的AI模型也无法免疫 微妙的操纵技术。
特色图片来源: Domingo Alvarez E/Unsplash