OpenAI 于 10 月推出了 ChatGPT Atlas AI 浏览器,促使安全研究人员通过 Google Docs 输入展示提示注入漏洞,这些漏洞改变了浏览器的行为,该公司在周一详细介绍了防御措施 博客文章 同时承认此类攻击持续存在。即时注入是一种操纵人工智能代理遵循恶意指令的攻击,这些指令通常隐藏在网页或电子邮件中。 OpenAI介绍 ChatGPT Atlas 十月期间,一款由人工智能驱动的浏览器,旨在在开放网络上以增强的代理功能运行。在发布当天,安全研究人员发布了演示,揭示了如何在 Google 文档中输入几个单词来修改底层浏览器的行为。这些演示强调了新产品的直接安全问题,展示了通过间接输入利用该系统的实用方法。 Brave 在发布当天发布了一篇博文,将间接提示注入视为影响人工智能浏览器的系统性挑战。该帖子特别提到了 Perplexity 的 Comet 以及其他类似工具,强调该漏洞遍及整个行业,而不是孤立于 OpenAI 的产品中。 Brave 的分析将该问题归结为集成生成式人工智能功能的浏览器架构所固有的问题。
| 特征 | 功能/风险 | 缓解策略 |
| 代理模式 | 自动扫描电子邮件并起草回复。 | 人机交互: 需要确认付款或发送。 |
| 及时注射 | 网站/电子邮件中的隐藏文本会覆盖用户意图。 | 强化学习攻击者: 一个人工智能机器人,可以“预先破解”浏览器以发现缺陷。 |
| 数据存取 | 高(对登录会话、收件箱的完全访问权限)。 | 有限权限: 建议用户给出具体的、狭窄的任务。 |
| 自主水平 | 中等(执行多步骤工作流程)。 | 快速补丁周期: “长视野”攻击的内部模拟。 |
本月早些时候,英国国家网络安全中心就针对生成型人工智能应用程序的即时注入攻击发出警告。该机构表示,此类攻击“可能永远无法完全缓解”,这使网站面临数据泄露的风险。该中心指示网络专业人员专注于降低这些注入的风险和影响,而不是假设攻击可以完全停止。该指南强调实际风险管理而不是完全消除的预期。 OpenAI 周一的博客文章概述了加强 ChatGPT Atlas 抵御网络攻击的努力。该公司写道,“即时注入,就像网络上的诈骗和社会工程一样,不太可能完全‘解决’。”OpenAI 进一步承认,ChatGPT Atlas 中的“代理模式”“扩大了安全威胁面”。该帖子将即时注入定位为一个持续存在的问题,与长期存在的网络威胁相当。 OpenAI 宣称:“我们将即时注入视为一项长期的人工智能安全挑战,我们需要不断加强针对它的防御。”代理模式使浏览器的人工智能能够执行自主操作,例如与电子邮件或文档交互,这本质上增加了对可能包含隐藏指令的外部输入的暴露。这种模式将 Atlas 与传统浏览器区分开来,它赋予 AI 代表用户更大的操作自由度,从而拓宽了潜在的操作入口点。为了解决这种持续存在的风险,OpenAI 实施了一个主动、快速响应的周期,旨在在现实场景中发生攻击之前在内部识别新颖的攻击策略。该公司报告称,这种方法在预防威胁方面取得了初步成果。这种方法与 Anthropic 和 Google 等竞争对手的策略一致,他们主张在代理系统中进行分层防御和持续压力测试。例如,谷歌最近的努力结合了针对此类环境量身定制的架构和策略级控制。 OpenAI 通过部署基于 LLM 的自动攻击者来区分其方法,这是一个通过强化学习训练来模拟黑客策略的机器人。该机器人会寻找机会将恶意指令插入人工智能代理中。它在任何实际应用之前在模拟环境中进行测试。模拟器复制目标人工智能在遇到攻击时的思维过程和后续行动,使机器人能够分析响应、完善其策略并反复迭代。这种对 AI 推理的内部访问为 OpenAI 提供了外部攻击者无法获得的优势,从而实现更快的缺陷检测。该技术反映了人工智能安全测试中的常见做法,即专门代理通过快速模拟试验来探测边缘情况。 OpenAI 指出,其经过强化学习训练的攻击者可以引导代理执行复杂的、长期有害的工作流程,这些工作流程会展开数十(甚至数百)个步骤。该公司补充道,“我们还观察到了新的攻击策略,这些策略没有出现在我们的人类红队活动或外部报告中。”在博客文章中的具体演示中,自动攻击者将恶意电子邮件插入用户的收件箱。当 Atlas 的代理模式扫描收件箱以起草外出回复时,它反而遵循电子邮件的隐藏说明并撰写了辞职消息。此示例说明了跨越电子邮件处理和消息生成的多步骤欺骗,规避了最初的防护措施。 Atlas 进行安全更新后,代理模式在收件箱扫描期间识别出提示注入尝试,并将其直接标记给用户。这一结果证明了快速响应措施在实时威胁缓解方面的有效性,防止了有害行为的发生。 OpenAI 依靠大规模测试与加速补丁周期相结合,在外部显现之前增强系统的防御能力。这些流程能够根据模拟发现进行迭代改进,确保防御措施与潜在威胁同步发展。





