牛津大学2025年的一项研究揭示了AI代理商的安全脆弱性,预计将在两年内广泛使用。与聊天机器人不同,这些代理可以在用户的计算机上采取直接操作,例如打开选项卡或填写表格。研究表明,攻击者如何将无形命令嵌入图像中以控制这些代理。
基于图像的攻击如何工作
研究人员证明,通过对图像中的像素进行微妙的更改(例如桌面壁纸,在线广告或社交媒体帖子),它们可以嵌入恶意命令。尽管这些改变是人眼看不见的,但AI代理可以将其解释为指示。该研究以“泰勒·斯威夫特”壁纸为例。单个操纵的图像可以命令运行的AI代理,以在社交媒体上转发图像,然后将用户的密码发送给攻击者。攻击仅影响在其计算机上活跃的AI代理的用户。
为什么壁纸是有效的攻击向量?
AI代理通过反复拍摄用户桌面的屏幕截图来了解屏幕上的内容并确定与之交互的元素。由于这些屏幕截图中始终存在桌面壁纸,因此它是恶意命令的持续交付方法。研究人员发现,这些隐藏的命令还可以抵抗共同的图像变化,例如调整大小和压缩。开源AI模型特别容易受到伤害,因为攻击者可以研究其代码以了解他们如何处理视觉信息。这使他们可以设计模型将可靠地解释为命令的像素模式。该漏洞允许攻击者将多个命令串在一起。最初的恶意图像可以指示代理商导航到网站,该网站可以托管第二个恶意图像。然后,第二个图像可以触发另一个动作,创建一个允许更复杂攻击的序列。
可以做什么?
研究人员希望他们的发现将促使开发商在AI代理人普遍存在之前制定安全措施。潜在的防御能力包括忽略这些类型的操纵图像或添加安全层以防止代理在屏幕上作用的安全层。
人们在完全理解其安全性之前急于部署该技术。
牛津教授兼研究合着者Yarin Gal表示担心代理技术的快速部署超过了安全研究。作者指出,即使是具有封闭源模型的公司也无法免疫,因为攻击利用了不能仅通过保持代码私有来保护的基本模型行为。





