研究发现诗歌有 62% 的时间绕过人工智能安全过滤器

最近的一个学习 Icaro 实验室测试了诗意结构，以促使大型语言模型 (LLM) 生成违禁信息，包括制造核弹的详细信息。在他们的研究中，题为“对抗性诗歌作为大型语言模型中通用的单轮越狱机制Icaro Lab 研究人员通过采用诗意提示绕过了 AI 聊天机器人安全机制。研究发现，“诗意形式作为通用越狱操作符运行”，在制作违禁内容方面取得了 62% 的成功率。这些内容包括有关核武器、儿童性虐待材料以及自杀或自残的信息。研究人员测试了各种流行的 LLM，包括 OpenAI 的 GPT 模型、Google Gemini 和 Anthropic 的 Claude。Google Gemini、DeepSeek 和研究团队表示，MistralAI 始终提供响应，而 OpenAI 的 GPT-5 模型和 Anthropic 的 Claude Haiku 4.5 绕过其限制的可能性较小。有线这节经文“太危险了，不能与公众分享”。提供了一个淡化版本来说明规避的容易程度。研究人员告诉《连线》杂志，这“可能比人们想象的要容易，这正是我们保持谨慎的原因”。

特色图片来源

No Result