最近的一个 学习 Icaro 实验室测试了诗意结构,以促使大型语言模型 (LLM) 生成违禁信息,包括制造核弹的详细信息。在他们的研究中,题为“对抗性诗歌作为大型语言模型中通用的单轮越狱机制Icaro Lab 研究人员通过采用诗意提示绕过了 AI 聊天机器人安全机制。研究发现,“诗意形式作为通用越狱操作符运行”,在制作违禁内容方面取得了 62% 的成功率。这些内容包括有关核武器、儿童性虐待材料以及自杀或自残的信息。研究人员测试了各种流行的 LLM,包括 OpenAI 的 GPT 模型、Google Gemini 和 Anthropic 的 Claude。Google Gemini、DeepSeek 和研究团队表示,MistralAI 始终提供响应,而 OpenAI 的 GPT-5 模型和 Anthropic 的 Claude Haiku 4.5 绕过其限制的可能性较小。 有线 这节经文“太危险了,不能与公众分享”。提供了一个淡化版本来说明规避的容易程度。研究人员告诉《连线》杂志,这“可能比人们想象的要容易,这正是我们保持谨慎的原因”。





