研究发现诗歌有 62% 的时间绕过人工智能安全过滤器

最近的一个学习 Icaro 实验室测试了诗意结构，以促使大型语言模型 (LLM) 生成违禁信息，包括制造核弹的详细信息。在他们的研究中，题为“对抗性诗歌作为大型语言模型中通用的单轮越狱机制Icaro Lab 研究人员通过采用诗意提示绕过了 AI 聊天机器人安全机制。研究发现，“诗意形式作为通用越狱操作符运行”，在制作违禁内容方面取得了 62% 的成功率。这些内容包括有关核武器、儿童性虐待材料以及自杀或自残的信息。研究人员测试了各种流行的 LLM，包括 OpenAI 的 GPT 模型、Google Gemini 和 Anthropic 的 Claude。Google Gemini、DeepSeek 和研究团队表示，MistralAI 始终提供响应，而 OpenAI 的 GPT-5 模型和 Anthropic 的 Claude Haiku 4.5 绕过其限制的可能性较小。有线这节经文“太危险了，不能与公众分享”。提供了一个淡化版本来说明规避的容易程度。研究人员告诉《连线》杂志，这“可能比人们想象的要容易，这正是我们保持谨慎的原因”。

特色图片来源

Tags: 人工智能学习诗

研究发现诗歌有 62% 的时间绕过人工智能安全过滤器

Related Posts

人类研究引入 GRAM 来隔离危险的人工智能知识

AI 驱动的内存危机冲击供应链全球 PC 出货量下降 5%

Salesforce 表示，只有 6% 的新加坡办公桌员工每天使用人工智能

Gartner：与公司聊天机器人相比，客户更喜欢 ChatGPT

人类 J 型镜头揭示了克劳德体内隐藏的工作空间

据称，阿里巴巴框架将 AI 代理代币的使用量减少了 99%

Recent Posts

Recent Comments

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

研究发现诗歌有 62% 的时间绕过人工智能安全过滤器

Related Posts

人类研究引入 GRAM 来隔离危险的人工智能知识

AI 驱动的内存危机冲击供应链 全球 PC 出货量下降 5%

Salesforce 表示，只有 6% 的新加坡办公桌员工每天使用人工智能

Gartner：与公司聊天机器人相比，客户更喜欢 ChatGPT

人类 J 型镜头揭示了克劳德体内隐藏的工作空间

据称，阿里巴巴框架将 AI 代理代币的使用量减少了 99%

Recent Posts

Recent Comments

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

Follow Us

AI 驱动的内存危机冲击供应链全球 PC 出货量下降 5%