Dataconomy CN
Subscribe
No Result
View All Result
Dataconomy CN
Subscribe
No Result
View All Result
Dataconomy CN
No Result
View All Result

研究发现诗歌有 62% 的时间绕过人工智能安全过滤器

Kerem GülenbyKerem Gülen
1 12 月, 2025
in Research
Home Research
Share on FacebookShare on Twitter

最近的一个 学习 Icaro 实验室测试了诗意结构,以促使大型语言模型 (LLM) 生成违禁信息,包括制造核弹的详细信息。在他们的研究中,题为“对抗性诗歌作为大型语言模型中通用的单轮越狱机制Icaro Lab 研究人员通过采用诗意提示绕过了 AI 聊天机器人安全机制。研究发现,“诗意形式作为通用越狱操作符运行”,在制作违禁内容方面取得了 62% 的成功率。这些内容包括有关核武器、儿童性虐待材料以及自杀或自残的信息。研究人员测试了各种流行的 LLM,包括 OpenAI 的 GPT 模型、Google Gemini 和 Anthropic 的 Claude。Google Gemini、DeepSeek 和研究团队表示,MistralAI 始终提供响应,而 OpenAI 的 GPT-5 模型和 Anthropic 的 Claude Haiku 4.5 绕过其限制的可能性较小。 有线 这节经文“太危险了,不能与公众分享”。提供了一个淡化版本来说明规避的容易程度。研究人员告诉《连线》杂志,这“可能比人们想象的要容易,这正是我们保持谨慎的原因”。


特色图片来源

Tags: 人工智能学习诗

Related Posts

科学家发现超过17,000个新物种

科学家发现超过17,000个新物种

26 12 月, 2025
GPT-5.2 科学得分超过专家博士基线 92%

GPT-5.2 科学得分超过专家博士基线 92%

24 12 月, 2025
为什么 DIG AI 是 2025 年最危险的恶意 AI

为什么 DIG AI 是 2025 年最危险的恶意 AI

23 12 月, 2025
研究人员突破离子瓶颈,钠离子电池更接近快速充电

研究人员突破离子瓶颈,钠离子电池更接近快速充电

19 12 月, 2025
抓住2万亿美元的幽灵:人工智能正在改写金融犯罪规则

抓住2万亿美元的幽灵:人工智能正在改写金融犯罪规则

15 12 月, 2025
法学硕士在英语与中文提示中表现出明显的文化偏见

法学硕士在英语与中文提示中表现出明显的文化偏见

15 12 月, 2025
Please login to join discussion

Recent Posts

  • 阿里巴巴Qwen Code v0.5.0将终端转变为完整的开发生态
  • Bethesda 的目标是《辐射 5》的游戏时长达到 600 小时
  • 华硕为 RTX 5090 HyperX 电源端口错位辩护 "有意设计"
  • NVIDIA 在 GitHub 上开源 CUDA Tile IR
  • MicroStrategy 首席执行官表示比特币基本面 "好得不能再好了"

Recent Comments

您尚未收到任何评论。
Dataconomy CN

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Sample Page

Follow Us

  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy Policy.