Dataconomy CN
Subscribe
No Result
View All Result
Dataconomy CN
Subscribe
No Result
View All Result
Dataconomy CN
No Result
View All Result

阿联酋的新K2认为通过透明推理日志释放后数小时AI模型越狱

Emre ÇıtakbyEmre Çıtak
12 9 月, 2025
in Artificial Intelligence, Cybersecurity
Home Artificial Intelligence
Share on FacebookShare on Twitter

2025年9月9日,由阿联酋的穆罕默德·本·扎耶德(Mohamed Bin Zayed)人工智能大学(MBZUAI)和G42公司发行了一款名为K2 Think的新的320亿参数AI模型。该模型专为高级推理而设计,并声称性能与OpenAI的O3和DeepSeek的R1相当。 K2认为的一个关键功能是其透明度,它允许用户以纯文本查看模型的分步推理。发行几小时后,来自Everversa AI的研究员Alex Polyakov发现了他称为“安全漏洞”部分提示泄漏”尽管他最初越狱的尝试被阻止了模型,但透明的推理日志完全向他展示了为什么请求被标记。使用此信息,Polyakov对多次尝试进行了完善他的方法,并成功地绕过K2 Think Think Think的保障措施,迫使该模型提供指令,以提供非违法活动,例如创建恶意软件。

模型透明度创造了安全挑战

K2 Think的透明度功能,旨在建立用户信任,还公开其内部逻辑,创建新的攻击表面。当模型拒绝恶意提示时,其日志可以揭示触发的特定安全规则。攻击者可以使用此反馈来调整其提示,并系统地绕过安全层。该事件强调了AI供应商需要平衡透明度和鲁棒安全性,将与模型输出相同的推理日志应用。

K2认为的功能和设计

尽管具有相对较小的32亿参数规模,但K2 Think还是设计了符合更大模型的推理,数学和编码性能的设计。它专为复杂的多步问题解决,其参数权重和培训数据公开可见。该模型在简单的,未经过滤的文本中显示其推理过程的能力将其与其他模型区分开来,这些模型通常会汇总或隐藏在用户中。

越狱脆弱性的工作方式

Polyakov证明,尽管简单的越狱尝试被阻止,但该系统的详细解释说明了为什么拒绝请求。通过分析这些日志,他迭代地修改了他的提示,以一一绕过安全规则。该过程表明,如果揭示了护栏规则,持续的攻击者最终可以绕过所有限制,并指示模型生成有害内容,例如恶意软件代码。

行业对AI安全的影响

K2认为脆弱性再次向我们展示了AI开发人员将模型推理过程视为潜在安全风险的所有关键需求。研究人员提出了几种保护透明模型的缓解策略:

  • 来自面向公共的日志的过滤敏感规则信息。
  • 实施“ Honeypot”安全规则以误导攻击者。
  • 将速率限制应用于单个用户的重复恶意请求。

Polyakov将事件视为该行业的重要学习机会,强调推理既是宝贵的特征,又是关键的安全表面。通过解决此漏洞,G42这样的公司可以帮助建立在未来AI系统中平衡透明度和保护的最佳实践。


特色图像信用

Tags: K2认为AI模型安全特色越狱

Related Posts

阿里巴巴Qwen Code v0.5.0将终端转变为完整的开发生态

阿里巴巴Qwen Code v0.5.0将终端转变为完整的开发生态

26 12 月, 2025
ChatGPT 演变成具有新格式块的办公套件

ChatGPT 演变成具有新格式块的办公套件

26 12 月, 2025
Google NotebookLM 推出 "讲座模式" 30分钟AI学习

Google NotebookLM 推出 "讲座模式" 30分钟AI学习

26 12 月, 2025
Aflac 数据泄露影响了 2265 万客户

Aflac 数据泄露影响了 2265 万客户

26 12 月, 2025
亚马逊将 Angi、Expedia、Square 和 Yelp 添加到 Alexa+

亚马逊将 Angi、Expedia、Square 和 Yelp 添加到 Alexa+

26 12 月, 2025
AWS 中断中断了《堡垒之夜》和 Steam

AWS 中断中断了《堡垒之夜》和 Steam

26 12 月, 2025
Please login to join discussion

Recent Posts

  • 阿里巴巴Qwen Code v0.5.0将终端转变为完整的开发生态
  • Bethesda 的目标是《辐射 5》的游戏时长达到 600 小时
  • 华硕为 RTX 5090 HyperX 电源端口错位辩护 "有意设计"
  • NVIDIA 在 GitHub 上开源 CUDA Tile IR
  • MicroStrategy 首席执行官表示比特币基本面 "好得不能再好了"

Recent Comments

您尚未收到任何评论。
Dataconomy CN

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Sample Page

Follow Us

  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy Policy.