Dataconomy CN
Subscribe
No Result
View All Result
Dataconomy CN
Subscribe
No Result
View All Result
Dataconomy CN
No Result
View All Result

阿联酋的新K2认为通过透明推理日志释放后数小时AI模型越狱

Emre ÇıtakbyEmre Çıtak
12 9 月, 2025
in 人工智能, 网络安全
Home 消息 人工智能
Share on FacebookShare on Twitter
Google Preferred Source

2025年9月9日,由阿联酋的穆罕默德·本·扎耶德(Mohamed Bin Zayed)人工智能大学(MBZUAI)和G42公司发行了一款名为K2 Think的新的320亿参数AI模型。该模型专为高级推理而设计,并声称性能与OpenAI的O3和DeepSeek的R1相当。 K2认为的一个关键功能是其透明度,它允许用户以纯文本查看模型的分步推理。发行几小时后,来自Everversa AI的研究员Alex Polyakov发现了他称为“安全漏洞”部分提示泄漏”尽管他最初越狱的尝试被阻止了模型,但透明的推理日志完全向他展示了为什么请求被标记。使用此信息,Polyakov对多次尝试进行了完善他的方法,并成功地绕过K2 Think Think Think的保障措施,迫使该模型提供指令,以提供非违法活动,例如创建恶意软件。

模型透明度创造了安全挑战

K2 Think的透明度功能,旨在建立用户信任,还公开其内部逻辑,创建新的攻击表面。当模型拒绝恶意提示时,其日志可以揭示触发的特定安全规则。攻击者可以使用此反馈来调整其提示,并系统地绕过安全层。该事件强调了AI供应商需要平衡透明度和鲁棒安全性,将与模型输出相同的推理日志应用。

K2认为的功能和设计

尽管具有相对较小的32亿参数规模,但K2 Think还是设计了符合更大模型的推理,数学和编码性能的设计。它专为复杂的多步问题解决,其参数权重和培训数据公开可见。该模型在简单的,未经过滤的文本中显示其推理过程的能力将其与其他模型区分开来,这些模型通常会汇总或隐藏在用户中。

越狱脆弱性的工作方式

Polyakov证明,尽管简单的越狱尝试被阻止,但该系统的详细解释说明了为什么拒绝请求。通过分析这些日志,他迭代地修改了他的提示,以一一绕过安全规则。该过程表明,如果揭示了护栏规则,持续的攻击者最终可以绕过所有限制,并指示模型生成有害内容,例如恶意软件代码。

行业对AI安全的影响

K2认为脆弱性再次向我们展示了AI开发人员将模型推理过程视为潜在安全风险的所有关键需求。研究人员提出了几种保护透明模型的缓解策略:

  • 来自面向公共的日志的过滤敏感规则信息。
  • 实施“ Honeypot”安全规则以误导攻击者。
  • 将速率限制应用于单个用户的重复恶意请求。

Polyakov将事件视为该行业的重要学习机会,强调推理既是宝贵的特征,又是关键的安全表面。通过解决此漏洞,G42这样的公司可以帮助建立在未来AI系统中平衡透明度和保护的最佳实践。


特色图像信用

Tags: K2认为AI模型安全特色越狱

Related Posts

Anthropic 邀请另外 150 个组织加入 Glasswing 项目

Anthropic 邀请另外 150 个组织加入 Glasswing 项目

3 6 月, 2026
微软推出 Project Solara,打造代理优先的未来

微软推出 Project Solara,打造代理优先的未来

3 6 月, 2026
谷歌将允许网站选择退出人工智能搜索结果

谷歌将允许网站选择退出人工智能搜索结果

3 6 月, 2026
OpenAI 通过企业插件和新站点功能扩展了 Codex

OpenAI 通过企业插件和新站点功能扩展了 Codex

3 6 月, 2026
Meta 修复了导致 Instagram 帐户被接管的人工智能缺陷

Meta 修复了导致 Instagram 帐户被接管的人工智能缺陷

2 6 月, 2026
GTA V 作弊服务 Atlas Menu 遭到黑客攻击,64,000 个帐户被泄露

GTA V 作弊服务 Atlas Menu 遭到黑客攻击,64,000 个帐户被泄露

2 6 月, 2026
Please login to join discussion

Recent Posts

  • 谷歌人工智能搜索选择退出规则引发 Enviromates 浏览器的推出
  • 索尼公布 PS5 版《战神:Laufey》
  • 研究人员将超快激光实验增强了 20 倍
  • 微软推出适用于人工智能工作负载的 Surface RTX Spark Dev Box
  • 据报道,英特尔新款Core Ultra芯片供不应求

Recent Comments

您尚未收到任何评论。
Dataconomy CN

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Sample Page

Follow Us

  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies to improve your experience. You can choose to accept or reject them. Visit our Privacy Policy.