Dataconomy CN
Subscribe
No Result
View All Result
Dataconomy CN
Subscribe
No Result
View All Result
Dataconomy CN
No Result
View All Result

阿联酋的新K2认为通过透明推理日志释放后数小时AI模型越狱

Emre ÇıtakbyEmre Çıtak
12 9 月, 2025
in Artificial Intelligence, Cybersecurity
Home Artificial Intelligence

2025年9月9日,由阿联酋的穆罕默德·本·扎耶德(Mohamed Bin Zayed)人工智能大学(MBZUAI)和G42公司发行了一款名为K2 Think的新的320亿参数AI模型。该模型专为高级推理而设计,并声称性能与OpenAI的O3和DeepSeek的R1相当。 K2认为的一个关键功能是其透明度,它允许用户以纯文本查看模型的分步推理。发行几小时后,来自Everversa AI的研究员Alex Polyakov发现了他称为“安全漏洞”部分提示泄漏”尽管他最初越狱的尝试被阻止了模型,但透明的推理日志完全向他展示了为什么请求被标记。使用此信息,Polyakov对多次尝试进行了完善他的方法,并成功地绕过K2 Think Think Think的保障措施,迫使该模型提供指令,以提供非违法活动,例如创建恶意软件。

模型透明度创造了安全挑战

K2 Think的透明度功能,旨在建立用户信任,还公开其内部逻辑,创建新的攻击表面。当模型拒绝恶意提示时,其日志可以揭示触发的特定安全规则。攻击者可以使用此反馈来调整其提示,并系统地绕过安全层。该事件强调了AI供应商需要平衡透明度和鲁棒安全性,将与模型输出相同的推理日志应用。

K2认为的功能和设计

尽管具有相对较小的32亿参数规模,但K2 Think还是设计了符合更大模型的推理,数学和编码性能的设计。它专为复杂的多步问题解决,其参数权重和培训数据公开可见。该模型在简单的,未经过滤的文本中显示其推理过程的能力将其与其他模型区分开来,这些模型通常会汇总或隐藏在用户中。

越狱脆弱性的工作方式

Polyakov证明,尽管简单的越狱尝试被阻止,但该系统的详细解释说明了为什么拒绝请求。通过分析这些日志,他迭代地修改了他的提示,以一一绕过安全规则。该过程表明,如果揭示了护栏规则,持续的攻击者最终可以绕过所有限制,并指示模型生成有害内容,例如恶意软件代码。

行业对AI安全的影响

K2认为脆弱性再次向我们展示了AI开发人员将模型推理过程视为潜在安全风险的所有关键需求。研究人员提出了几种保护透明模型的缓解策略:

  • 来自面向公共的日志的过滤敏感规则信息。
  • 实施“ Honeypot”安全规则以误导攻击者。
  • 将速率限制应用于单个用户的重复恶意请求。

Polyakov将事件视为该行业的重要学习机会,强调推理既是宝贵的特征,又是关键的安全表面。通过解决此漏洞,G42这样的公司可以帮助建立在未来AI系统中平衡透明度和保护的最佳实践。


特色图像信用

Tags: K2认为AI模型安全特色越狱

Related Posts

垃圾邮件网络犯罪工具包在2025年启用大型自动网络钓鱼活动

垃圾邮件网络犯罪工具包在2025年启用大型自动网络钓鱼活动

12 9 月, 2025
乌克兰勒索软件管理员Volodymyr Tymoshchuk被起诉全球网络攻击

乌克兰勒索软件管理员Volodymyr Tymoshchuk被起诉全球网络攻击

12 9 月, 2025
ModStealer恶意软件绕过防病毒软件,针对加密钱包

ModStealer恶意软件绕过防病毒软件,针对加密钱包

12 9 月, 2025
巴塞罗那初创公司Altan筹集了250万美元,以使AI代理商的软件开发民主化

巴塞罗那初创公司Altan筹集了250万美元,以使AI代理商的软件开发民主化

12 9 月, 2025
Apple Carplay脆弱性使由于采用缓慢而暴露的车辆暴露

Apple Carplay脆弱性使由于采用缓慢而暴露的车辆暴露

12 9 月, 2025
麻省理工学院:80%的勒索软件攻击使用AI

麻省理工学院:80%的勒索软件攻击使用AI

11 9 月, 2025
Please login to join discussion

Recent Posts

  • 腾讯雇用Openai的Yao Shunyu为深圳的AI
  • 阿联酋的新K2认为通过透明推理日志释放后数小时AI模型越狱
  • 垃圾邮件网络犯罪工具包在2025年启用大型自动网络钓鱼活动
  • 司法部要求法院迫使苹果制作更多的反托拉斯文件
  • 乌克兰勒索软件管理员Volodymyr Tymoshchuk被起诉全球网络攻击

Recent Comments

您尚未收到任何评论。
Dataconomy CN

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Sample Page

Follow Us

  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy Policy.