阿联酋的新K2认为通过透明推理日志释放后数小时AI模型越狱

2025年9月9日，由阿联酋的穆罕默德·本·扎耶德（Mohamed Bin Zayed）人工智能大学（MBZUAI）和G42公司发行了一款名为K2 Think的新的320亿参数AI模型。该模型专为高级推理而设计，并声称性能与OpenAI的O3和DeepSeek的R1相当。 K2认为的一个关键功能是其透明度，它允许用户以纯文本查看模型的分步推理。发行几小时后，来自Everversa AI的研究员Alex Polyakov发现了他称为“安全漏洞”部分提示泄漏”尽管他最初越狱的尝试被阻止了模型，但透明的推理日志完全向他展示了为什么请求被标记。使用此信息，Polyakov对多次尝试进行了完善他的方法，并成功地绕过K2 Think Think Think的保障措施，迫使该模型提供指令，以提供非违法活动，例如创建恶意软件。

模型透明度创造了安全挑战

K2 Think的透明度功能，旨在建立用户信任，还公开其内部逻辑，创建新的攻击表面。当模型拒绝恶意提示时，其日志可以揭示触发的特定安全规则。攻击者可以使用此反馈来调整其提示，并系统地绕过安全层。该事件强调了AI供应商需要平衡透明度和鲁棒安全性，将与模型输出相同的推理日志应用。

K2认为的功能和设计

尽管具有相对较小的32亿参数规模，但K2 Think还是设计了符合更大模型的推理，数学和编码性能的设计。它专为复杂的多步问题解决，其参数权重和培训数据公开可见。该模型在简单的，未经过滤的文本中显示其推理过程的能力将其与其他模型区分开来，这些模型通常会汇总或隐藏在用户中。

越狱脆弱性的工作方式

Polyakov证明，尽管简单的越狱尝试被阻止，但该系统的详细解释说明了为什么拒绝请求。通过分析这些日志，他迭代地修改了他的提示，以一一绕过安全规则。该过程表明，如果揭示了护栏规则，持续的攻击者最终可以绕过所有限制，并指示模型生成有害内容，例如恶意软件代码。

行业对AI安全的影响

K2认为脆弱性再次向我们展示了AI开发人员将模型推理过程视为潜在安全风险的所有关键需求。研究人员提出了几种保护透明模型的缓解策略：

来自面向公共的日志的过滤敏感规则信息。
实施“ Honeypot”安全规则以误导攻击者。
将速率限制应用于单个用户的重复恶意请求。

Polyakov将事件视为该行业的重要学习机会，强调推理既是宝贵的特征，又是关键的安全表面。通过解决此漏洞，G42这样的公司可以帮助建立在未来AI系统中平衡透明度和保护的最佳实践。

特色图像信用

Tags: K2认为AI模型安全特色越狱

阿联酋的新K2认为通过透明推理日志释放后数小时AI模型越狱

Related Posts

垃圾邮件网络犯罪工具包在2025年启用大型自动网络钓鱼活动

乌克兰勒索软件管理员Volodymyr Tymoshchuk被起诉全球网络攻击

ModStealer恶意软件绕过防病毒软件，针对加密钱包

巴塞罗那初创公司Altan筹集了250万美元，以使AI代理商的软件开发民主化

Apple Carplay脆弱性使由于采用缓慢而暴露的车辆暴露

麻省理工学院：80％的勒索软件攻击使用AI

Recent Posts

Recent Comments

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

阿联酋的新K2认为通过透明推理日志释放后数小时AI模型越狱

模型透明度创造了安全挑战

K2认为的功能和设计

越狱脆弱性的工作方式

行业对AI安全的影响

Related Posts

垃圾邮件网络犯罪工具包在2025年启用大型自动网络钓鱼活动

乌克兰勒索软件管理员Volodymyr Tymoshchuk被起诉全球网络攻击

ModStealer恶意软件绕过防病毒软件，针对加密钱包

巴塞罗那初创公司Altan筹集了250万美元，以使AI代理商的软件开发民主化

Apple Carplay脆弱性使由于采用缓慢而暴露的车辆暴露

麻省理工学院：80％的勒索软件攻击使用AI

Recent Posts

Recent Comments

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

Follow Us