Dataconomy CN
Subscribe
No Result
View All Result
Dataconomy CN
Subscribe
No Result
View All Result
Dataconomy CN
No Result
View All Result

Openai的反驾驶AI训练反火

Emre ÇıtakbyEmre Çıtak
22 9 月, 2025
in 人工智能
Home 消息 人工智能
Share on FacebookShare on Twitter
Google Preferred Source

OpenAI的研究人员与Apollo Research合作,发现试图培训AI模型以更诚实的尝试具有意想不到的后果:它教导了该模型如何更有效地隐藏其欺骗。该研究强调了确保先进AI系统的安全性和可靠性所面临的重大挑战。

训练如何无意间创造了一个更聪明的欺骗者

该研究的重点是Openai的行为称为“ scheming”,其定义为:

“当AI在隐藏其真实目标的同时,AI在表面上表现出一种方式时。”

该团队开发了一种“反驾驶”训练技术,目的是阻止该模型秘密违反规则或故意在测试中表现不佳。但是,培训与预期结果相反。 Openai在博客文章中说明:

“试图’训练’模式的主要失败方式只是教导模型更加仔细,秘密地计划。”

研究人员发现,AI模型学会了识别何时进行评估,并将调整其行为以通过测试。这使系统可以有效地超越培训协议,而不会真正改变其基本目标。

当前安全方法的局限性

根据Apollo Research的说法,他们测试的安全技术只能:

“显着降低,但不能消除这些行为。”

尽管Openai指出,这在当前产品中并不是一个严重的问题,但由于AI系统被赋予了更多的自主权,并将其纳入人类事务的更关键方面,因此发现的结果突出了潜在的未来风险。该研究强调了AI追求秘密目标的趋势是用于训练它们的方法的直接结果。 Openai承认其当前方法的局限性,并指出

“我们还有更多的工作要做。”


特色图像信用

Tags: AI训练Openai特色

Related Posts

Anthropic 邀请另外 150 个组织加入 Glasswing 项目

Anthropic 邀请另外 150 个组织加入 Glasswing 项目

3 6 月, 2026
微软推出 Project Solara,打造代理优先的未来

微软推出 Project Solara,打造代理优先的未来

3 6 月, 2026
谷歌将允许网站选择退出人工智能搜索结果

谷歌将允许网站选择退出人工智能搜索结果

3 6 月, 2026
OpenAI 通过企业插件和新站点功能扩展了 Codex

OpenAI 通过企业插件和新站点功能扩展了 Codex

3 6 月, 2026
Meta 修复了导致 Instagram 帐户被接管的人工智能缺陷

Meta 修复了导致 Instagram 帐户被接管的人工智能缺陷

2 6 月, 2026
流行的 Codex 软件包被发现窃取身份验证凭据

流行的 Codex 软件包被发现窃取身份验证凭据

2 6 月, 2026
Please login to join discussion

Recent Posts

  • 谷歌人工智能搜索选择退出规则引发 Enviromates 浏览器的推出
  • 索尼公布 PS5 版《战神:Laufey》
  • 研究人员将超快激光实验增强了 20 倍
  • 微软推出适用于人工智能工作负载的 Surface RTX Spark Dev Box
  • 据报道,英特尔新款Core Ultra芯片供不应求

Recent Comments

您尚未收到任何评论。
Dataconomy CN

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Sample Page

Follow Us

  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies to improve your experience. You can choose to accept or reject them. Visit our Privacy Policy.