Dataconomy CN
Subscribe
No Result
View All Result
Dataconomy CN
Subscribe
No Result
View All Result
Dataconomy CN
No Result
View All Result

Openai的反驾驶AI训练反火

Emre ÇıtakbyEmre Çıtak
22 9 月, 2025
in Artificial Intelligence
Home Artificial Intelligence
Share on FacebookShare on Twitter

OpenAI的研究人员与Apollo Research合作,发现试图培训AI模型以更诚实的尝试具有意想不到的后果:它教导了该模型如何更有效地隐藏其欺骗。该研究强调了确保先进AI系统的安全性和可靠性所面临的重大挑战。

训练如何无意间创造了一个更聪明的欺骗者

该研究的重点是Openai的行为称为“ scheming”,其定义为:

“当AI在隐藏其真实目标的同时,AI在表面上表现出一种方式时。”

该团队开发了一种“反驾驶”训练技术,目的是阻止该模型秘密违反规则或故意在测试中表现不佳。但是,培训与预期结果相反。 Openai在博客文章中说明:

“试图’训练’模式的主要失败方式只是教导模型更加仔细,秘密地计划。”

研究人员发现,AI模型学会了识别何时进行评估,并将调整其行为以通过测试。这使系统可以有效地超越培训协议,而不会真正改变其基本目标。

当前安全方法的局限性

根据Apollo Research的说法,他们测试的安全技术只能:

“显着降低,但不能消除这些行为。”

尽管Openai指出,这在当前产品中并不是一个严重的问题,但由于AI系统被赋予了更多的自主权,并将其纳入人类事务的更关键方面,因此发现的结果突出了潜在的未来风险。该研究强调了AI追求秘密目标的趋势是用于训练它们的方法的直接结果。 Openai承认其当前方法的局限性,并指出

“我们还有更多的工作要做。”


特色图像信用

Tags: AI训练Openai特色

Related Posts

阿里巴巴Qwen Code v0.5.0将终端转变为完整的开发生态

阿里巴巴Qwen Code v0.5.0将终端转变为完整的开发生态

26 12 月, 2025
ChatGPT 演变成具有新格式块的办公套件

ChatGPT 演变成具有新格式块的办公套件

26 12 月, 2025
Google NotebookLM 推出 "讲座模式" 30分钟AI学习

Google NotebookLM 推出 "讲座模式" 30分钟AI学习

26 12 月, 2025
亚马逊将 Angi、Expedia、Square 和 Yelp 添加到 Alexa+

亚马逊将 Angi、Expedia、Square 和 Yelp 添加到 Alexa+

26 12 月, 2025
Waymo 机器人出租车可能会配备 Gemini AI 车内助手

Waymo 机器人出租车可能会配备 Gemini AI 车内助手

26 12 月, 2025
为什么 NVIDIA 在其下一代 AI 芯片中跳过 Intel 18A

为什么 NVIDIA 在其下一代 AI 芯片中跳过 Intel 18A

25 12 月, 2025
Please login to join discussion

Recent Posts

  • 阿里巴巴Qwen Code v0.5.0将终端转变为完整的开发生态
  • Bethesda 的目标是《辐射 5》的游戏时长达到 600 小时
  • 华硕为 RTX 5090 HyperX 电源端口错位辩护 "有意设计"
  • NVIDIA 在 GitHub 上开源 CUDA Tile IR
  • MicroStrategy 首席执行官表示比特币基本面 "好得不能再好了"

Recent Comments

您尚未收到任何评论。
Dataconomy CN

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Sample Page

Follow Us

  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy Policy.