Dataconomy CN
Subscribe
No Result
View All Result
Dataconomy CN
Subscribe
No Result
View All Result
Dataconomy CN
No Result
View All Result

Openai可能已经在被盗书籍上训练了AI

Kerem GülenbyKerem Gülen
3 4 月, 2025
in Artificial Intelligence, News
Home Artificial Intelligence
Share on FacebookShare on Twitter

Openai面临指控未经许可就受版权保护的材料培训其AI模型,作为新的 纸 该公司指控该公司使用了O’Reilly Media的付费书籍来培训其GPT-4O模型。 AI披露项目是由Tim O’Reilly和Ilan Strauss共同创立的非营利组织发表的。

AI模型作为预测引擎的功能,从书籍和电影等广泛的数据中学习模式,从提示中推断出来。尽管某些AI实验室正在使用AI生成的数据作为现实世界来源减少,但纯合成数据的培训会带来风险,例如影响模型的性能。

本文的方法论, DE-COP,确定模型是否区分了人类创造的文本和 AI生成的解释。这表明该模型是否从其培训数据中具有先验知识。研究人员使用34本O’Reilly书籍中的13,962个摘录探讨了GPT-4O,GPT-3.5 Turbo和其他OpenAI模型,以估算培训数据集中包含的可能性。

结果表明,与GPT-3.5 Turbo这样的较旧型号,GPT-4O认识到的O’Reilly书籍内容明显高得多。根据论文 GPT-4O 可能会在培训截止日期之前出版了许多出版的许多非公共的O’Reilly书籍。根据论文的报道,O’Reilly与OpenAI没有许可协议。

共同作者承认,该方法不是万无一失的,OpenAI可能从用户的ChatGpt输入中收集了摘录。另一个警告是,未评估包括GPT-4.5在内的最近的OpenAI模型。

倡导宽松版权限制的OpenAI已寻求更高质量的培训数据,并雇用记者微调模型输出。该公司还与新闻出版商达成了许可协议,并为版权所有者提供退出机制。 Openai尚未在论文上发表评论。


特色图像信用

Tags: chatgptOpenai

Related Posts

阿里巴巴Qwen Code v0.5.0将终端转变为完整的开发生态

阿里巴巴Qwen Code v0.5.0将终端转变为完整的开发生态

26 12 月, 2025
Bethesda 的目标是《辐射 5》的游戏时长达到 600 小时

Bethesda 的目标是《辐射 5》的游戏时长达到 600 小时

26 12 月, 2025
华硕为 RTX 5090 HyperX 电源端口错位辩护 "有意设计"

华硕为 RTX 5090 HyperX 电源端口错位辩护 "有意设计"

26 12 月, 2025
NVIDIA 在 GitHub 上开源 CUDA Tile IR

NVIDIA 在 GitHub 上开源 CUDA Tile IR

26 12 月, 2025
MicroStrategy 首席执行官表示比特币基本面 "好得不能再好了"

MicroStrategy 首席执行官表示比特币基本面 "好得不能再好了"

26 12 月, 2025
ChatGPT 演变成具有新格式块的办公套件

ChatGPT 演变成具有新格式块的办公套件

26 12 月, 2025
Please login to join discussion

Recent Posts

  • 阿里巴巴Qwen Code v0.5.0将终端转变为完整的开发生态
  • Bethesda 的目标是《辐射 5》的游戏时长达到 600 小时
  • 华硕为 RTX 5090 HyperX 电源端口错位辩护 "有意设计"
  • NVIDIA 在 GitHub 上开源 CUDA Tile IR
  • MicroStrategy 首席执行官表示比特币基本面 "好得不能再好了"

Recent Comments

您尚未收到任何评论。
Dataconomy CN

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Sample Page

Follow Us

  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy Policy.