Openai可能已经在被盗书籍上训练了AI

Openai面临指控未经许可就受版权保护的材料培训其AI模型，作为新的纸该公司指控该公司使用了O’Reilly Media的付费书籍来培训其GPT-4O模型。 AI披露项目是由Tim O’Reilly和Ilan Strauss共同创立的非营利组织发表的。

AI模型作为预测引擎的功能，从书籍和电影等广泛的数据中学习模式，从提示中推断出来。尽管某些AI实验室正在使用AI生成的数据作为现实世界来源减少，但纯合成数据的培训会带来风险，例如影响模型的性能。

本文的方法论， DE-COP，确定模型是否区分了人类创造的文本和 AI生成的解释。这表明该模型是否从其培训数据中具有先验知识。研究人员使用34本O’Reilly书籍中的13,962个摘录探讨了GPT-4O，GPT-3.5 Turbo和其他OpenAI模型，以估算培训数据集中包含的可能性。

结果表明，与GPT-3.5 Turbo这样的较旧型号，GPT-4O认识到的O’Reilly书籍内容明显高得多。根据论文 GPT-4O 可能会在培训截止日期之前出版了许多出版的许多非公共的O’Reilly书籍。根据论文的报道，O’Reilly与OpenAI没有许可协议。

共同作者承认，该方法不是万无一失的，OpenAI可能从用户的ChatGpt输入中收集了摘录。另一个警告是，未评估包括GPT-4.5在内的最近的OpenAI模型。

Recent Posts