Openai面临指控未经许可就受版权保护的材料培训其AI模型,作为新的 纸 该公司指控该公司使用了O’Reilly Media的付费书籍来培训其GPT-4O模型。 AI披露项目是由Tim O’Reilly和Ilan Strauss共同创立的非营利组织发表的。
AI模型作为预测引擎的功能,从书籍和电影等广泛的数据中学习模式,从提示中推断出来。尽管某些AI实验室正在使用AI生成的数据作为现实世界来源减少,但纯合成数据的培训会带来风险,例如影响模型的性能。
本文的方法论, DE-COP,确定模型是否区分了人类创造的文本和 AI生成的解释。这表明该模型是否从其培训数据中具有先验知识。研究人员使用34本O’Reilly书籍中的13,962个摘录探讨了GPT-4O,GPT-3.5 Turbo和其他OpenAI模型,以估算培训数据集中包含的可能性。
结果表明,与GPT-3.5 Turbo这样的较旧型号,GPT-4O认识到的O’Reilly书籍内容明显高得多。根据论文 GPT-4O 可能会在培训截止日期之前出版了许多出版的许多非公共的O’Reilly书籍。根据论文的报道,O’Reilly与OpenAI没有许可协议。
共同作者承认,该方法不是万无一失的,OpenAI可能从用户的ChatGpt输入中收集了摘录。另一个警告是,未评估包括GPT-4.5在内的最近的OpenAI模型。
倡导宽松版权限制的OpenAI已寻求更高质量的培训数据,并雇用记者微调模型输出。该公司还与新闻出版商达成了许可协议,并为版权所有者提供退出机制。 Openai尚未在论文上发表评论。