俄勒冈州作家 Elizabeth Lyon 提出集体诉讼,指控 Adobe 通过源自包含 Books3 的 RedPajama 集合的 SlimPajama-627B 数据集,在盗版书籍(包括她的指南)上训练其 SlimLM AI 模型。 Adobe近年来在人工智能领域进行了广泛的发展。该公司从 2023 年开始推出多项人工智能服务,其中 Firefly 是其人工智能驱动的媒体生成套件,旨在根据文本提示和输入创建图像、视频和其他媒体内容。
苗条LM 代表 Adobe 专门针对移动设备上的文档辅助任务进行优化的一系列小语言模型。这些模型支持总结文档、提取关键信息以及直接在移动应用程序中提供上下文帮助等功能。土坯 州 它使用 SlimPajama-627B 数据集预训练了 SlimLM。大脑 释放 该数据集于 2023 年 6 月作为重复数据删除、多语料库、开源资源发布,旨在训练大型语言模型。该数据集在去除重复后聚合各种文本源,以提高训练效率和模型性能。专门研究非小说类写作指南的 Elizabeth Lyon 提起诉讼,声称 Adobe 将包括她自己作品在内的众多书籍的盗版版本纳入 SlimLM 的培训过程中。该法律诉讼寻求代表其他受影响作者的集体诉讼地位。该诉讼详细说明了 SlimPajama 数据集如何源自 RedPajama 数据集,其中包括由 191,000 本书组成的 Books3 集合。路透社第一 报道 备案上。投诉逐字陈述:“SlimPajama 数据集是通过复制和操作 RedPajama 数据集(包括复制 Books3)创建的。”它继续说道:“因此,由于它是 RedPajama 数据集的衍生副本,SlimPajama 包含 Books3 数据集,包括原告和集体成员的受版权保护的作品。”里昂辩称,她的受版权保护的材料未经她同意或补偿就出现在这些预训练数据中。 Books3 在人工智能领域的法律纠纷中屡屡出现,因为开发人员利用它来训练生成式人工智能系统。该集合包含来自不同流派和作者的数字化文本,使其成为一个全面但有争议的训练语料库。 Books3 旗下的 RedPajama 也在多起法庭案件中受到提及。




