随着数字时代的发展,人工智能版权诉讼这一有争议的话题越来越受到关注,许多人主张人工智能企业现在应该对支持其生成系统的大量免费数据进行补偿。
在最近的一波法律纠纷中,美国和欧洲各地出现了大量向人工智能实体寻求报酬的诉讼。 诉讼当事人从个人作家和艺术家到大型媒体集团,都表示反对人工智能挪用他们的创作来产生不合格的分支。
一封具有影响力的公开信 作者协会拥有玛格丽特·阿特伍德 (Margaret Atwood)、丹·布朗 (Dan Brown) 和乔迪·皮考特 (Jodi Picoult) 等著名作家的 8,500 多个签名,呼吁包括 ChatGPT 和 Bard 在内的生成式人工智能应用程序的创建者停止未经授权使用文学作品并提供应有的赔偿。 这些作者要求对“收获”的数据进行赔偿,以滋养这些人工智能系统,将其比作一场无偿的盛宴。
作家们还担心,生成式人工智能可能会用源自其原创作品的自动化内容淹没市场,从而破坏他们的手艺。 最近,当亚马逊不得不介入解决人工智能生成的书籍挤满其畅销书排行榜的问题时,这种担忧就凸显出来了。
在作者协会提出上诉之前,作者 Mona Awad 和 Paul Tremblay 对 OpenAI 提起了法律诉讼。 他们声称侵犯版权,理由是 ChatGPT 对他们书籍的准确摘要暗示人工智能已经接受过他们受版权保护的材料的培训。 在这场战斗中,他们并不孤单; 作家兼喜剧演员 Sarah Silverman 还对 OpenAI 和 Meta 提起诉讼,指控他们未经授权复制了她的自传《尿床者》。 然而,生成式人工智能功能的复杂性可能会使这些主张的法律有效性变得复杂。
参与法律斗争的不仅仅是个人。 《纽约时报》将自己定位为第一家对 OpenAI 提起诉讼的美国主要新闻媒体,这是一项具有里程碑意义的举措,挑战在人工智能培训和开发中使用受版权保护的材料。
AI版权诉讼:背后的原因
人工智能版权诉讼现象的兴起标志着人工智能公司对不受限制地使用受版权保护的内容的抵制日益增强。 虽然像 ChatGPT 这样的平台是使用互联网来源的数据开发的,但它们是在没有获得该数据创建者明确同意的情况下这样做的。 值得注意的是,GPT-3 的训练包含大量来源,包括维基百科和 Reddit。 此过程可能会无意中合并受版权保护的材料的片段,使这些扩展的语言模型能够以令人不安的准确度简明地总结受版权保护的作品。
当考虑到人工智能的神秘本质时,这个问题就更加严重了。 人工智能的内部运作仍然模糊的“黑匣子”困境加剧了人们的担忧,即人工智能可能成为决策和内容生成方面逃避责任的替罪羊。
法律争论还源于担心,如果人工智能公司继续将这些不透明系统商业化,这些人工智能模型可能会成为达到目的的典型手段。 危险在于潜在的未来,人工智能系统的决策并不是因为其有效性或准确性而被委托给人工智能系统,而是因为它们可以规避约束人类行为的法律和道德约束。
数据来源和方法
人工智能的开发,尤其是像那些处于众多诉讼中心的生成式人工智能模型,数据收集过程是一个至关重要且有争议的方面。 这些人工智能系统获取训练数据的方法和来源具有重大的法律和道德影响,特别是当涉及受版权保护的材料时。
生成式 AI 模型(例如 GPT-3 或 ChatGPT)是在从各种在线来源收集的大量数据集上进行训练的。 这些来源通常包括维基百科和 Reddit 等公共网站,但也可以包括更有争议的存储库,如影子图书馆或其他容易获得受版权保护的材料的平台。 培训不仅涉及简单的数据抓取,还涉及理解上下文、风格和内容细微差别的复杂过程。
法律灰色地带
法律上的模糊性源于这样一个事实:虽然数据可以公开访问,但使用权并不总是明确的。 例如,公共论坛的内容可能不会明确禁止其用于训练人工智能,但也不会授予许可。 这个灰色地带导致了许多人工智能版权诉讼,原告辩称,在未经同意或补偿的情况下将他们的作品纳入人工智能训练集,从而侵犯了他们的知识产权。
人工智能如何侵犯人权?
人工智能技术虽然具有革命性,但也越来越多地受到潜在侵犯人权的审查,这一问题在人工智能版权诉讼的背景下更加突出。
关键问题包括:
- 人工智能广泛的数据收集和监视能力可能会侵犯个人隐私权。
- 人工智能系统可能会延续训练数据中存在的偏见,导致各个领域出现歧视性结果,这凸显了正在进行的人工智能版权诉讼中的担忧。
- 人工智能驱动的内容审核可能会无意中压制言论自由,这一问题与人工智能版权诉讼中的知识产权辩论相互交叉。
- 在法律环境中,人工智能工具可以影响决策,可能影响审判和司法程序的公平性。
- 由于工作岗位流失和劳动力适应的需要,人工智能驱动的自动化对工人的权利构成了挑战。
- 人工智能的不均匀访问和影响可能会加剧现有的不平等,这一问题与人工智能版权诉讼的核心问题是公平的访问和使用权。
- 操纵用户行为的人工智能系统引发了有关个人自主权和同意的问题。
- 人工智能对信息传播的控制会影响公众获取多样化和公正信息的权利。
针对人工智能的诉讼有哪些?
目前,法律领域充斥着人工智能版权诉讼,其中几起案件凸显了生成式人工智能企业与版权规范之间的紧张关系。 诉讼当事人包括陷入这些高风险法律斗争的各种公司。
谷歌:数据收集诉讼
谷歌面临集体诉讼 指控这家科技巨头滥用个人信息和侵犯版权。 指控详细说明谷歌收集了数据,包括来自约会网站的图像、Spotify 播放列表、TikTok 视频以及用于完善 Bard 的文献。 该索赔于 2023 年 7 月发起,表明谷歌可能需要承担高达 50 亿美元的损失。 原告选择匿名,表明他们对隐私和专有权利日益关注。
这一系列的人工智能版权诉讼并非没有先例。 作者协会 2015 年针对谷歌的案件树立了重要的法律基准。 该协会挑战了谷歌数百万本书的数字化,在线提供片段。 该裁决对谷歌有利,认为这种使用具有变革性,并且与图书的原始市场不具有竞争性。
OpenAI:版权问题
OpenAI 也卷入了法律纠纷,作者 Paul Tremblay 和 Mona Awad 指控侵犯版权。 他们的律师 Butterick 代表了更广泛的作者群体,他们声称这些作者的作品已在 OpenAI 的广泛训练数据中得到复制,可能数量超过 300,000 本书。 该诉讼于 2023 年 6 月提起,要求赔偿金额不详。
OpenAI 和微软:《纽约时报》诉讼
此外,《纽约时报》 已推出 针对 OpenAI 和微软的诉讼。 2023 年 12 月的文件称,OpenAI 利用数百万篇《纽约时报》文章来训练他们的语言模型,现在这些模型在提供可靠信息方面可与该出版物相媲美。 此外,诉讼称 OpenAI 的模型不仅呼应了《纽约时报》的独特风格,而且还逐字背诵了其内容。 《纽约时报》在今年早些时候就版权问题进行了讨论,这在美国主要新闻媒体中尚属首次,但没有结果,最终导致了这场具有里程碑意义的诉讼。
Meta 和 OpenAI:Silverman 案例
喜剧演员 Sarah Silverman 对 Meta 和 OpenAI 提起的法律诉讼揭露了侵犯版权的指控,她认为 ChatGPT 和 Meta AI 的大型语言模型 (Llama) 都是使用包括她的作品在内的非法来源数据开发的。 该诉讼指向 Library Genesis、Z-Library 和 Bibliotek 等“影子图书馆”,这些图书馆因基于种子的内容共享而臭名昭著,而这种情况经常在未经合法授权的情况下发生。 具体来说,该案例指出 Meta 的 Llama 是通过一个称为 Pile 的数据集获知的, 编译者 EleutherAI,据称包含来自 Bibliotek 的数据。 该诉讼于2023年7月提起。
GitHub、微软和 OpenAI:Copilot 争议
一场针对 GitHub、微软和 OpenAI 的关于 Copilot 工具的集体人工智能版权诉讼。 这种人工智能驱动的服务通过学习程序员的输入来自动完成代码片段。 原告辩称,Copilot 非法从 GitHub 存储库中复制代码,无视许可要求,包括适当的归属。 除了版权投诉之外,该诉讼还指控 GitHub 个人数据管理不善和欺诈。 该案件于 2022 年 11 月提起,微软和 GitHub 多次试图驳回该案。
Stability AI、Midjourney 和 DeviantArt:艺术诚信之争
2023 年 1 月 针对人工智能图像生成器公司的诉讼 Stability AI、Midjourney 和 DeviantArt。 原告声称,这些平台通过训练原告作品并生成原告作品的衍生品,侵犯了版权。 此外,对于这些工具复制特定艺术家风格的能力也存在争议。 主审法官威廉·奥里克表示初步打算驳回申诉。
稳定人工智能:盖蒂图片社诉讼
Getty Images 针对 Stability AI 的双重诉讼凸显了未经授权复制和处理 Getty 在英国拥有权利的无数图像和相关元数据的情况。美国特拉华州地方法院随后提起的诉讼也反映了类似的版权和商标侵权行为。 它还强调了对带有盖蒂水印的“奇异或怪诞”图像的担忧,这可能会损害受人尊敬的图像存储库的声誉。 这些合法举动 被制造 2023 年 1 月。
这些人工智能版权诉讼提出的关键问题
人工智能版权诉讼的出现标志着我们看待数字创造力的方式发生转变。 这些备受瞩目的法律对抗提出了几个可能重新定义与生成人工智能相关的版权法的关键问题:
- 人工智能培训材料许可:当人工智能模型在受版权保护的内容上进行训练时,是否有必要获得许可? 鉴于生成式人工智能系统在学习阶段复制培训材料,法律辩论取决于这种复制是否属于合理使用或需要正式许可。
- 版权侵权与人工智能输出:生成式人工智能产生的结果是否侵犯了培训所用材料的版权? 法院需要确定的一个关键方面是人工智能输出和训练数据之间的相似性是否基于受保护的内容或不受保护的内容。 此外,谁对人工智能系统侵犯版权负有责任的问题仍有待解决。
- 遵守数字版权法:生成式人工智能技术是否违反了有关更改或删除版权管理信息的法律? 这个问题在针对 Stability AI 的案件中尤其重要,其中 AI 生成的图像包含虚假的版权管理信息,例如复制的水印。
- 公开权和人工智能:创作模仿特定个人风格的人工智能作品是否侵犯其公开权? 这项权利因州而异,限制未经同意将个人的肖像、姓名、图像、声音或签名用于商业目的。
- 开源许可证和人工智能:开源许可证如何与人工智能生成内容的培训和分发相交叉? 这是 GitHub Copilot 诉讼中的一个核心问题,原告辩称,未能注明源材料并将 Copilot 作为开源发布违反了开源许可条款。
随着这些人工智能版权诉讼的进展并开始提供答案,参与开发和部署生成式人工智能工具的实体应关注人工智能和知识产权关系中的新准则。 对于这些公司来说,考虑在这个不断变化的法律领域减轻潜在风险的策略也可能是谨慎的。 人工智能版权诉讼凸显了制定明确的数据使用和权利政策的必要性。
特色图片来源: 伊戈尔·奥米拉耶夫/Unsplash