据报道,哈佛大学将与谷歌合作,发布包含约 100 万本公共领域书籍的数据集,用于训练人工智能模型 有线。该计划被称为“机构数据计划”,已获得 Microsoft 和 OpenAI 的资助。该数据集包含不再受版权保护的作品,这些作品来自谷歌广泛的图书扫描工作。
哈佛大学和谷歌提供 100 万本人工智能培训书籍
该公告于 2024 年 12 月 12 日发布,数据集涵盖多种流派、语言和作者,包括狄更斯、但丁和莎士比亚等著名人物。哈佛大学该计划的执行主任 Greg Lepert 强调,该数据集旨在“创造公平的竞争环境”,使研究实验室和人工智能初创公司能够访问该数据集,以加强他们的语言模型开发工作。该数据集适用于任何想要训练大型语言模型(LLM)的人,尽管具体的发布日期和方法尚未披露。
随着人工智能技术越来越依赖大量文本数据,该数据集成为至关重要的资源。 ChatGPT 等基础模型可以从高质量的训练数据中受益匪浅。然而,数据的必要性给 OpenAI 这样的公司带来了挑战,它们因未经授权使用受版权保护的材料而面临法律审查。包括《华尔街日报》和《纽约时报》在内的主要出版商提起的诉讼凸显了人工智能培训中内容使用和版权侵权方面持续存在的紧张局势。
虽然即将推出的数据集将是有利的,但目前尚不清楚一百万本书是否足以满足人工智能模型训练的需求,特别是因为这些历史文本中没有涵盖当代参考文献和更新的俚语。人工智能公司将继续寻求额外的数据源,特别是独家或最新信息,以将其模型与竞争对手区分开来。
- 哈佛大学的机构数据计划旨在为人工智能开发提供可访问的数据。
- 微软和 OpenAI 的资金支持了该项目。
- 该数据集包括文学经典和不太熟悉的文本。
- 人工智能模型需要大量数据;当前的争议围绕数据使用权。
人工智能领域的开发者不仅仅局限于历史文本。包括 Reddit 和 X 在内的多个平台已经开始限制对其数据的访问,因为它们认识到数据的价值不断增加。 Reddit 已与 Google 等公司达成许可协议,而 X 则维持实时数据利用的独家内容安排。内容可访问性的这种转变反映了人工智能公司在不面临法律后果的情况下努力获取充足且相关的培训数据的竞争格局。
机构数据计划的执行是通过提供合法安全的历史文本池来缓解这些压力的一步,允许负责任的模型培训。然而,仍然需要全面的策略来确保人工智能模型具有竞争力并能够理解当代语言和参考文献。
随着对数据使用情况的调查继续进行,该资源如何有效地满足对全面和多样化数据的持续需求仍然是一个问题。
特色图片来源: 粘土银行/Unsplash