堆数据集已成为人工智能圈的热门话题,引发了关于如何使用数据以及所涉及的道德问题的争论。大型科技公司已经使用这一海量文本集合来训练他们的人工智能模型。
然而,这些数据的收集和使用方式引发了有关同意、所有权以及收集在线内容的限制的问题。
为了让人工智能变得更聪明,它需要大量的数据来学习。非营利性人工智能研究小组整理的堆积数据集 埃卢瑟人工智能已成为这方面的首选资源。它包含各种各样的内容——YouTube 视频字幕、欧洲议会文件,甚至旧的 安然 电子邮件。像 苹果, 英伟达, 和 销售队伍 一直在使用它来教他们的人工智能新技巧。
但事情开始变得棘手了: YouTube 不允许人们未经许可从其平台上抓取内容.他们甚至 要求 Sora 回答有关训练数据的问题 那时候。
然而, 有线 发现大量知名创作者和机构的字幕在未经他们知情或同意的情况下被使用。

什么是桩数据集?
Pile 数据集是用于训练人工智能模型的海量文本数据集合,由于其规模庞大、内容多样,且内容来源备受争议,已成为科技圈的热门话题。
Pile 数据集包含来自互联网的各种文本。它旨在为 AI 模型提供广泛的人类生成内容以供学习,帮助它们理解和生成更自然的语言。
桩数据集的一个关键特征是其多样性。它包含 来自 48,000 多个 YouTube 频道的字幕,包括热门创作者 野兽先生,以及来自麻省理工学院和哈佛大学等教育机构的内容。
除了 YouTube 内容外,该数据集还包括以下来源的材料:
- 欧洲议会文件
- 英文维基百科文章
- 科学论文和技术报告
- 在线论坛和讨论板
- 新闻文章和博客文章
这种内容类型和来源的多样化组合使得 Pound 数据集对于 AI 训练如此有价值。它让 AI 模型接触到各种写作风格、主题和格式,帮助它们变得更加灵活和强大。
大型科技公司如何使用桩数据集?
大型科技公司一直在悄悄利用大数据来推动其人工智能的发展。这一庞大的数字内容集合已成为训练复杂语言模型和其他人工智能系统的关键资源。
苹果、Nvidia、Salesforce 和 Anthropic 等公司已公开承认在其 AI 开发过程中使用了 Pile 数据集。
这些科技巨头正在利用这一海量信息来增强其在各种应用程序和服务中的人工智能能力。
桩数据集的吸引力在于其多样性和规模。
内容范围从 YouTube 字幕到学术论文,甚至是旧的公司电子邮件,它为 AI 模型提供了丰富的人工生成文本供其学习。这种广泛的数据有助于 AI 系统更好地理解和生成各种语境中类似人类的语言。
整理这些数据集是一件棘手的事情,需要在技术进步和正确行事之间取得平衡。虽然每个人都希望人工智能有所进步,但这些数据的收集方式却引起了一些人的质疑。数据集包括来自各个地方的内容——大学、娱乐频道等等——这表明人工智能需要学习多少信息。
堆积数据集的最大问题之一是它如何使用 YouTube 字幕。内容创作者通常会花费大量时间和金钱制作这些字幕。未经许可使用它们不仅违反了 YouTube 的规定,还会让创作者怀疑他们在数字空间中的权利。
让事情变得更加复杂的是,有些公司会抓取数据并将其出售给科技公司。这在原创者和使用其作品的公司之间建立了一种缓冲。它让苹果等大型科技公司可以声称他们对数据的来源不负直接责任。
内容创作者对此并不满意
当内容创作者发现这个堆积数据集时,引起了不小的轰动。YouTube 大佬们 马奎斯·布朗利 他们不满意自己的工作成果在未经他们同意的情况下被使用,尤其是考虑到他们为制作优秀的成绩单投入了大量资金,他们表示:
“AI 一直在窃取我的视频,这会成为创作者长期面临的问题”
在一个 Instagram 帖子,随后是有关 X 的这篇文章:
苹果从多家公司获取人工智能数据
其中一家公司从 YouTube 视频中抓取了大量数据和文字记录,其中也包括我的视频
苹果在技术上避免了 "过错" 因为他们不是
但这将是一个长期存在的问题 https://t.co/U93riaeSlY
— 马奎斯·布朗利(@MKBHD) 2024 年 7 月 16 日
大型科技公司使用这一数据集的事实也引发了人们的疑问:他们是否应该更加谨慎地对待数据来源。Anthropic 等公司表示,使用数据集与直接使用 YouTube 不同,但对于作品在不知情的情况下被使用的创作者来说,这可能没有太大区别。
整个堆积数据集的情况也涉及到人工智能伦理和数据管理的更大问题。随着人工智能越来越先进,我们需要更明确的规则来规定如何收集和使用数据。现在发生的事情表明,在推动技术进步的同时保护个人和公司的权利是多么困难。
展望未来,这场争议可能会导致数据收集和用于人工智能训练的方式发生变化。这表明我们需要在人工智能开发方面更加开放,并可能导致对训练数据来源的更严格规定。它还可能让我们重新思考内容创作者、平台和人工智能开发者如何合作,也许会带来向创作者支付报酬或与他们合作的新方式。
总而言之,这些数据表明,当你将技术进步与人工智能世界中的道德问题结合起来时,事情会变得多么复杂。随着争论的继续,很明显,在创新和尊重创作者权利之间找到一个中间立场将是塑造未来人工智能发展方式和内容创作方式的关键。
特色图片来源: 自由图片