报告声称 OpenAI 使用 YouTube 视频来训练人工智能

人工智能开发的模糊法律领域，YouTube 视频变成了机器学习的燃料。

在最近的一篇文章中 纽约时报重点介绍了企业为应对人工智能版权法的模糊领域而采取的各种策略。该报告首先重点关注 OpenAI，据说该公司为了寻求足够的训练数据，创建了 Whisper 音频转录模型。这一举措允许转录超过一百万小时的 YouTube 内容，以推进 GPT-4（他们最新、最复杂的大型语言模型）的开发。

和… YouTube 要求索拉提供训练数据的答案。

OpenAI 真的使用 YouTube 视频来训练 Sora 吗？

根据 纽约时报，OpenAI 意识到潜在的法律挑战，但认为该行动是合理使用的。 OpenAI 总裁格雷格·布罗克曼 (Greg Brockman) 在为此目的获取视频内容方面发挥了关键作用，正如 OpenAI 所指出的那样时代。

文章进一步提到，到 2021 年，该组织已经耗尽了有用数据资源，导致在用尽其他途径后考虑转录 YouTube 剪辑、播客和有声读物。到这个阶段，模型的训练已经纳入了来自 Github 计算机代码、国际象棋策略数据库和 Quizlet 教育材料等来源的数据。

谷歌发言人马特·布莱恩特 (Matt Bryant) 与边缘通过电子邮件表示，“看到了有关 OpenAI 行动的未经证实的报告”。他提醒说，谷歌的robots.txt文件和服务条款明确禁止未经授权收集或下载YouTube材料，重申了该公司的使用政策。同样，YouTube 首席执行官尼尔·莫汉 (Neal Mohan) 本周对 YouTube 数据被用来训练 OpenAI 视频生成模型 Sora 的行为表示担忧。布莱恩特强调，只要有坚实的法律或技术基础进行干预，谷歌就会采取技术和法律措施来遏制此类未经授权的活动。