人工智能开发的模糊法律领域,YouTube 视频变成了机器学习的燃料。
在最近的一篇文章中 纽约时报重点介绍了企业为应对人工智能版权法的模糊领域而采取的各种策略。 该报告首先重点关注 OpenAI,据说该公司为了寻求足够的训练数据,创建了 Whisper 音频转录模型。 这一举措允许转录超过一百万小时的 YouTube 内容,以推进 GPT-4(他们最新、最复杂的大型语言模型)的开发。
OpenAI 真的使用 YouTube 视频来训练 Sora 吗?
根据 纽约时报,OpenAI 意识到潜在的法律挑战,但认为该行动是合理使用的。 OpenAI 总裁格雷格·布罗克曼 (Greg Brockman) 在为此目的获取视频内容方面发挥了关键作用,正如 OpenAI 所指出的那样 时代。
文章进一步提到,到 2021 年,该组织已经耗尽了有用数据资源,导致在用尽其他途径后考虑转录 YouTube 剪辑、播客和有声读物。 到这个阶段,模型的训练已经纳入了来自 Github 计算机代码、国际象棋策略数据库和 Quizlet 教育材料等来源的数据。
谷歌发言人马特·布莱恩特 (Matt Bryant) 与 边缘 通过电子邮件表示,“看到了有关 OpenAI 行动的未经证实的报告”。 他提醒说,谷歌的robots.txt文件和服务条款明确禁止未经授权收集或下载YouTube材料,重申了该公司的使用政策。 同样,YouTube 首席执行官尼尔·莫汉 (Neal Mohan) 本周对 YouTube 数据被用来训练 OpenAI 视频生成模型 Sora 的行为表示担忧。 布莱恩特强调,只要有坚实的法律或技术基础进行干预,谷歌就会采取技术和法律措施来遏制此类未经授权的活动。
据消息人士援引的消息称 时代,谷歌还从 YouTube 视频中提取了文字记录。 Bryant 提到,该公司遵守与 YouTube 创作者的协议,利用了一些 YouTube 内容来训练其模型。
这 时代 报道称,谷歌法律部门建议其隐私团队修改政策措辞,以扩大消费者数据使用范围,包括谷歌文档等服务。 值得注意的是,更新后的政策是在7月1日战略性发布的,旨在利用独立日假期周末造成的干扰。
同样,Meta 也面临着获取足够训练数据的挑战,并且 时代 获得了其 AI 团队讨论未经授权使用受版权保护的材料的录音,以努力跟上 OpenAI 的步伐。
谷歌、OpenAI 和人工智能开发领域的其他公司正在应对其模型的高质量训练数据不断减少的问题,而这些数据随着数据消耗的增加而得到改善。
OpenAI 的旅程充满了突破,但也存在法律和道德的灰色地带。 YouTube 转录争议凸显了训练高级人工智能模型时版权的复杂性。 就像工具一样 索拉进军好莱坞,该公司面临更严格的审查。 奥特曼能否克服这些障碍或者他已经被取代了?
特色图片来源: 安德鲁·尼尔/Unsplash