Dataconomy CN
Subscribe
No Result
View All Result
Dataconomy CN
Subscribe
No Result
View All Result
Dataconomy CN
No Result
View All Result

报告声称 OpenAI 使用 YouTube 视频来训练人工智能

Kerem GülenbyKerem Gülen
8 4 月, 2024
in 未分类
Share on FacebookShare on Twitter

人工智能开发的模糊法律领域,YouTube 视频变成了机器学习的燃料。

在最近的一篇文章中 纽约时报重点介绍了企业为应对人工智能版权法的模糊领域而采取的各种策略。 该报告首先重点关注 OpenAI,据说该公司为了寻求足够的训练数据,创建了 Whisper 音频转录模型。 这一举措允许转录超过一百万小时的 YouTube 内容,以推进 GPT-4(他们最新、最复杂的大型语言模型)的开发。

和… YouTube 要求索拉提供训练数据的答案。

OpenAI 真的使用 YouTube 视频来训练 Sora 吗?

根据 纽约时报,OpenAI 意识到潜在的法律挑战,但认为该行动是合理使用的。 OpenAI 总裁格雷格·布罗克曼 (Greg Brockman) 在为此目的获取视频内容方面发挥了关键作用,正如 OpenAI 所指出的那样 时代。

文章进一步提到,到 2021 年,该组织已经耗尽了有用数据资源,导致在用尽其他途径后考虑转录 YouTube 剪辑、播客和有声读物。 到这个阶段,模型的训练已经纳入了来自 Github 计算机代码、国际象棋策略数据库和 Quizlet 教育材料等来源的数据。

谷歌发言人马特·布莱恩特 (Matt Bryant) 与 边缘 通过电子邮件表示,“看到了有关 OpenAI 行动的未经证实的报告”。 他提醒说,谷歌的robots.txt文件和服务条款明确禁止未经授权收集或下载YouTube材料,重申了该公司的使用政策。 同样,YouTube 首席执行官尼尔·莫汉 (Neal Mohan) 本周对 YouTube 数据被用来训练 OpenAI 视频生成模型 Sora 的行为表示担忧。 布莱恩特强调,只要有坚实的法律或技术基础进行干预,谷歌就会采取技术和法律措施来遏制此类未经授权的活动。

报告声称 OpenAI 使用 YouTube 视频来训练人工智能
OpenAI 的旅程充满了突破,但也存在法律和道德的灰色地带(图片来源)

据消息人士援引的消息称 时代,谷歌还从 YouTube 视频中提取了文字记录。 Bryant 提到,该公司遵守与 YouTube 创作者的协议,利用了一些 YouTube 内容来训练其模型。

这 时代 报道称,谷歌法律部门建议其隐私团队修改政策措辞,以扩大消费者数据使用范围,包括谷歌文档等服务。 值得注意的是,更新后的政策是在7月1日战略性发布的,旨在利用独立日假期周末造成的干扰。

同样,Meta 也面临着获取足够训练数据的挑战,并且 时代 获得了其 AI 团队讨论未经授权使用受版权保护的材料的录音,以努力跟上 OpenAI 的步伐。

谷歌、OpenAI 和人工智能开发领域的其他公司正在应对其模型的高质量训练数据不断减少的问题,而这些数据随着数据消耗的增加而得到改善。

OpenAI 的旅程充满了突破,但也存在法律和道德的灰色地带。 YouTube 转录争议凸显了训练高级人工智能模型时版权的复杂性。 就像工具一样 索拉进军好莱坞,该公司面临更严格的审查。 奥特曼能否克服这些障碍或者他已经被取代了?


特色图片来源: 安德鲁·尼尔/Unsplash

Related Posts

阿里巴巴Qwen Code v0.5.0将终端转变为完整的开发生态

阿里巴巴Qwen Code v0.5.0将终端转变为完整的开发生态

26 12 月, 2025
Bethesda 的目标是《辐射 5》的游戏时长达到 600 小时

Bethesda 的目标是《辐射 5》的游戏时长达到 600 小时

26 12 月, 2025
华硕为 RTX 5090 HyperX 电源端口错位辩护 "有意设计"

华硕为 RTX 5090 HyperX 电源端口错位辩护 "有意设计"

26 12 月, 2025
NVIDIA 在 GitHub 上开源 CUDA Tile IR

NVIDIA 在 GitHub 上开源 CUDA Tile IR

26 12 月, 2025
MicroStrategy 首席执行官表示比特币基本面 "好得不能再好了"

MicroStrategy 首席执行官表示比特币基本面 "好得不能再好了"

26 12 月, 2025
ChatGPT 演变成具有新格式块的办公套件

ChatGPT 演变成具有新格式块的办公套件

26 12 月, 2025
Please login to join discussion

Recent Posts

  • 阿里巴巴Qwen Code v0.5.0将终端转变为完整的开发生态
  • Bethesda 的目标是《辐射 5》的游戏时长达到 600 小时
  • 华硕为 RTX 5090 HyperX 电源端口错位辩护 "有意设计"
  • NVIDIA 在 GitHub 上开源 CUDA Tile IR
  • MicroStrategy 首席执行官表示比特币基本面 "好得不能再好了"

Recent Comments

您尚未收到任何评论。
Dataconomy CN

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Sample Page

Follow Us

  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy Policy.