OpenAI 是一家颇具影响力的人工智能研究实验室,背后有 ChatGPT 和 Sora 等开创性工具,在最近接受其首席技术官 Mira Murati 采访后,OpenAI 发现自己陷入了困境。
面试由《华尔街日报》记者 Joanna Stern 主持,重点关注 OpenAI 的最新图像(或者更确切地说是视频)生成系统, 索拉。
人们的担忧集中在可能滥用受版权保护的作品来训练人工智能模型和 缺乏透明度 来自 OpenAI 关于其数据实践的信息。
Sora的训练数据有问题
争议的核心在于训练数据的问题, 用于训练人工智能模型的海量数据集。
当被问及 Sora 使用的数据来源时,Murati 给出了标准答案:该模型接受过“训练”公开可用和许可的数据”。
然而,进一步的探索揭示了 Murati 对该数据集的具体细节的犹豫和不确定性。
这个回应有 举起红旗 艺术家、摄影师和知识产权专家。 人工智能图像生成系统在很大程度上依赖于摄取大量图像,其中许多图像可能受版权保护。 Sora 训练数据的不明确性引发了人们对 OpenAI 是否充分保护内容创作者权利的质疑。
后来承认使用 Shutterstock
Murati 最初拒绝解决 Shutterstock 图片是否是 Sora 训练数据集的组成部分,这更是火上浇油。 直到采访结束后,穆拉蒂才在《华尔街日报》添加的脚注中确认使用了 Shutterstock 的图片库。
这一确认与 OpenAI 面向公众的立场“公开可用和许可的数据”并建议尝试隐瞒潜在有问题的采购实践。
Shutterstock 和 OpenAI 建立了合作伙伴关系,授予 OpenAI 使用 Shutterstock 图像库来训练 DALL-E 2 和可能的 Sora 等图像生成模型的权利。
作为回报,Shutterstock 贡献者(图像出现在平台上的摄影师和艺术家)在他们的作品被用于开发这些 AI 模型时会获得报酬。
公关噩梦展开
可以肯定地说,大多数公关人员不会认为这次采访是公关杰作。
Murati 的缺乏明确性是在 OpenAI 的敏感时刻出现的, 已经面临重大版权诉讼,其中包括《纽约时报》提交的一份重要文件。
公众正在密切关注 OpenAI 涉嫌秘密使用 YouTube 视频进行模型训练等做法,因为 《The Information》此前报道。 从艺术家到政客等利益相关者都要求追究责任,穆拉蒂的回避只会火上浇油。
OpenAI 的不透明方法适得其反, 将 Sora 的采访变成一场公关灾难。
OpenAI 首席技术官 Mira Murati 表示 Sora 接受了公开可用和许可数据的培训 pic.twitter.com/rf7pZ0ZX00
— Tsarathustra (@tsarnick) 2024 年 3 月 13 日
透明度并不是无缘无故被讨论最多的话题
这一事件凸显了一个重要的事实:在人工智能世界中,揭露真相至关重要。 OpenAI 的糟糕反应严重损害了公众的信任,并加剧了对其道德实践的质疑。 索拉的争议凸显了日益增长的合唱团 要求人工智能行业内承担更多责任。
Murati 不愿透露 Sora 训练数据品种的具体情况 不信任并开创了危险的先例。
如果艺术家、创作者和公众要求不明确,道德争论和法律诉讼的可能性只会加剧。
这片土地上没有天使
虽然当前的大部分审查都直接针对 OpenAI,但记住这一点至关重要 他们不是游戏中唯一的玩家。
Facebook 人工智能研究 骆驼模型 和 谷歌的双子座 还面临培训数据源有问题的指控。
这并不奇怪,因为 商业内幕报道 Meta已经承认了 使用 Instagram 和 Facebook 帖子 训练其人工智能模型。 此外, 谷歌对互联网大片领域的控制 使他们能够获得无与伦比的潜在培训数据,从而引发了有关同意和版权的类似道德担忧。
OpenAI的Sora的情况是 只是更大拼图中的一块。 整个人工智能开发领域正面临着对其数据实践和潜在道德影响的审查。
特色图片来源: 手绘。