清华大学 和 智普人工智能 合作推出了 CogVideoX,这是一种开源的文本转视频模型,有望挑战人工智能巨头,例如 跑道, 亮度人工智能, 和 Pika 实验室. 最近的 arXiv 出版物详细介绍了这项创新,它为全球开发人员提供了先进的视频生成功能。
CogVideoX:新的开源文本转视频 AI 工具
“我们引入了 CogVideoX,这是一种大规模扩散变换器模型,旨在根据文本提示生成视频。为了有效地对视频数据进行建模,我们建议利用 3D 变分自动编码器 (VAE) 在空间和时间维度上压缩视频。为了改善文本视频对齐,我们提出了一种具有专家自适应 LayerNorm 的专家变换器,以促进两种模式之间的深度融合。通过采用渐进式训练技术,CogVideoX 擅长制作具有显著运动特征的连贯、长时间视频,” 纸质读物。
最近,他们与麻省理工学院合作开发了开源语音克隆平台 OpenVoice, 蚬壳,现在他们又推出了 CogVideoX-5B,一款文本转视频机型。他们还与圣舒科技合作推出了 维杜人工智能,一款旨在利用人工智能简化视频创作的工具。
CogVideoX 可以通过简单的文本提示创建长达六秒的高质量、连贯的视频。
最出色的模型 CogVideoX-5B 拥有 50 亿个参数,可生成分辨率为 720×480、每秒 8 帧的视频。虽然这些规格可能无法与最新的专有系统相媲美,但真正的突破在于 CogVideoX 的开源方法。
开源模型正在通过以下方式彻底改变该领域:发布他们的代码和模型权重 清华团队向公众展示了这项曾经只属于资金雄厚的科技巨头的技术,并有效地让其普及。此举有望通过利用全球开发者社区的集体专业知识来加速人工智能视频的进步。
研究人员通过几项关键创新实现了 CogVideoX 的令人印象深刻的成果,其中包括 3D 变分自动编码器 用于高效的视频压缩和旨在增强文本视频对齐的“专家转换器”。
论文解释道:“为了提高视频和文本之间的一致性,我们提出了一种具有专家自适应 LayerNorm 的专家 Transformer,以促进两种模式之间的融合。”这一突破使得对文本提示的解释更加精确,视频生成也更加准确。
如何尝试 CogVideoX?
- 首先前往 HuggingFace 平台 其中 CogVideoX-5B开源视频生成工具 可供测试。
- 制作描述性提示 对于要生成的视频。例如,我们使用:
- 一旦你的提示准备好了, 点击按钮生成视频。您需要等待片刻,该工具会处理您的请求并根据您的描述创建视频。
- 视频生成后,可以直接在平台上下载。 这使您可以查看提示的结果并了解工具解释您的描述的准确程度。
- 观看视频。 虽然结果可能并不令人惊叹,但值得注意的是,这些类型的工具正在迅速改进。正如我们在 ChatGPT 的发展中看到的那样,人工智能生成视频的重大突破可能即将到来。
尝试了一下——虽然还不够惊艳,但这些工具随处可见。期待很快取得突破,就像我们在 ChatGPT 中看到的那样。 pic.twitter.com/53xYz6lBLf
— 凯雷姆·葛兰 (@kgulenn) 2024 年 8 月 28 日
我们将会看到越来越多的深度伪造
然而,如此强大的技术的广泛应用并非没有危险。滥用的可能性,特别是在制作深度伪造或误导性内容方面,是人工智能社区必须面对的一个严重问题。研究人员自己也意识到了这些道德问题,并敦促负责任地使用该技术。
随着人工智能生成的视频越来越普及和先进,我们正在进入数字内容创作的未知领域。CogVideoX 的推出可能代表着一个非常关键的时刻,有可能将该领域的大玩家的权力重新分配到更开放、更分散的人工智能开发模式。
这种民主化的真正效果尚不确定。它是否会掀起创造力和创新的新浪潮,还是会加剧现有的虚假信息和数字操纵问题?
特色图片来源: 凯雷姆·葛兰/Midjourney