尝试了另一款开源文本转视频 AI CogVideoX

清华大学和智普人工智能合作推出了 CogVideoX，这是一种开源的文本转视频模型，有望挑战人工智能巨头，例如跑道，亮度人工智能，和 Pika 实验室. 最近的 arXiv 出版物详细介绍了这项创新，它为全球开发人员提供了先进的视频生成功能。

CogVideoX：新的开源文本转视频 AI 工具

“我们引入了 CogVideoX，这是一种大规模扩散变换器模型，旨在根据文本提示生成视频。为了有效地对视频数据进行建模，我们建议利用 3D 变分自动编码器 (VAE) 在空间和时间维度上压缩视频。为了改善文本视频对齐，我们提出了一种具有专家自适应 LayerNorm 的专家变换器，以促进两种模式之间的深度融合。通过采用渐进式训练技术，CogVideoX 擅长制作具有显著运动特征的连贯、长时间视频，” 纸质读物。

清华大学深度参与人工智能研究， 并已开展多个值得关注的项目。
最近，他们与麻省理工学院合作开发了开源语音克隆平台 OpenVoice，蚬壳，现在他们又推出了 CogVideoX-5B，一款文本转视频机型。他们还与圣舒科技合作推出了维杜人工智能，一款旨在利用人工智能简化视频创作的工具。

CogVideoX 可以通过简单的文本提示创建长达六秒的高质量、连贯的视频。

最出色的模型 CogVideoX-5B 拥有 50 亿个参数，可生成分辨率为 720×480、每秒 8 帧的视频。虽然这些规格可能无法与最新的专有系统相媲美，但真正的突破在于 CogVideoX 的开源方法。

开源模型正在通过以下方式彻底改变该领域：发布他们的代码和模型权重清华团队向公众展示了这项曾经只属于资金雄厚的科技巨头的技术，并有效地让其普及。此举有望通过利用全球开发者社区的集体专业知识来加速人工智能视频的进步。

研究人员通过几项关键创新实现了 CogVideoX 的令人印象深刻的成果，其中包括 3D 变分自动编码器用于高效的视频压缩和旨在增强文本视频对齐的“专家转换器”。

论文解释道：“为了提高视频和文本之间的一致性，我们提出了一种具有专家自适应 LayerNorm 的专家 Transformer，以促进两种模式之间的融合。”这一突破使得对文本提示的解释更加精确，视频生成也更加准确。

如何尝试 CogVideoX？

首先前往 HuggingFace 平台 其中 CogVideoX-5B开源视频生成工具可供测试。

制作描述性提示 对于要生成的视频。例如，我们使用：

一幅宁静的花园场景，一只蝴蝶在空中优雅地飞舞，它那鲜艳的翅膀在光线下闪闪发光，轻轻地落在一个孩子伸出的手上。当蝴蝶优雅地停在他们小手指上时，孩子的眼睛睁大了，捕捉到了这一刻的神奇。在他们周围，盛开的花朵在微风中轻轻摇曳，远处的溪流静静地潺潺流淌，为宁静的氛围增添了一丝平静。孩子的手保持稳定，向这只娇嫩的生物表示热烈的欢迎，体现了纯真与自然奇观之间的联系。

一旦你的提示准备好了， 点击按钮生成视频。您需要等待片刻，该工具会处理您的请求并根据您的描述创建视频。

视频生成后，可以直接在平台上下载。 这使您可以查看提示的结果并了解工具解释您的描述的准确程度。

观看视频。 虽然结果可能并不令人惊叹，但值得注意的是，这些类型的工具正在迅速改进。正如我们在 ChatGPT 的发展中看到的那样，人工智能生成视频的重大突破可能即将到来。

尝试了一下——虽然还不够惊艳，但这些工具随处可见。期待很快取得突破，就像我们在 ChatGPT 中看到的那样。 pic.twitter.com/53xYz6lBLf
— 凯雷姆·葛兰 (@kgulenn) 2024 年 8 月 28 日

我们将会看到越来越多的深度伪造

然而，如此强大的技术的广泛应用并非没有危险。滥用的可能性，特别是在制作深度伪造或误导性内容方面，是人工智能社区必须面对的一个严重问题。研究人员自己也意识到了这些道德问题，并敦促负责任地使用该技术。

随着人工智能生成的视频越来越普及和先进，我们正在进入数字内容创作的未知领域。CogVideoX 的推出可能代表着一个非常关键的时刻，有可能将该领域的大玩家的权力重新分配到更开放、更分散的人工智能开发模式。

这种民主化的真正效果尚不确定。它是否会掀起创造力和创新的新浪潮，还是会加剧现有的虚假信息和数字操纵问题？

特色图片来源：凯雷姆·葛兰/Midjourney

Tags: 人工智能精选视频

尝试了另一款开源文本转视频 AI CogVideoX

Related Posts

OpenAI 探索在 ChatGPT 响应中优先考虑搜索广告

三星 Bixby 在新更新中获得 Perplexity AI 搜索能力

阿里巴巴Qwen Code v0.5.0将终端转变为完整的开发生态

ChatGPT 演变成具有新格式块的办公套件

Google NotebookLM 推出 "讲座模式" 30分钟AI学习

亚马逊将 Angi、Expedia、Square 和 Yelp 添加到 Alexa+

Recent Posts

Recent Comments

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

尝试了另一款开源文本转视频 AI CogVideoX

CogVideoX：新的开源文本转视频 AI 工具

如何尝试 CogVideoX？

我们将会看到越来越多的深度伪造

Related Posts

OpenAI 探索在 ChatGPT 响应中优先考虑搜索广告

三星 Bixby 在新更新中获得 Perplexity AI 搜索能力

阿里巴巴Qwen Code v0.5.0将终端转变为完整的开发生态

ChatGPT 演变成具有新格式块的办公套件

Google NotebookLM 推出 "讲座模式" 30分钟AI学习

亚马逊将 Angi、Expedia、Square 和 Yelp 添加到 Alexa+

Recent Posts

Recent Comments

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

Follow Us