Dataconomy CN
Subscribe
No Result
View All Result
Dataconomy CN
Subscribe
No Result
View All Result
Dataconomy CN
No Result
View All Result

尝试了另一款开源文本转视频 AI CogVideoX

Kerem GülenbyKerem Gülen
5 9 月, 2024
in Artificial Intelligence
Home Artificial Intelligence

清华大学 和 智普人工智能 合作推出了 CogVideoX,这是一种开源的文本转视频模型,有望挑战人工智能巨头,例如 跑道, 亮度人工智能, 和 Pika 实验室. 最近的 arXiv 出版物详细介绍了这项创新,它为全球开发人员提供了先进的视频生成功能。

CogVideoX:新的开源文本转视频 AI 工具

“我们引入了 CogVideoX,这是一种大规模扩散变换器模型,旨在根据文本提示生成视频。为了有效地对视频数据进行建模,我们建议利用 3D 变分自动编码器 (VAE) 在空间和时间维度上压缩视频。为了改善文本视频对齐,我们提出了一种具有专家自适应 LayerNorm 的专家变换器,以促进两种模式之间的深度融合。通过采用渐进式训练技术,CogVideoX 擅长制作具有显著运动特征的连贯、长时间视频,” 纸质读物。

清华大学深度参与人工智能研究, 并已开展多个值得关注的项目。
最近,他们与麻省理工学院合作开发了开源语音克隆平台 OpenVoice, 蚬壳,现在他们又推出了 CogVideoX-5B,一款文本转视频机型。他们还与圣舒科技合作推出了 维杜人工智能,一款旨在利用人工智能简化视频创作的工具。

CogVideoX 可以通过简单的文本提示创建长达六秒的高质量、连贯的视频。

最出色的模型 CogVideoX-5B 拥有 50 亿个参数,可生成分辨率为 720×480、每秒 8 帧的视频。虽然这些规格可能无法与最新的专有系统相媲美,但真正的突破在于 CogVideoX 的开源方法。

开源模型正在通过以下方式彻底改变该领域:发布他们的代码和模型权重 清华团队向公众展示了这项曾经只属于资金雄厚的科技巨头的技术,并有效地让其普及。此举有望通过利用全球开发者社区的集体专业知识来加速人工智能视频的进步。

研究人员通过几项关键创新实现了 CogVideoX 的令人印象深刻的成果,其中包括 3D 变分自动编码器 用于高效的视频压缩和旨在增强文本视频对齐的“专家转换器”。

论文解释道:“为了提高视频和文本之间的一致性,我们提出了一种具有专家自适应 LayerNorm 的专家 Transformer,以促进两种模式之间的融合。”这一突破使得对文本提示的解释更加精确,视频生成也更加准确。

如何尝试 CogVideoX?

  • 首先前往 HuggingFace 平台 其中 CogVideoX-5B开源视频生成工具 可供测试。
CogVideoX 是另一个开源文本转视频 AI
步骤 1
  • 制作描述性提示 对于要生成的视频。例如,我们使用:
一幅宁静的花园场景,一只蝴蝶在空中优雅地飞舞,它那鲜艳的翅膀在光线下闪闪发光,轻轻地落在一个孩子伸出的手上。当蝴蝶优雅地停在他们小手指上时,孩子的眼睛睁大了,捕捉到了这一刻的神奇。在他们周围,盛开的花朵在微风中轻轻摇曳,远处的溪流静静地潺潺流淌,为宁静的氛围增添了一丝平静。孩子的手保持稳定,向这只娇嫩的生物表示热烈的欢迎,体现了纯真与自然奇观之间的联系。
  • 一旦你的提示准备好了, 点击按钮生成视频。您需要等待片刻,该工具会处理您的请求并根据您的描述创建视频。
CogVideoX 是另一个开源文本转视频 AI
第 2 步
  • 视频生成后,可以直接在平台上下载。 这使您可以查看提示的结果并了解工具解释您的描述的准确程度。
CogVideoX 是另一个开源文本转视频 AI
步骤3
  • 观看视频。 虽然结果可能并不令人惊叹,但值得注意的是,这些类型的工具正在迅速改进。正如我们在 ChatGPT 的发展中看到的那样,人工智能生成视频的重大突破可能即将到来。

尝试了一下——虽然还不够惊艳,但这些工具随处可见。期待很快取得突破,就像我们在 ChatGPT 中看到的那样。 pic.twitter.com/53xYz6lBLf

— 凯雷姆·葛兰 (@kgulenn) 2024 年 8 月 28 日

我们将会看到越来越多的深度伪造

然而,如此强大的技术的广泛应用并非没有危险。滥用的可能性,特别是在制作深度伪造或误导性内容方面,是人工智能社区必须面对的一个严重问题。研究人员自己也意识到了这些道德问题,并敦促负责任地使用该技术。

随着人工智能生成的视频越来越普及和先进,我们正在进入数字内容创作的未知领域。CogVideoX 的推出可能代表着一个非常关键的时刻,有可能将该领域的大玩家的权力重新分配到更开放、更分散的人工智能开发模式。

这种民主化的真正效果尚不确定。它是否会掀起创造力和创新的新浪潮,还是会加剧现有的虚假信息和数字操纵问题?


特色图片来源: 凯雷姆·葛兰/Midjourney

Tags: 人工智能精选视频

Related Posts

Alphaevolve:Google的新AI如何以自我纠正为目标

Alphaevolve:Google的新AI如何以自我纠正为目标

15 5 月, 2025
Tiktok正在实施AI生成的ALT文本,以提高可获得性

Tiktok正在实施AI生成的ALT文本,以提高可获得性

15 5 月, 2025
YouTube的AI现在知道您何时要购买

YouTube的AI现在知道您何时要购买

15 5 月, 2025
SoundCloud首席执行官承认AI术语还不够清楚,因此新承诺

SoundCloud首席执行官承认AI术语还不够清楚,因此新承诺

15 5 月, 2025
准备好一个真正认识你的chatgpt了吗?

准备好一个真正认识你的chatgpt了吗?

14 5 月, 2025
Lightricks揭幕了13B LTX视频模型,用于HQ AI视频生成

Lightricks揭幕了13B LTX视频模型,用于HQ AI视频生成

14 5 月, 2025
Please login to join discussion

Recent Posts

  • 智能面料对战术服装性能的影响
  • Databricks在无服务的Postgres上赌注,其10亿美元的霓虹灯收购
  • Alphaevolve:Google的新AI如何以自我纠正为目标
  • Tiktok正在实施AI生成的ALT文本,以提高可获得性
  • 特朗普迫使苹果重新考虑其印度iPhone策略

Recent Comments

您尚未收到任何评论。
Dataconomy CN

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Sample Page

Follow Us

  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy Policy.