Tiktok的母公司Bytedance最近有了 发射 Omnihuman-1是一个复杂的AI视频生成框架,可以从单个图像和音频剪辑中创建高质量的视频。该模型结合了视频,音频和近乎完美的唇部同步功能。
Bytedance启动Omnihuman-1:一种新的AI视频生成模型
Omnihuman-1不仅制作了逼真的视频,还可以制作拟人化的漫画,动画对象和复杂的姿势。除此之外,Bytedance推出了另一种名为Goku的AI模型,该模型以80亿个参数的紧凑型体系结构达到了类似的文本对视频质量,特别针对广告市场。
这些事态发展与阿里巴巴和腾讯等中国科技巨头一起,在AI领域的顶级球员之间地位。与其他公司(例如克林AI)相比,它的进步极大地破坏了AI生成的内容的景观,鉴于Bytedance的广泛视频媒体库,该图书馆的广泛视频库可能是Facebook之后最大的。
Omnihuman-1的演示视频展示了各种输入类型的令人印象深刻的结果,并具有高水平的细节和最少的故障。与通常只关注面部动画的传统深层技术不同,Omnihuman-1涵盖了全身动画,可以准确模仿手势和表达方式。此外,AI模型可以很好地适应不同的图像质量,无论原始输入如何,都会产生平滑的运动。
Omnihuman-1的技术规格
Omnihuman-1利用扩散转化器模型来通过预测逐帧的运动模式来产生运动,从而导致逼真的过渡和身体动力学。该模型在18,700小时的人类视频录像中接受了广泛的数据集培训,该模型了解了各种各样的动作和表达式。值得注意的是,其“ OMNI条件”培训策略集成了多个输入信号,例如音频,文本和姿势参考,可以提高运动预测的准确性。
尽管人工智能视频产生有前途的进步,但道德的影响仍然很大。该技术引入了风险,例如滥用深泡的潜力,以产生误导性媒体,身份盗用和其他恶意应用程序。因此,由于这些担忧,Bytedance尚未发布Omnihuman-1供公众使用。如果公开可用,则可能需要进行强大的保障措施,包括数字水印和内容真实性跟踪,以减轻潜在的滥用。
特色图片来源: Claudio Schwarz/Unsplash