一种名为 VASA-1 的新人工智能模型承诺将你的照片转换成视频并赋予它们声音。 这项来自 Microsoft 的令人兴奋的技术使用单张肖像照片和音频文件来创建具有逼真的口型同步、面部表情和头部动作的说话面部视频。
VASA-1 的力量
VASA-1 的功能在于它能够生成逼真的面部动画。 与之前的版本不同,VASA-1 最大限度地减少了嘴巴周围的错误,这是深度伪造的常见迹象。 此外,它还通过对面部表情和自然头部运动的细致入微的理解而拥有高品质的真实感。
微软发布的演示视频 博客文章 展示令人印象深刻的结果,模糊了现实和人工智能生成内容之间的界限。
您可能会问,VASA-1 能在哪些方面发挥作用? 出色地,
- 增强型GA明经历: 想象一下游戏中的角色拥有完美同步的嘴唇动作和富有表现力的面孔,创造出更加身临其境和引人入胜的游戏体验。
- 个性化虚拟头像: VASA-1 可以让用户创建像他们一样移动和说话的超现实化身,从而改变社交媒体。
- 人工智能驱动的电影制作: 电影制作人可以使用 VASA-1 生成逼真的特写镜头、复杂的面部表情和自然的对话序列,从而突破特效的界限。
VASA-1 的工作原理是什么?
VASA-1 解决了从单个图像和音频剪辑生成逼真的人脸视频的挑战。 让我们深入研究一下它如何实现这一非凡壮举的技术方面。
想象一下某人的照片和另一个人说话的录音。 VASA-1 旨在将这些元素结合起来创建一个视频,其中照片中的人似乎正在说出音频中的单词。 该视频在几个关键方面应该是现实的:
- 图像清晰度和真实性: 生成的视频帧应该看起来像真实的镜头,并且不表现出任何人造的伪影。
- 口型同步精度: 视频中的嘴唇动作必须与音频完美同步。
- 面部表情: 生成的面孔应表现出适当的情绪和表情以匹配所说的内容。
- 自然的头部运动: 微妙的头部动作可以增强说话脸部的真实感。
VASA-1 还可以接受额外的控制来定制输出,例如主眼注视方向、头部到相机的距离以及一般情绪偏移。
总体框架
VASA-1 不是直接生成视频帧,而是分两个阶段工作:
运动和姿势生成:它创建一系列代码,代表根据音频和其他输入信号调节的面部动态(嘴唇运动、表情)和头部运动(姿势)。
视频帧生成:然后使用这些运动和姿势代码来生成实际的视频帧,同时考虑从输入图像中提取的外观和身份信息。
技术分析
以下是 VASA-1 核心组件的详细介绍:
1. 富有表现力、解开的脸部潜在空间构建
VASA-1 首先构建一种特殊的数字空间,称为“潜在空间”,专门用于表示人脸。 这个空间有两个关键属性:
- 表现力:可以捕捉全方位的人类面部表情和动作,细节丰富。
- 解开:面部的不同方面,例如身份、头部姿势和面部动态,在这个空间中分别表示。 这允许在视频生成期间对这些方面进行独立控制。
VASA-1 通过建立现有的 3D 面部重演技术来实现这一目标。 它将人脸图像分解为几个部分:
- 3D外观体积(Vapp):捕捉脸部的详细 3D 形状和纹理。
- 身份代码 (z_id):代表图像中人物的独特特征。
- 头部姿势代码 (z_pose):这对头部的方向和倾斜进行编码。
- 面部动态代码 (z_dyn):捕捉当前的面部表情和动作。
为了确保正确解开,VASA-1 在训练期间采用专门的损失函数。 如果模型混合了面部表示的不同方面,这些函数就会对模型进行惩罚。
2. 使用扩散变压器生成整体面部动态
一旦 VASA-1 拥有训练有素的潜在空间,它就需要一种方法来根据音频剪辑为说话的面部序列生成运动和姿势代码。 这就是“扩散变压器”的用武之地。
- 扩散模型:VASA-1 利用 扩散模型,一种深度学习架构,可以实现这一目标。 扩散模型的工作原理是逐渐向干净的信号中添加噪声,然后学习逆转此过程。 在 VASA-1 的情况下,干净的信号是所需的运动和姿势序列,而噪声信号是随机起点。 扩散模型本质上是学习根据提供的音频特征“降噪”回到干净的运动序列。
- 变压器架构:VASA-1 使用一种称为“变压器”的特定类型的扩散模型。 Transformer 擅长序列到序列的学习任务,使它们非常适合生成与音频序列相对应的运动和姿势代码序列。
VASA-1 在多个输入上调节扩散变压器:
- 音频功能:这些特征从音频剪辑中提取,代表音频内容,并告知模型预期的嘴唇运动和情绪。
- 附加控制信号:这些可选信号允许对生成的视频进行进一步控制。 他们包括:
- 主眼注视方向(g):这指定生成的脸部正在看向哪里。
- 头部到相机的距离 (d):这控制视频中脸部的外观尺寸。
- 情绪抵消 (e):这可用于稍微改变面部所显示的整体情绪表达。
3. 说话人脸视频生成
生成运动和姿势代码后,VASA-1 最终可以创建视频帧。 它通过以下方式做到这一点:
- 解码器网络:该网络将从输入图像中提取的运动和姿势代码以及外观和身份信息作为输入。 然后,它使用这些信息来合成真实的视频帧,描绘图像中的人做出与音频相对应的面部动作和表情。
- 无分类器指导 (CFG):VASA-1 采用了一种称为无分类器引导 (CFG) 的技术,以提高生成过程的鲁棒性和可控性。 CFG 涉及在训练期间随机丢弃一些输入条件。
这迫使模型学习如何生成良好的结果,即使并非所有信息都可用。 例如,模型可能需要生成视频的开头,而不需要任何前面的音频或运动信息。
请参阅中的进一步解释 研究论文在这里。
深度造假的阴影若隐若现
深度假货高度逼真的人工智能生成的视频可以操纵人们的外表和声音,已经成为越来越令人担忧的问题。 恶意行为者可以利用它们传播错误信息、损害声誉,甚至影响选举。 VASA-1 的超现实性质加剧了这些焦虑。
这就是 VASA-1 未来不确定的症结所在。
微软决定限制访问,使其远离公众和一些研究人员,这表明了一种谨慎的态度。 在释放如此强大的技术之前,需要仔细考虑深度假货的潜在危险。
平衡创新与责任
展望未来,微软面临着严峻的挑战:平衡创新与负责任的开发。 也许前进的道路在于受控的研究环境,并提供强有力的防止滥用的保障措施。 此外,促进公众教育和提高对深度造假的认识可以使用户能够辨别真实内容和人工智能操纵的内容。
无可否认,VASA-1 代表了人工智能操纵视觉媒体能力的重大飞跃。 它的潜在应用绝对是革命性的。
然而,围绕深度造假的道德考虑需要采取谨慎的方法。 只有通过负责任的开发和公共教育,我们才能释放 VASA-1 的真正潜力,同时减轻潜在的危害。
特色图片来源: 微软