人工智能化身,或“会说话的头像”,标志着我们处理和理解数字参与的方式迈出了新的一步。不久前,将一张照片和音频剪辑变成一个 现实、说话相似 似乎不可能——我们能得到的最好结果就是“恐怖谷”结果,当然不适合任何外部使用。
现在,情况已经大不相同了。对于像 Synthesia 这样的工具来说,创建人工智能头像的过程是至关重要的,首先是人工智能从图像中创建“数字身份”,然后对其进行动画处理,以将面部动作与音频同步——这样头像就可以在演示、卷轴、或事件。这一进步归功于诸如 GAN,以快速、高质量的视觉输出和扩散模型而闻名,虽然速度较慢,但因其丰富的细节而受到重视。 Synthesia、D-ID 和 Hume AI 等公司推进了这些工具,并率先使这项技术尽可能适应当前的需求。
然而,真正的现实主义仍然遥不可及。神经网络处理视觉细节的方式与人类不同,通常会忽略微妙的线索,例如牙齿和面部毛发的精确对齐,这些线索塑造了人们自然感知面部的方式。稍后会详细介绍。
本文讨论了该技术的内部运作原理以及开发人员在尝试使人工智能头像看起来像我们熟悉的面孔时所面临的挑战。它们能变得多么现实?
AI 头像生成过程如何运作
创建人工智能头像从用户上传照片或视频开始。该输入通过“身份提取器”进行处理,这是一种经过训练可以识别和编码人的外貌的神经网络。该模型提取面部的关键特征并将其转换为“数字身份”,可用于真实地制作虚拟人物动画。根据这种表示,开发人员可以通过“驱动程序”信号(通常是音频或附加视频)控制运动,这决定了化身应该如何移动和说话。
驱动信号在动画过程中至关重要。它决定了与音频的唇形同步以及更广泛的面部表情。例如,在说话的化身中,音频提示会影响嘴型和动作以匹配语音。有时,关键的面部点(例如眼角和嘴角)用于精确引导运动,而在其他情况下,整个化身的姿势会被修改以匹配驾驶员信号。为了确保表达自然,神经网络可以使用“变形”等技术,根据上述输入信号平滑地重塑化身的特征。
最后一步,解码过程通过生成单独的帧并将其组装成无缝视频,将修改后的数字身份转换回视觉形式。神经网络通常不可逆地运行,因此解码需要单独的训练,以准确地将动画数字表示转换为逼真的连续图像。其结果是一个与人类表情和动作密切相关的化身,但仍然受到人工智能目前感知精细面部细节的能力的限制。
GAN、扩散模型和基于 3D 的方法:头像生成的三大支柱
实现这一转变的核心技术正在不断进步,以更准确地捕捉人类表情,逐步建立在化身生成过程的基础上。目前三种主要方法正在推动进展,每种方法都有特定的优点和局限性:
第一个, 生成网络 (生成对抗网络)串联使用两个神经网络(生成器和鉴别器)来创建高度逼真的图像。这种方法可以实现快速、高质量的图像生成,使其适合对流畅且响应灵敏的化身有明确需求的实时应用程序。然而,虽然 GAN 在速度和视觉质量方面表现出色,但它们可能难以精确控制。这可能会限制它们在需要详细定制的情况下的有效性。
扩散模型 是另一个强大的工具。他们通过重复的步骤逐渐将噪声转化为高质量的图像。扩散模型以生成详细且高度可控的图像而闻名,但速度较慢并且需要大量的计算能力。因此,它们非常适合离线渲染和实时使用——但并非如此。该模型的优势在于生成细致入微、逼真的细节,尽管速度较慢。
最后, 基于 3D 的方法 神经辐射场 (NeRF) 和高斯分布等技术通过将空间和颜色信息映射到 3D 场景中来构建视觉表示。这些方法略有不同,Splatting 速度更快,而 NeRF 工作速度较慢。基于 3D 的方法最适合游戏或交互环境。然而,NeRF 和高斯溅射在视觉真实感方面可能存在不足,目前在需要与人类相似的场景中产生的外观可能显得虚假。
每种技术都在速度、质量和控制之间取得了平衡,最适合不同的应用。 GAN 因其速度和视觉质量的结合而被广泛用于实时应用,而扩散模型在“离线”环境中更受欢迎,其中渲染不是实时发生的,允许更密集的计算以实现更精细的细节。 3D 方法不断发展以满足高性能需求,但目前缺乏类人表示所需的真实视觉精度。
这些技术很好地总结了该领域当前的发展和挑战。持续的研究旨在融合它们的优势,以获得更逼真的结果,但目前,这就是我们正在处理的问题。
AI头像“牙齿和胡须”挑战
构建逼真的人工智能化身首先是收集高质量的训练数据——这本身就是一项复杂的任务——但一个不太明显且同样具有挑战性的方面是捕捉人类定义的小细节,例如 牙齿 和 胡须。众所周知,这些元素很难准确建模,部分原因是可用的训练数据有限。例如,牙齿(尤其是下牙)的详细图像在典型数据集中很少:它们通常隐藏在自然语音中。如果没有足够的例子,模型很难重建真实的牙齿结构,经常导致扭曲或不自然的外观,例如“破碎”或奇怪的位置。
胡须也增加了类似程度的复杂性。胡须靠近嘴巴,会随着面部动作而移动,并在不同的灯光下发生变化,这使得任何瑕疵都会立即引人注目。如果建模不精确,胡须可能会显得静态、模糊或纹理不自然,这会降低头像的整体真实感。
使这些细节复杂化的另一个因素是神经网络的感知。人类直观地关注牙齿和面部毛发等面部细微差别来识别个体,而神经模型将注意力分散到整个面部,通常会绕过这些较小但关键的元素。对于模型来说,牙齿和胡须不太重要;对于人类来说,它们是重要的身份标记。这只能通过大量的微调和再训练来克服,通常需要付出与完善整体面部结构一样多的努力。
我们现在可以看到一个 核心局限性:虽然这些模型向现实主义迈进,但它们仍然无法捕捉人类感知的微妙之处。
人工智能头像技术的最新进展使自然表情比以往任何时候都更接近现实。 GAN、扩散模型和新兴的 3D 方法已经彻底完善了“会说话的头像”的生成,每种方法都提供了独特的视角和工具包,使曾经的未来想法成为现实。
GAN 提供实时应用所需的速度;扩散模型有助于细致入微的控制,尽管速度较慢。技术如 高斯泼溅 3D 技术带来效率,但有时会牺牲视觉保真度。
尽管有这些改进,但技术在现实性方面还有很长的路要走。无论您的模型如何微调,您很可能偶尔会遇到一组略显怪异的牙齿或位置不雅的面部毛发。但是,随着可用的高质量数据随着时间的推移而增长,神经网络将发展出在表示人类先天微特征方面表现出一致性的能力。我们的感知不可或缺的只是人工智能模型的一个参数。
这一差距凸显了一场持续的斗争:科技的成就推动我们前进,但创造真正栩栩如生的化身的目标仍然难以捉摸,就像阿喀琉斯和乌龟的悖论一样——无论我们多么接近,完美仍然遥不可及。