人工智能口型同步的兴起：从恐怖谷到超现实主义

还记得老功夫电影中尴尬的配音吗？或者早期动画电影中刺耳的口型同步？那些日子很快就会过去，而且由于人工智能驱动的口型同步技术的兴起，这种日子可能会永远成为过去。自2023年4月以来，解决方案的数量和数量 “AI 口型同步”关键字搜索已经急剧增长，从默默无闻变成了关键趋势之一生成式人工智能。

这个尖端领域正在彻底改变我们创建和消费视频内容的方式，对从电影制作和动画到视频会议和游戏的各个领域都有影响。

为了更深入地研究这项令人着迷的技术，我与计算机视觉和机器学习工程师 Aleksandr Rezanov 进行了交谈，他之前在 Rask AI 负责口型同步开发，目前在希格斯菲尔德人工智能在伦敦。 Rezanov 的专业知识让我们得以一睹人工智能口型同步的复杂工作原理、挑战和变革潜力。

解构魔法：人工智能口型同步的工作原理

“大多数唇形同步架构的运行原理均受到该论文的启发”Wav2Lip：在野外准确地对口型视频’，”雷扎诺夫告诉我。这些系统利用神经网络的复杂相互作用来分析音频输入并生成相应的嘴唇运动。 “输入数据包括我们想要改变嘴巴的图像、显示人的外观的参考图像以及音频输入，”雷扎诺夫说。

三个独立的编码器处理这些数据，创建压缩表示，这些压缩表示相互作用以生成逼真的嘴形。 “口型同步任务是根据人的外表和当时所说的话‘画’出一张被遮住的嘴（或调整现有的嘴），”雷扎诺夫说。

此过程涉及复杂的修改，包括使用多个参考图像来捕捉人的外观、采用不同的面部模型以及不同的音频编码方法。

“本质上，对口型同步的研究探索了这个框架中的哪些模块可以被替换，同时基本原理保持一致：三个编码器、内部交互和一个解码器，”雷扎诺夫说。

开发人工智能口型同步技术是一项具有挑战性的壮举。 Rask AI 的 Rezanov 团队面临着众多挑战，特别是在实现视觉质量和准确的音视频同步方面。

“为了解决这个问题，我们采用了多种策略，”雷扎诺夫说。 “这包括修改神经网络架构、完善和增强训练程序以及改进数据集。”

Rask 还率先为具有多个扬声器的视频提供口型同步支持，这是一项复杂的任务，需要扬声器分类（自动识别音频记录并将其分割为不同的语音片段）以及活动扬声器检测。

人工智能口型同步的影响远远超出了娱乐范围。 “口型同步技术有着广泛的应用，”雷扎诺夫说。 “通过利用高质量的口型同步，我们可以消除观看翻译内容时的视听间隙，让观众保持沉浸感，而不会因语音和视频之间的不匹配而分心。”

这对可访问性具有重大影响，使内容对依赖字幕或配音的观众更具吸引力。此外，人工智能口型同步可以简化内容制作，减少多次拍摄的需要并降低成本。

“这项技术可以简化并降低内容制作成本，节省游戏工作室大量资源，同时可能提高动画质量，”雷扎诺夫说。

虽然人工智能口型同步取得了显着的进步，但对完美、难以区分的口型同步的追求仍在继续。

“口型同步技术面临的最大挑战是，人类作为一个物种，在识别面孔方面非常擅长，”雷扎诺夫说。 “数千年来，进化训练我们完成这项任务，这解释了生成与面孔相关的任何东西的困难。”

他概述了口型同步发展的三个阶段：实现与音频的基本口型同步，创建自然无缝的动作，最后捕捉毛孔、头发和牙齿等精细细节。

“目前，口型同步的最大障碍在于提高细节水平，”雷扎诺夫说。 “牙齿和胡须仍然特别具有挑战性。”作为牙齿和胡须的拥有者，我可以证明我在测试一些人工智能口型同步解决方案时所经历的失望（有时甚至是令人捧腹大笑的达利式结果）

尽管面临这些挑战，雷扎诺夫仍然保持乐观。

“在我看来，我们正在稳步接近实现真正难以区分的口型同步，”雷扎诺夫说。 “但谁知道当我们到达那里时我们会开始注意到哪些新细节呢？”

Rezanov 在 Higgsfield AI 的工作建立在他的口型同步专业知识的基础上，专注于更广泛的面部操纵技术。

“视频生成是一个巨大的领域，不可能只挑出一个方面，”雷扎诺夫说。 “在公司，我主要处理与面部操作相关的任务，这与我之前的经验非常吻合。”

他目前的重点包括优化换脸技术并确保生成内容中的角色一致性。这项工作突破了人工智能驱动的视频处理的界限，为创意表达和技术创新开辟了新的可能性。

随着人工智能口型同步技术的发展，我们可以期待电影、动画、游戏等领域更加真实、身临其境的体验。恐怖谷正在缩小，超现实数字人类的未来已经触手可及。