YouTube 正在开发一项人工智能功能,为其自动配音视频生成口型同步。该技术旨在通过修改说话者的嘴部动作以与翻译后的音轨保持一致来增强真实感,从而提高观众的参与度。根据 数字趋势YouTube 自动配音产品负责人 Buddhika Kottahachchi 详细介绍了该系统的技术基础,依赖于定制的人工智能。 Kottahachchi 解释说,该技术对说话者屏幕上的嘴部执行复杂的像素级更改,以与配音音频实现同步。人工智能模型结合了面部结构的三维感知,使其能够分析嘴唇和牙齿的几何形状。它还旨在解释和复制伴随语音的面部表情。这种 3D 建模方法使系统能够更准确地模拟用不同语言说话所需的身体动作。在初始阶段,口型同步功能将具有特定的技术和语言限制。 AI处理目前仅限于1080p分辨率的视频,无法应用于4K内容。发布时的语言支持仅限于英语、法语、德语、葡萄牙语和西班牙语。在此介绍期之后,YouTube 计划扩大对 20 多种语言的支持。此次扩展旨在使口型同步功能与 YouTube 自动配音服务当前提供的所有语言保持一致。 YouTube 尚未宣布该功能的具体发布日期。预计该公司将首先通过一小群创作者的试点计划引入该技术,这一策略反映了自动配音功能的推出。就在上个月,这项自动配音服务已扩展到更广泛的受众,这表明口型同步功能可能会经历较长的测试期。创作者将获得管理其使用的控件,包括报告的选项,以禁用其整个频道或单个视频的功能,让他们对内容的呈现拥有最终决定权。该功能可能需要额外付费,但具体价格尚未最终确定。目前尚不清楚创作者或消费者是否将承担这笔费用,但报告表明很可能是消费者。为了解决潜在的滥用问题,YouTube 计划实施保障措施。其中包括向观众通报人工智能改变的描述性披露,以及嵌入视频中的不可见、持久的指纹。该数字水印被描述为与 SynthID 功能相似,SynthID 是一种用于识别人工智能生成内容的工具,提供跟踪和身份验证的机制。 YouTube 并不是唯一开发该技术的平台。 Meta 在其 Instagram 平台上也采取了类似的举措,该公司去年推出了一项试点计划,对 Reels 进行配音和口型同步。虽然该计划成功的细节有限,但它最近已扩展到支持四种语言:英语、印地语、葡萄牙语和西班牙语。 https://www.youtube.com/watch?v=8W3noE2Uxag





