然而,由来自麻省理工学院 (MIT)、北京清华大学和加拿大人工智能公司 MyShell 的团队合作创建的 OpenVoice 已经出现了一项很酷的开发成果。 OpenVoice 是一个用于语音克隆的开源平台,其特点是快速处理和高级定制选项,使其有别于现有的语音克隆技术。
今天,我们自豪地开源我们的 OpenVoice 算法,秉承我们的核心理念——人工智能为所有人。
立即体验: https://t.co/zHJpeVpX3t。 克隆声音具有无与伦比的精确性,可以对音调进行精细控制,从情感到重音、节奏、停顿和语调,只需使用…… pic.twitter.com/RwmYajpxOt
— MyShell (@myshell_ai) 2024 年 1 月 2 日
为了提高可访问性和透明度,该公司分享了经过彻底审查的链接 研究论文 详细介绍了OpenVoice的开发。 此外,他们还为用户提供了尝试该技术的接入点。 其中包括需要用户注册的 MyShell Web 应用程序界面,以及 抱脸,无需任何帐户即可向公众开放。
MyShell 致力于为更广泛的研究社区做出贡献,将 OpenVoice 视为只是一个开始。 展望未来,他们计划通过拨款、数据集和计算资源来提供支持,以支持开源研究。 MyShell 的指导原则是“AI for All”,强调语言、视觉和语音作为未来通用人工智能 (AGI) 的三个关键组成部分的重要性。
在研究领域,虽然语言和视觉模式的开源模型取得了长足的发展,但语音领域仍然存在差距。 具体来说,需要一个强大的、即时响应的语音克隆模型,提供可定制的语音生成功能。 MyShell 旨在填补这一空白,突破 AGI 中语音技术的界限。
见面 默夫人工智能:几秒钟内的文本转语音配音
如何使用Myshell AI?
按着这些次序:
- 前往MyShell AI官方网站。
- 点击“启动应用程序”
- 从左侧选择“聊天”。
- 为了使用“MyShell语音克隆”功能,您需要注册一个帐户。 您始终可以使用 Google 帐户。
- 接下来单击“开始”,它位于页面底部。
- 上传录音并输入要转换为音频的英文文本。
- 点击“生成”,这将花费 10 个应用内货币。
- 您的输出将通过聊天发送给您。
编者注: 作为参考,我上传了我自己的录音,内容如下: “语音克隆技术正在取得长足进步,ElevenLabs 等初创公司也取得了显着的进步。”
然后,要求输出,内容如下:“该音频文件是使用 MyShell AI 创建的。 你来评判它有多成功!”
输入:
输出:
我不会说输出非常成功,但看到它的速度有多快真是令人惊讶。 补充一点,我不是母语人士。
OpenVoice 技术如何工作?
OpenVoice 技术由清华大学的Qin、Wenliang Zhu 和 Xumin Yu 以及 MyShell 的 Xin Sun 开发,在他们的科学论文中进行了阐述。 这种语音克隆人工智能基于双模型架构:文本转语音 (TTS) 模型和“音调转换器”。
TTS 模型负责管理样式参数和语言。 它使用 30,000 个音频样本句子进行训练,其中包括带有美国和英国口音的英语声音,以及中国和日本人的声音。 这些样本被贴上独特的标签,以反映它们所表达的情感。 该模型从这些片段中学习了语调、节奏和停顿等细微差别。
另一方面,音调转换器模型是使用来自 20,000 多个不同说话者的超过 300,000 个音频样本的广泛数据集进行训练的。
在这两种模型中,人类语音的音频都被转化为音素——区分单词的基本声音单位。 然后通过向量嵌入来表示它们。
这一独特的过程涉及在 TTS 模型中使用“基本扬声器”,并结合从用户录制的音频中得出的音调。 这种组合使模型不仅可以再现用户的声音,还可以修改“音色”,即语音文本的情感表达。
该团队在论文中包含了一个图表来说明这两个模型如何交互:
他们强调,他们的方法在概念上简单而有效。 与 Meta 的 Voicebox 等其他语音克隆方法相比,它需要的计算资源也少得多。
“我们希望开发迄今为止最灵活的即时语音克隆模型。 这里的灵活性意味着对风格/情感/口音等的灵活控制,并且可以适应任何语言。 以前没有人能做到这一点,因为太难了。 我带领一群经验丰富的人工智能科学家花了几个月的时间找出解决方案。 我们发现有一种非常优雅的方法可以将困难的任务分解为一些可行的子任务,以实现整体上看起来太困难的任务。 事实证明,解耦的管道非常有效,但也非常简单。” 创业节拍。