Dataconomy CN
Social icon element need JNews Essential plugin to be activated.
Subscribe
No Result
View All Result
Dataconomy CN
Social icon element need JNews Essential plugin to be activated.
Subscribe
No Result
View All Result
Dataconomy CN
No Result
View All Result

MyShell:我们尝试了新的 OpenVoice 模型

Kerem GülenbyKerem Gülen
3 1 月, 2024
in 未分类

MyShell 与领先的学术机构合作推出了 OpenVoice,这是一项突破性的开源语音克隆技术,为人工智能驱动的音频复制领域树立了新标准。

语音克隆技术正在取得长足进步,并且诸如此类的初创公司也取得了显着的进步 十一实验室,已获得大量资金来推进其专有算法和基于人工智能的软件。 这些工具旨在创建人声的音频复制品。

然而,由来自麻省理工学院 (MIT)、北京清华大学和加拿大人工智能公司 MyShell 的团队合作创建的 OpenVoice 已经出现了一项很酷的开发成果。 OpenVoice 是一个用于语音克隆的开源平台,其特点是快速处理和高级定制选项,使其有别于现有的语音克隆技术。

今天,我们自豪地开源我们的 OpenVoice 算法,秉承我们的核心理念——人工智能为所有人。

立即体验: https://t.co/zHJpeVpX3t。 克隆声音具有无与伦比的精确性,可以对音调进行精细控制,从情感到重音、节奏、停顿和语调,只需使用…… pic.twitter.com/RwmYajpxOt

— MyShell (@myshell_ai) 2024 年 1 月 2 日

为了提高可访问性和透明度,该公司分享了经过彻底审查的链接 研究论文 详细介绍了OpenVoice的开发。 此外,他们还为用户提供了尝试该技术的接入点。 其中包括需要用户注册的 MyShell Web 应用程序界面,以及 抱脸,无需任何帐户即可向公众开放。

MyShell 致力于为更广泛的研究社区做出贡献,将 OpenVoice 视为只是一个开始。 展望未来,他们计划通过拨款、数据集和计算资源来提供支持,以支持开源研究。 MyShell 的指导原则是“AI for All”,强调语言、视觉和语音作为未来通用人工智能 (AGI) 的三个关键组成部分的重要性。

在研究领域,虽然语言和视觉模式的开源模型取得了长足的发展,但语音领域仍然存在差距。 具体来说,需要一个强大的、即时响应的语音克隆模型,提供可定制的语音生成功能。 MyShell 旨在填补这一空白,突破 AGI 中语音技术的界限。


见面 默夫人工智能:几秒钟内的文本转语音配音


如何使用Myshell AI?

按着这些次序:

  • 前往MyShell AI官方网站。
myshell 开放语音
myshell 开放语音
  • 点击“启动应用程序”
  • 从左侧选择“聊天”。
myshell 开放语音
myshell 开放语音
  • 为了使用“MyShell语音克隆”功能,您需要注册一个帐户。 您始终可以使用 Google 帐户。
  • 接下来单击“开始”,它位于页面底部。
  • 上传录音并输入要转换为音频的英文文本。
myshell 开放语音
myshell 开放语音
  • 点击“生成”,这将花费 10 个应用内货币。
myshell 开放语音
myshell 开放语音
  • 您的输出将通过聊天发送给您。

编者注: 作为参考,我上传了我自己的录音,内容如下: “语音克隆技术正在取得长足进步,ElevenLabs 等初创公司也取得了显着的进步。”

然后,要求输出,内容如下:“该音频文件是使用 MyShell AI 创建的。 你来评判它有多成功!”

输入:


https://dataconomy.com/wp-content/uploads/2024/01/input.mp3

输出:

https://dataconomy.com/wp-content/uploads/2024/01/output.mp3

 

我不会说输出非常成功,但看到它的速度有多快真是令人惊讶。 补充一点,我不是母语人士。


OpenVoice 技术如何工作?

OpenVoice 技术由清华大学的Qin、Wenliang Zhu 和 Xumin Yu 以及 MyShell 的 Xin Sun 开发,在他们的科学论文中进行了阐述。 这种语音克隆人工智能基于双模型架构:文本转语音 (TTS) 模型和“音调转换器”。

TTS 模型负责管理样式参数和语言。 它使用 30,000 个音频样本句子进行训练,其中包括带有美国和英国口音的英语声音,以及中国和日本人的声音。 这些样本被贴上独特的标签,以反映它们所表达的情感。 该模型从这些片段中学习了语调、节奏和停顿等细微差别。

另一方面,音调转换器模型是使用来自 20,000 多个不同说话者的超过 300,000 个音频样本的广泛数据集进行训练的。

在这两种模型中,人类语音的音频都被转化为音素——区分单词的基本声音单位。 然后通过向量嵌入来表示它们。

这一独特的过程涉及在 TTS 模型中使用“基本扬声器”,并结合从用户录制的音频中得出的音调。 这种组合使模型不仅可以再现用户的声音,还可以修改“音色”,即语音文本的情感表达。

该团队在论文中包含了一个图表来说明这两个模型如何交互:

myshell 开放语音
myshell 开放语音 (图片来源)

他们强调,他们的方法在概念上简单而有效。 与 Meta 的 Voicebox 等其他语音克隆方法相比,它需要的计算资源也少得多。

“我们希望开发迄今为止最灵活的即时语音克隆模型。 这里的灵活性意味着对风格/情感/口音等的灵活控制,并且可以适应任何语言。 以前没有人能做到这一点,因为太难了。 我带领一群经验丰富的人工智能科学家花了几个月的时间找出解决方案。 我们发现有一种非常优雅的方法可以将困难的任务分解为一些可行的子任务,以实现整体上看起来太困难的任务。 事实证明,解耦的管道非常有效,但也非常简单。” 创业节拍。

Please login to join discussion

Recent Posts

  • 基于模型的机器学习(MBML)
  • ML性能跟踪
  • 苹果为AI智能眼镜和Mac开发了新的芯片
  • Skymizer推出了智能边缘设备的超思考AI IP
  • Sigenergy在欧洲欧洲弯曲全AI Energy Suite

Recent Comments

您尚未收到任何评论。
Dataconomy CN

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

Follow Us

Social icon element need JNews Essential plugin to be activated.
No Result
View All Result
Subscribe

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy Policy.