OpenAI 的语音引擎是一种新的文本转语音技术,能够从个人语音的 15 秒音频样本中生成合成语音。 这种创新工具可以根据要求以录制语音的原始语言或各种其他语言发出文本提示。
OpenAI 在其声明中表示:“这些小规模部署有助于为我们的方法、保障措施提供信息,并思考如何将语音引擎用于各个行业。” 博客文章。
获得早期访问权的组织包括 学习时代,一家专门从事教育技术的公司; 海根,一个视觉讲故事的平台; 迪马吉,一家为现场工作人员提供医疗保健软件的开发商; 利沃克斯,它生产人工智能驱动的通信应用程序; 和 寿命,一个医疗保健网络。
OpenAI 的语音引擎有多好?
现在,我们将展示一份参考音频以及 OpenAI 生成的三个样本,并附上各自的文字记录。 您可以通过考虑共享示例来确定 OpenAI 语音引擎的有效性。 然而,在该功能广泛提供给最终用户之前,无法做出明确的评估。
- 输入音频。
- 盐还可以确保我们保持水分,这意味着我们体内有足够的水以使其正常运作。
- 让我们通过添加一到三个来使零件相同!
- 地球上一些最令人惊叹的栖息地就在雨林中。 雨林是降水量较多的地方,有多种动物、树木和其他植物。 热带雨林通常距离赤道不太远,全年温暖。
OpenAI 宣布将于 2022 年底开发其语音引擎技术,重点介绍了其在为文本转语音 API 提供预设语音并启用 ChatGPT 中的朗读功能。 最近,OpenAI 产品团队提到,该技术使用许可数据和可公开访问的数据进行了改进。 OpenAI 最初表示, 大约 10 名开发人员将可以使用这项技术。
人工智能驱动的文本到音频转换领域正在迅速发展。 虽然大多数进展都是在创造乐器或环境声音方面,但合成声音的创造活动较少,OpenAI 将这种情况归因于所涉及的道德问题。 活跃在该领域的一些实体包括 Podcastle 和 ElevenLabs。
OpenAI 已确认其合作者已承诺遵守其使用政策,该政策禁止在未经同意的情况下使用 Voice Generation 来冒充个人或实体。 此外,这些协议还规定,合作者必须获得声音使用者的明确自愿同意,防止用户独立生成声音,并告知听众这些声音是由人工智能合成的。 为了确保音频输出的可追溯性,OpenAI 在声音片段中加入了水印,并警惕地监督其使用情况。
OpenAI 提出了一系列旨在减轻与此类技术相关的潜在风险的措施。 其中包括不再使用基于语音的银行访问验证、实施法规来保护人工智能应用中的个人语音数据、提高公众对人工智能生成的深度伪造品的认识,以及创建监控人工智能生成内容的机制。
“我们认识到,生成类似于人们声音的言论存在严重风险,这在选举年尤其是首要考虑的问题。 我们正在与来自政府、媒体、娱乐、教育、民间社会等领域的美国和国际合作伙伴合作,以确保我们在开发过程中吸收他们的反馈。”OpenAI 表示。
OpenAI 语音引擎功能的用例
OpenAI 建议语音引擎的以下用例是其应用的可行示例, 但强调其潜在用途的真正限制仅受个人想象力的限制:
- 教育援助:语音引擎可通过创建自然且富有感情的声音,为非读者和儿童提供阅读帮助。 这有助于生成预先编写的画外音内容以及与学生的实时、个性化互动,从而扩大可访问的教育内容的范围。
- 内容翻译:这项技术可以实现视频和播客的翻译,让创作者和企业能够用自己的声音传达给全球观众。 它在不同语言中保持了原说话者的母语口音,从而保留了翻译内容的真实性。
- 偏远社区的服务交付:语音引擎可以通过以社区卫生工作者的主要语言提供交互式反馈来改善基本服务的提供。 这支持各种基本服务的技能发展,例如以偏远社区特有的语言和方言提供孕产妇健康咨询。
- 对非语言个体的支持:该技术为帮助非语言人员进行交流的设备提供动力。 用户可以选择跨多种语言准确表达自己的声音,从而使沟通更加个性化,减少机械化。
- 言语障碍患者的声音恢复:它为因突发或退行性疾病而遭受言语障碍的个人提供了解决方案。 只需一个简短的音频样本,语音引擎就可以重新创建患者的声音,帮助他们恢复以自然声音进行交流的能力。
特色图片来源: 凯雷姆·葛兰/中途