ChatGPT 高级语音模式已经到来,为对话式 AI 带来了新的维度。
OpenAI 的最新功能,继宣布并推出 GPT 4o 语音模式,允许用户使用语音与聊天机器人进行交互,从而创造更自然、更具吸引力的体验。
让我们探索一下 OpenAI的 ChatGPT 高级语音模式,它的工作原理,以及用户可以从这项创新技术中期待什么。
我们开始向一小部分 ChatGPT Plus 用户推出高级语音模式。高级语音模式提供更自然的实时对话,允许您随时打断,并能感知和响应您的情绪。 pic.twitter.com/64O94EhhXK
— OpenAI(@OpenAI) 2024 年 7 月 30 日
什么是 ChatGPT 高级语音模式?
ChatGPT 高级语音模式改变了用户与 AI 助手互动的方式。用户现在无需键入查询,而是可以直接与 ChatGPT 对话并接收音频响应。
OpenAI 于周二开始推出 ChatGPT 高级语音模式,最初向特定 ChatGPT Plus 订阅者群体提供该模式。
该公司计划扩大对所有人 ChatGPT Plus 用户在 2024 年秋季. 通过这种逐步推出的方式,OpenAI 可以密切监视使用情况,并在更广泛发布之前做出任何必要的调整。
ChatGPT 高级语音模式如何发挥其神奇作用?
ChatGPT 高级语音模式使用复杂的系统来处理音频输入并生成语音响应。与之前的语音功能不同,之前的语音功能依赖于单独的模型进行语音转文本、文本处理和 文字转语音 转换时,新的高级模式将这些功能集成到一个名为 GPT-4o 的多模式模型中。
这种集成方法可实现更快、更自然的对话,并减少延迟。系统可以无缝处理音频输入、理解上下文并生成适当的响应。
ChatGPT 高级语音模式的一些初步印象:
它的速度非常快,从您停止说话到它做出响应几乎没有延迟。
当你要求它发出声音时,它总是会让声音“表演”出声音(产生有趣的结果)。
它可以模仿重音,但是当…… pic.twitter.com/vOA8qmqX06— 克里斯蒂亚诺·贾迪纳 (@CrisGiardina) 2024 年 7 月 31 日
此外,ChatGPT 高级语音模式可以 检测情绪细微差别 在用户的声音中表达出悲伤或兴奋等情绪,从而实现更具同理心的互动。
OpenAI 已实施多项安全措施来解决潜在问题。该公司进行了 与超过 100 名使用 45 种不同语言的外部评估人员进行了广泛的测试。这个多元化的团队在公开发布之前帮助识别和解决潜在问题。
如何与 ChatGPT 交谈
要使用 ChatGPT 高级语音模式,符合条件的用户将在 ChatGPT 应用中收到提醒,随后会收到一封包含详细说明的电子邮件。激活后,用户可以通过设备的麦克风与 ChatGPT 开始语音对话。
系统为 ChatGPT 的响应提供了四种预设声音:
- 瞻博网络
- 微风
- 海湾
- 余烬
这些声音是与付费配音演员合作创作的,以确保高质量和自然的音频输出。值得注意的是,ChatGPT 不能冒充特定个人或公众人物,因为 OpenAI 已采取措施防止此类滥用。
和不, ChatGPT Sky 语音 由于显而易见的原因,未添加到 ChatGPT 高级语音模式。
用户可以进行各种类型的对话,从提问和寻求建议到集思广益或练习语言技能。语音交互增加了一层新的便利性和可访问性,尤其是对于那些喜欢说话而不是打字的人来说。
未来的声音又如何?
随着 ChatGPT 高级语音模式的不断发展,它很可能会对人们与人工智能助手的互动方式产生重大影响。该技术为无障碍、教育和生产力应用开辟了新的可能性。
不过值得注意的是,早期预览版中展示的一些功能,例如视频和屏幕共享功能,并未包含在当前版本中。OpenAI 表示,这些附加功能将在稍后推出,让用户对未来的更新有所期待。
ChatGPT 高级语音模式的推出引发了人们对 AI 监管未来的质疑。OpenAI 最近批准了几项与 AI 发展和教育相关的美国参议院法案。这些支持表明该公司正在积极塑造 AI 技术的监管格局。
其中一项获得批准的法案是 人工智能创新法案的未来将成立美国人工智能安全研究所,作为负责制定人工智能模型标准和指南的联邦机构。此举表明OpenAI致力于与政府机构合作,确保人工智能技术安全、负责任地发展。
随着 ChatGPT 高级语音模式越来越普及,用户如何适应这种新的互动形式以及会出现哪些富有创意的应用程序,将会很有趣。该技术有可能改变我们与人工智能助手的沟通方式,使它们对更广泛的用户来说更容易使用、更直观。
特色图片来源: OpenAI/X