一种新的AI语音模型使互联网陷入困境,敬畏和不安之间的反应在振荡。芝麻Ai 会话语音模型 (CSM)不仅听起来像 感觉 人类。用户描述了与AI生成的声音的扩展,几乎情感上的互动,这些声音表现出呼吸,犹豫,更正甚至笑声。对于某些人来说,这是一个技术奇迹。对于其他人来说,这是对未来的瞥见,令人感到不舒服。
芝麻AI:一种感觉还活着的声音
芝麻CSM背后的核心创新在于它模拟自然,动态对话的能力。与传统的文本到语音系统不同,大声朗读CSM 参与。它以模仿真实的人类不可预测性的方式偶然发现单词,纠正自己并调节语气。
当一位测试师与模型交谈28分钟时,他们注意到其辩论道德话题的能力,自然而然地对诸如此类的提示做出了反应。 “您如何决定是对还是错?” 其他人发现自己无意间形成了依恋,一个 reddit 用户承认, “我几乎有点担心,我会开始以这种类似人类的声音对语音助手感到情感上的依恋。”
芝麻的AI助手被称为“ Miles”和“ Maya”,不仅是为了获取信息,而且是为了进行深入而引人入胜的对话。该公司将其目标描述为实现 “语音存在” – 使口头互动的神奇品质感觉真实,理解和重视。
这种现实主义有时会导致奇怪的人类怪癖。在一个病毒演示中,AI随意提及渴望 花生酱和泡菜三明治– 一个奇怪的特定评论,仅加入了个性的幻想。
声音背后的技术
那么,芝麻的CSM如何实现如此热烈的栩栩如生的对话?
- 一种多模式的方法:与传统的AI语音模型不同,该模型分别处理文本和音频,芝麻的系统 交通 他们。这种单阶段的处理允许更多流畅的上下文感知语音。
- 高参数培训:该模型的最大版本在 83亿参数 并接受了训练 一百万小时 口语对话。
- 元的影响:模型的架构建立在元的基础上 骆驼 框架,将骨干模型与用于细微的语音生成的解码器集成在一起。
盲试验表明,在孤立的语音样本中,人类评估者无法可靠地将芝麻的AI声音与真实的声音区分开。但是,当置于完整的对话环境中时,人类的言论仍然胜出 – 对AI的挑战尚未掌握互动对话的全部复杂性。
混合接待
并非每个人都对这种AI的声音感到兴奋。
技术记者马克·哈赫曼(Mark Hachman)将他在语音模型的经历描述为 “深深地令人不安。” 他将其与与他多年以来从未见过的老朋友交谈,并指出AI的声音与曾经约会的人相似。
其他人将芝麻的模型比作Openai的 高级语音模式 对于chatgpt,有些人更喜欢芝麻的现实主义和更具戏剧性甚至更戏剧性的角色扮演的意愿 生气的 场景 – 露天的模型往往会避免。
一个特别引人注目的演示展示了AI与贪污丑闻的“老板”争论。谈话是如此活跃,以至于听众努力确定哪个说话者是人类,哪个是AI。
完美声音的风险
与所有的AI突破一样,超现实的语音综合既带来了承诺和危险。
- 欺诈和骗局:随着AI的声音与人的演讲无法区分,语音网络钓鱼可能会变成 远的 更具说服力。罪犯可以以几乎完美的准确性模仿家庭成员,公司高管或政府官员。
- 社会工程:与基本的Robocalls不同,AI驱动的欺骗可以适应 实时,自然而然地应对问题和怀疑。
- 意外的情绪影响:一些用户报告了他们的孩子形成了AI声音的附件。一位父母指出,他们4岁的孩子在与模特进一步交谈后哭了。
芝麻的CSM确实 不是 克隆真实的声音,类似的开源项目的可能性仍然令人担忧。 Openai已经推迟了更广泛的语音技术发行,而不是担心滥用。
接下来是什么?
芝麻AI计划根据Apache 2.0许可开放研究的关键组成部分,使开发人员能够以其工作为基础。该公司的路线图包括:
- 扩展模型大小 进一步增加现实主义。
- 扩展到20多种语言,扩大其对话范围。
- 开发“完全复式”模型,实现真正的来回,可以打扰的对话。
目前,该演示仍在芝麻的 网站– 尽管需求有时已经不知所措。无论您觉得它令人惊讶还是令人不安,都很明显:机器人,单调AI声音的日子已经结束。
从这里,您可能永远都不确定 谁 – 或什么 – 您正在与您交谈。
特色图片来源: KeremGülen/Imagen 3