Kyutai 是一家致力于推动人工智能 (AI) 开放研究的非营利实验室,其最新创新成果 Moshi Chat 取得了重大进展。这一尖端的实时原生多模态基础模型代表了人工智能技术的一项非凡成就。Kyutai 推出的 Moshi Chat 因其出色的功能而备受关注,尤其是在同时聆听和说话方面。与传统的 AI 模型不同,Moshi Chat 旨在理解和表达情感,使与之的互动更加自然和引人入胜。
Moshi Chat 凭借其独特的功能和开源可用性成为 AI 开发的先驱。
Moshi Chat 的发展证明了 Kyutai 对透明度和协作创新的承诺。该模型能够 同时处理两个音频流—实时聆听和说话—使其有别于其他人工智能模型。
此功能由对文本和音频数据进行强大的联合预训练过程支撑,利用来自 Helium 的合成文本数据, Kyutai 开发的 70 亿参数语言模型. 人工智能技术的这些进步是经过严格研究和微调的结果,旨在实现无缝、高效的性能。
Kyutai Moshi Chat 的技术
Moshi Chat 的突出特点是 实时交互能力,使其能够同时聆听和响应。这是通过对文本和音频数据的混合进行联合预训练实现的,确保模型能够保持文本和听觉信息的流畅流动。Moshi Chat 语音处理能力的基础是 Helium 模型,这是一个拥有 70 亿参数的语言模型,是这项创新技术的支柱。
根据 Kyutai Moshi Chat 在 YouTube 上的主题演讲,Moshi Chat 的微调过程涉及 包含 100,000 条“口语式”合成对话的庞大数据集。这些对话使用文本转语音 (TTS) 技术进行转换,类似于 穆尔夫·艾,使模型能够以惊人的准确度生成和理解语音。TTS 引擎支持 70 种不同的情绪和风格,使用由持牌配音演员录制的 20 小时音频进行了微调。这种细致的训练方法使得模型 不仅能理解口头语言,还能传达情感和细微差别,使互动更加自然、更具吸引力。
Kyutai 对负责任地使用 AI 的承诺体现在他们采用水印来检测 AI 生成的音频。此功能仍在开发中,强调了道德考量在 AI 开发中的重要性。此外,决定将 Moshi Chat 作为开源项目发布,凸显了 Kyutai 致力于培养 人工智能社区内的协作环境。
Moshi AI的训练和微调过程
Moshi Chat 的开发涉及严格的训练和微调过程,以确保其高性能。该模型使用 Helium 7B 基础文本语言模型从头开始训练,然后与文本和音频编解码器进行联合训练。
该语音编解码器基于 Kyutai 内部的 Mimi 模型,拥有 300 倍压缩系数,这有助于在减少数据大小的同时保持音频质量。
Moshi Chat 的微调过程涉及注释 100,000 份内容详尽、充满情感和风格的笔录。这些注释使模型能够理解和传达各种情绪,使与模型的互动更加逼真和引人入胜。支持 70 种不同情绪和风格的文本转语音引擎 使用 20 小时的音频进行微调 由 获得授权的配音演员名为 Alice。
Kyutai 对适应性的关注在 Moshi Chat 中得到了充分体现 能够使用少于 30 分钟的音频进行微调。此功能允许用户自定义模型以满足特定需求,无论是用于研究、语言学习还是其他应用。该模型的部署展示了其效率和多功能性, 在 24 GB VRAM 上处理两种批次大小并支持多个后端. 推理代码的优化,例如增强的KV缓存和提示缓存,有望进一步提高Moshi Chat的性能。
Kyutai Labs 为每个人提供技术
Moshi Chat 不仅是一项技术奇迹,而且非常容易使用。Kyutai 开发了该模型的较小版本,可以在 MacBook 或消费级 GPU 上运行,从而让更广泛的用户可以使用它。
该模型的效率通过在 Scaleway 和 拥抱脸,它可以在 24 GB VRAM 上处理两种批次大小,并支持包括 CUDA、Metal 和 CPU 在内的各种后端。
该模型的语音是在由单独的 TTS 模型生成的合成数据上进行训练的,实现了令人印象深刻的 200 毫秒端到端延迟。这种低延迟对于实时交互至关重要,使 Moshi Chat 能够几乎立即响应用户输入。先进的训练技术和使用 Rust 开发的优化推理代码相结合,有助于该模型的卓越性能。增强的 KV 缓存和提示缓存也有望进一步提高模型的效率。
发布的演示 扬·勒昆 展示了这个新人工智能模型的良好运行。
来自的 Moshi 现场演示 https://t.co/TngVXgSjzX https://t.co/qftjudOq1k
— Yann LeCun(@ylecun) 2024 年 7 月 3 日
展望未来,Kyutai 对 Moshi Chat 制定了雄心勃勃的计划。该团队打算发布一份全面的技术报告和开放模型版本,包括推理代码库、7B 模型、音频编解码器和完整的优化堆栈。Moshi Chat 的未来版本(例如 1.1、1.2 和 2.0 版本)将结合用户反馈来改进和增强模型的功能。
Kyutai 的宽松许可旨在鼓励广泛采用和创新,确保不同受众都能享受到 Moshi Chat 的好处。
如何使用 Moshi Chat
我们鼓励用户 通过 Kyutai 网站在线试用 Moshi Chat. 到达那里后:
- 输入你的电子邮箱
- 点击“加入队列”
- 开始交谈
无论是讨论日常话题还是探索更复杂的主题,用户都可以自然地与 Moshi Chat 互动,从而受益于其先进的语音识别和合成功能。
特色图片来源: Kyutai/YouTube