Elevenlabs是一家以其音频发电能力认可的AI初创公司 发射 独立的语音到文本模型,名为Scribe。此次发布之后,筹集了1.8亿美元的资金回合,将公司的估值提高到了33亿美元。
Elevenlabs推出抄写员:新的AI语音到文本模型
Scribe支持99多种语言,并在25种语言中获得的单词错误率少于5%,包括英语,该语言的准确率为97%。出色精度类别中的其他语言包括法语,德语,印度人,印尼,日本,卡纳达语,马拉雅拉姆语,波兰,葡萄牙语,西班牙语和越南语。其他语言以不同的错误率从高(5%到10%)到中度(25%至50%)进行分类。
视频:Elevenlabs
据报道,这款新模型的表现优于Google的Gemini 2.0 Flash和Openai的Whisper大型V3多种语言,基于Fleurs和常见的语音基准测试。 Scribe是ElevenLabs的第一个单独的语音检测模型,该模型以前已将语音到文本组件集成到其AI对话代理平台中。
首席执行官Mati Staniszewski强调了增强对话理解的目标:“我们正在努力摆脱仅生成内容,理解和转录语音的方法,”他说。该型号具有扬声器诊断,单词级时间戳,用于准确的字幕以及自动标记非语言音频事件。
Scribe目前仅限于预先录制的音频格式,预计将很快发布实时版本。抄写员的定价为每小时0.40美元的转录音频,前六周的介绍性折扣为50%。

基准测试表明,抄写员记录了各种语言的最低单词错误率,在意大利语中达到98.7%,英语达到96.7%。关键功能包括在多演讲者录音中区分扬声器的能力,详细的时间戳以及对非语音事件的检测。
对于企业用户,Scribe用作可扩展的转录工具,对依靠文档,满足转录和可访问性计划的部门有益。即将推出的实时版本可以进一步增强其在实时通信方案中的实用性。
Scribe的推出与Hume AI的Octave的发行相吻合,Hume AI的八度音阶是一种可自定义的,由LLM驱动的文本到语音模型,该模型是为内容创建而定的。 Elevenlabs声称抄写员在转录精度方面始终超过竞争对手。
可以直接通过ElevenLabs网站或API访问Scribe,从而使用户可以上传音频或视频文件以获取格式的成绩单。它的结构化产出有助于将整合到各种应用程序中,为寻求高准确性转录服务的企业提供了竞争选择。
特色图片来源:Elevenlabs