Elevenlabs的新语音到文本模型声称97％的准确性

Elevenlabs是一家以其音频发电能力认可的AI初创公司发射独立的语音到文本模型，名为Scribe。此次发布之后，筹集了1.8亿美元的资金回合，将公司的估值提高到了33亿美元。

Elevenlabs推出抄写员：新的AI语音到文本模型

Scribe支持99多种语言，并在25种语言中获得的单词错误率少于5％，包括英语，该语言的准确率为97％。出色精度类别中的其他语言包括法语，德语，印度人，印尼，日本，卡纳达语，马拉雅拉姆语，波兰，葡萄牙语，西班牙语和越南语。其他语言以不同的错误率从高（5％到10％）到中度（25％至50％）进行分类。

视频：Elevenlabs

据报道，这款新模型的表现优于Google的Gemini 2.0 Flash和Openai的Whisper大型V3多种语言，基于Fleurs和常见的语音基准测试。 Scribe是ElevenLabs的第一个单独的语音检测模型，该模型以前已将语音到文本组件集成到其AI对话代理平台中。

Chatgpt Plus订户现在享受深入的研究功能

首席执行官Mati Staniszewski强调了增强对话理解的目标：“我们正在努力摆脱仅生成内容，理解和转录语音的方法，”他说。该型号具有扬声器诊断，单词级时间戳，用于准确的字幕以及自动标记非语言音频事件。

Scribe目前仅限于预先录制的音频格式，预计将很快发布实时版本。抄写员的定价为每小时0.40美元的转录音频，前六周的介绍性折扣为50％。

Elevenlabs向新的语音到文本模型 - claims-97％ - 准确性 — 图像：Elevenlabs

基准测试表明，抄写员记录了各种语言的最低单词错误率，在意大利语中达到98.7％，英语达到96.7％。关键功能包括在多演讲者录音中区分扬声器的能力，详细的时间戳以及对非语音事件的检测。

对于企业用户，Scribe用作可扩展的转录工具，对依靠文档，满足转录和可访问性计划的部门有益。即将推出的实时版本可以进一步增强其在实时通信方案中的实用性。

Scribe的推出与Hume AI的Octave的发行相吻合，Hume AI的八度音阶是一种可自定义的，由LLM驱动的文本到语音模型，该模型是为内容创建而定的。 Elevenlabs声称抄写员在转录精度方面始终超过竞争对手。

可以直接通过ElevenLabs网站或API访问Scribe，从而使用户可以上传音频或视频文件以获取格式的成绩单。它的结构化产出有助于将整合到各种应用程序中，为寻求高准确性转录服务的企业提供了竞争选择。

特色图片来源：Elevenlabs

Tags: Elevenlabs 隶

Elevenlabs的新语音到文本模型声称97％的准确性

Related Posts

满足Windows 11的新开始菜单

三星将NFC变成货币发件人

观看新的GTA 6预告片

Spotify现在显示播客播放计数

Suno 4.5更新是促使工程师耳朵的音乐

Google泄漏新的Android设计语言材料3表达

Recent Posts

Recent Comments

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

Elevenlabs的新语音到文本模型声称97％的准确性

Elevenlabs推出抄写员：新的AI语音到文本模型

Related Posts

满足Windows 11的新开始菜单

三星将NFC变成货币发件人

观看新的GTA 6预告片

Spotify现在显示播客播放计数

Suno 4.5更新是促使工程师耳朵的音乐

Google泄漏新的Android设计语言材料3表达

Recent Posts

Recent Comments

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

Follow Us