ElevenLabs推出自己的语音转文字模型

ElevenLabs是一家刚刚完成1.8亿美元的超大规模融资的人工智能初创公司,主要以其音频生成技术而闻名。该公司通过推出名为Scribe的第一个独立语音转文字模型,迈出了另一项技术方向的一步。

这家估值33亿美元的初创公司已经通过其庞大的语音库为许多其他公司提供语音转文字服务。然而,该公司现在希望进入语音检测领域,与Gladia、Speechmatics、AssemblyAI、Deepgram和OpenAI的Whisper模型竞争。

ElevenLabs的Scribe模型在推出时支持超过99种语言。该公司为该模型对超过25种语言进行了分为卓越准确率类别,其中字错率低于5%。此列表包括英语(声称的准确率为97%)、法语、德语、印地语、印尼语、日语、坎纳达语、马拉雅拉姆语、波兰语、葡萄牙语、西班牙语和越南语。其他语言分为不同的类别,具有高(5%至10%字错率)、良好(10%至20%字错率)和适中(25%至50%)的字错率。

该公司表示,在FLEURS和Common Voice基准测试中,该模型在多种语言上击败了Google Gemini 2.0 Flash和Whisper Large V3。

图片来源:ElevenLabs

ElevenLabs为其人工智能对话代理平台开发了语音转文字组件,该平台去年发布。然而,这是该公司首次发布独立的语音检测模型。在上个月与TechCrunch的交谈中,CEO Mati Staniszewski谈到了改进语音检测模型。

“我们希望更好地理解你在对话中说的话。我们正在努力摆脱仅生成内容和理解并转录语音的方式,”Staniszewski当时说道。“许多人表示语音转文字问题已经解决。但对于许多语言来说,情况还相当糟糕。我们认为我们可以构建更好的语音检测模型,因为我们有内部团队可以进行数据标注并为我们提供快速反馈。”

该模型还具有智能扬声器日程安排功能,可以告诉您谁在说话,字级时间戳以获得准确的字幕,并自动标记一些声音事件,比如听众笑声。该初创公司正在为客户提供一种直接转录视频内容以添加字幕或说明文字的途径。

Scribe目前仅适用于预先录制的音频格式。该公司表示将很快发布模型的低延迟实时版本。这意味着它还不能有效地实现会议记录或语音记事功能。

ElevenLabs将Scribe的价格定为每小时0.40美元的转录音频。虽然费率具有竞争力,但目前一些竞争对手提供更低价格的音频转录,并带有一些特色区分。