谷歌将Chirp 3语音模型添加到其Vertex AI平台

大部分生成式人工智能的关注点一直集中在用于生成文本、图像等的基于文本的界面上。下一个浪潮似乎将是语音,而且进展迅速。在最新的发展中,谷歌今天宣布将在下周开始将其语音识别和高清文本转语音模型Chirp 3添加到其Vertex AI开发平台中。

上周,谷歌悄然宣布Chirp 3将推出8种新声音,支持31种语言。该平台的用例包括构建语音助手、创建有声读物、开发支持代理人和视频配音。此消息是在伦敦谷歌DeepMind办公室的一个活动上宣布的。

谷歌的努力正值其他公司也在加速推进他们的语音人工智能工作的时候。上周,Sesame,即在社交网络上引起轰动的非常逼真的“Maya”和“Miles” AI应用背后的初创公司,宣布推出了用于开发人员在其技术之上构建自定义应用和服务的模型。

值得注意的是,围绕Chirp 3将有使用限制,以防止滥用。Google Cloud首席执行官Thomas Kurian在今天的新闻活动中表示:“我们正在与我们的安全团队一起解决一些问题。”

ElevenLabs是一家主要初创公司,已经筹集了数亿美元的资金来扩大其在AI语音服务领域的工作。

这一消息将使Chirp 3与其旗舰LLM、Gemini的新版本以及其图像生成模型Imagen和昂贵的Veo 2视频生成工具处于同一稳定状态。

目前尚待确认谷歌发布的Chirp 3是否与其他AI努力创建“人类”语音(特别是Sesame的工作)一样“逼真”。但正如DeepMind首席执行官Demis Hassabis所强调的,这仍然是一场马拉松,而不是短跑。

“在短期内……这种[Ai是]未来几年内应对一切的灵丹妙药的想法,我认为那还没有发生。我认为离AGI发生还有一段时间。”他说。“这将改变未来……在接下来的十年里,因此中长期。这是一个有趣的时刻。”

谷歌于2021年推出了Vertex AI作为开发人员在云中构建机器学习服务的平台。当然,这是在人们对人工智能,特别是生成式人工智能,表现出浓厚兴趣并随着OpenAI的GPT服务的推出而爆炸之前。

此后,该公司一直在积极推动Vertex AI,部分原因是它在赶上微软和亚马逊等其他公司的过程中,这些公司也正在为开发人员构建生成式AI工具。除了在Gemini之上构建生成式AI外,开发人员还可以使用Vertex AI对数据进行分类、训练模型并设置模型投入生产。值得关注的是,它是否会扩大其围墙花园以容纳谷歌本身以外的模型。

谷歌多年来一直在构建“Chirp”语音服务,早在将名称用作与亚马逊的Alexa服务竞争的早期努力的代号时就已经开始。