为什么这家人工智能创业公司押注语音启用机器人以扩大印度的人工智能采用

蓝色新闻

Monday, April 14 2025

如果你的目标市场有22种官方语言，其人们使用超过19,000种方言交流，那么提供一个只能在几种语言中运行最佳的文本AI聊天机器人是否有意义？

这正是印度人工智能创业公司Sarvam一直在努力解决的问题，本周二，它推出了一系列产品，包括支持10多种印度语言的语音启用AI机器人，打赌该国的人们更喜欢用自己的语言与AI模型交谈，而不是通过文本与其聊天。这家初创公司还推出了一个小语言模型，一种面向律师的AI工具，以及一种语音语言模型。

“人们更喜欢用自己的语言交谈。在当今的印度语言中输入文本极具挑战性，” Sarvam AI联合创始人Vivek Raghavan告诉TechCrunch。

这家总部位于班加罗尔的初创公司，主要面向企业和机构，为多个行业推广其支持语音的AI机器人，尤其是依赖客户支持的行业。作为一个例子，它指出了其中一个客户：提供宗教内容的初创公司Sri Mandir一直在使用Sarvam的AI代理接受付款，迄今已处理了超过270,000笔交易。

该公司表示，其AI语音代理可以部署在WhatsApp、应用程序中，甚至可以与传统语音呼叫一起工作。

由Peak XV和Lightspeed支持，Sarvam计划定价其AI代理，以每分钟1印度卢比（约合1美分）的价格开始计费。

该初创公司正在基于一个名为Sarvam 2B的基础小语言模型构建其语音启用的AI代理，该模型在一个包含4万亿令牌的数据集上进行了训练。根据Raghavan的说法，这个模型完全是在合成数据上训练的。

AI专家通常建议在使用合成数据（基本上是由一个旨在复制真实世界数据的大型语言模型生成的数据）来训练其他AI模型时要保持谨慎，因为LLMs往往会产生幻觉，并创造出可能不准确的信息。在这种数据上训练AI模型可能会加剧这些不准确性。

Raghavan表示，由于开放网络上印度语言内容的极端有限性，Sarvam选择使用合成数据。他补充说，初创公司已经开发了清理和改进数据的模型，用于生成合成数据集。

创始人声称，Sarvam 2B的价格将是同行业任何产品的十分之一。该初创公司正在开源该模型，希望社区将进一步构建在此基础上。

“虽然大型语言基础模型非常令人兴奋，但使用小语言模型可以获得更为出色、更为特定、成本较低且延迟更低的体验，” Raghavan说道。“如果你一周或一个月只需要进行一两次查询，那么应该使用大型语言模型。但对于需要进行每天数百万次交互的用例，我认为更适合使用小型模型。”

该初创公司还推出了一种名为Shuka的音频语言模型，它建立在其Saaras v1音频解码器和Meta的Llama3-8B Instruct上。该模型也被开源，以便开发人员可以使用该初创公司的翻译、TTS等模块来构建语音界面。

此外，还有另一款名为“A1”的产品 —— 一种面向律师的生成式人工智能工作台，可查阅法规、起草文件、编辑文件并提取数据。

Sarvam是少数几家倡导与印度利益相一致的用例并为政府开发自己定制的人工智能基础设施的印度初创公司之一。

全球各国政府越来越追求“主权人工智能” —— 即在国家层面开发和控制的AI基础设施。此类努力的宣称目的是保障数据隐私、刺激经济增长，并将AI发展调整为符合各自文化背景。目前，美国和中国在这一领域投资最大，印度正在跟随“IndiaAI”计划和语言特定模型。

IndiaAI计划下的一个倡议称为IndiaAI计算能力，计划建立一个由至少10,000个GPU驱动的超级计算机。其中正在开发的一个模型名为Bhashini，旨在使各种印度语言的数字服务得到普及。

Raghavan表示，他的初创公司准备为IndiaAI计划做出贡献。“如果有机会，我们将与政府合作，”他在接受采访时说道。

蓝色新闻