瑞联的纸张AI处理科学数据的枯燥工作

AI模型已被证明能够做很多事情,但我们真正希望它们做什么呢?最好是枯燥的工作 - 在研究和学术界有很多这样的工作。瑞联希望专注于那些耗时的数据提取工作,这些工作目前是疲惫的研究生和实习生的专长。

“你可以用AI做的最好的事情是改善人类体验:减少苦力劳动,让人们做对他们来说重要的事情,”首席执行官卡尔·莫里茨说。在研究领域,他和联合创始人马克·贝勒美尔和理查德·施莱格尔工作多年,文献综述是这种“苦力劳动”的最常见例子之一。

每一篇论文都引用了之前和相关的工作,但在海量的科学数据中找到这些来源并不容易。有些像系统性综述这样的研究,引用或使用了成千上万条数据。

莫里茨回忆道,有一项研究,“作者不得不查看3500篇科学出版物,其中很多最终都不相关。花费大量时间提取少量有用信息 - 这确实感觉应该交给AI来自动化。”

他们知道现代语言模型可以做到:一项实验让ChatGPT完成任务,发现其提取数据的错误率为11%。就像很多时候LLMs能做的事情一样,这很令人印象深刻,但并不是人们实际需要的。

“这还不够好,”莫里茨说。“对于这些知识任务,尽管它们可能是苦力劳动,但很重要的是你不要出错。”

瑞联的核心产品Tabular部分基于LLM(LLaMa 3.1),但还结合了其他专有技术,效果更好。在上述多千项研究的提取工作中,他们称其完全没有错误。

这意味着:你把一千份文件投入其中,说你想要其中的这个,那个和另一个数据,然后瑞联浏览这些文件,找到这些信息 - 无论是完美标记和结构化的,还是(更有可能的是)不是。然后它会把所有这些数据和你想要的任何分析放入一个漂亮的用户界面,这样你就可以深入研究单个案例。

“我们的用户需要能够一次性处理所有数据,我们正在开发功能,让他们可以编辑那里的数据,或者从数据跳转到文献;我们认为我们的作用是帮助用户找到要花费他们时间的地方,”莫里茨说。

这种定制和高效的AI应用 - 不像数字朋友那样引人注目,但几乎肯定更加可行 - 可以加速各种高度技术性领域的科学发展。投资者已经注意到这一点,为公司融资了1130万美元的种子轮融资;Tola Capital和Inovia Capital带头,天使投资人迈克·沃尔皮也参与其中。

像任何AI应用一样,瑞联的技术需要大量计算资源,这就是为什么公司购买自己的硬件而不是从大型供应商那里租赁的原因。自己拥有硬件既带来了风险,也有回报:你必须让这些昂贵的机器自给自足,但你有机会通过专用计算来打开问题空间。

“我们发现的一件事是,如果你有限的时间来回答问题,就很难给出一个好答案,”莫里茨解释道 - 例如,如果一个科学家要求系统对一百份论文执行一项新的提取或分析任务。这可以快速完成,或者完成得好,但两者不能都兼顾 - 除非他们预测用户可能会问什么,并提前找出答案,或类似的方法。

“问题是,很多人有相同的问题,所以我们可以在他们提问之前找到答案作为起点,”这家初创公司的首席科学官贝勒美尔说。“我们可以把100页文本提炼成其他东西,也许不完全是你想要的,但对我们来说更容易处理。”

想象一下:如果你要从一千部小说中提取信息,你会等到有人要求提取出角色的名字吗?还是你会提前做这项工作(连同地点、日期、关系等内容一起)因为很可能会需要这些数据?当然是后者 - 如果你有多余的计算资源的话。

这种预先提取还给模型时间来解决不同科学领域中不可避免的歧义和假设。当一个指标在制药领域和病理学或临床试验领域的含义不同,可能并不是相同的意思。不仅如此,语言模型在回答某些问题时往往会给出不同的输出。因此,瑞联的任务是把歧义转化为确定性 - “而这只有在你愿意投入特定科学或领域时才能做到,”莫里茨指出。

作为一家公司,瑞联首先关注建立技术能够自给自足,然后再尝试更有雄心的项目。“要取得有趣的进展,你必须有一个宏大的愿景,但你也需要从实际做起,”莫里茨说。“从初创公司生存的角度来看,我们专注于盈利公司,因为他们给了我们金钱来支付GPU。我们并不会亏本销售给客户。”

人们可能会期待这家公司感受到OpenAI和Anthropic等公司的压力,这些公司正投入资金处理更多结构化的任务,如数据库管理和编码,或者从实施合作伙伴那里获得技术支持,比如Cohere和Scale。但贝勒美尔对此持乐观态度:“我们正在基础上构建这个技术堆栈 - 技术堆栈中的任何改进对我们来说都是伟大的。LLM可能是其中的八大机器学习模型之一 - 其他模型完全是我们自己的,凭借自己的数据从零开始制作。”

将生物技术和研究行业转变为以AI驱动的行业显然只是开始阶段,可能还会在未来几年相当零乱。但瑞联似乎已经找到了一个坚实的起点。

“如果你想要95%的解决方案,偶尔向你的一个客户道歉,那很好,”莫里茨说。“我们致力于精确度和召回率真正重要的地方,错误确实很重要。坦率地说,这就够了,我们乐意把其余的留给别人。”