AI‘推理’模型的崛起导致基准测试成本上升

像OpenAI这样的AI实验室声称他们的所谓“推理”AI模型,可以逐步“思考”问题,比在物理等特定领域中的非推理对手更有能力。但虽然一般情况下是这样,推理模型的基准测试成本也更高,这使得独立验证这些声明变得困难。

根据第三方AI测试机构Artificial Analysis的数据,对OpenAI的o1推理模型进行七种热门AI基准测试套件(MMLU-Pro, GPQA Diamond, Humanity’s Last Exam, LiveCodeBench, SciCode, AIME 2024和MATH-500)的评估成本为2767.05美元。

在同样的测试中,对Anthropic最近的Claude 3.7 Sonnet进行“混合”推理模型的基准测试费用为1485.35美元,而对OpenAI的o3-mini-high测试的费用为344.59美元。

一些推理模型的基准测试成本比其他模型更便宜。例如,对OpenAI的o1-mini进行基准测试的成本为141.22美元。但平均而言,它们往往价格昂贵。总而言之,Artificial Analysis已经在评估约十几种推理模型上花费了大约5200美元,几乎是该公司分析了超过80种非推理模型(2400美元)的两倍。

OpenAI在2024年5月发布的非推理GPT-4o模型的评估仅花费了108.85美元,而Claude 3.6 Sonnet(Claude 3.7 Sonnet的非推理前身)的成本为81.41美元。

Artificial Analysis的联合创始人George Cameron告诉TechCrunch,组织计划增加其基准测试支出,因为越来越多的AI实验室在开发推理模型。

“在Artificial Analysis,我们每月进行数百次评估,并投入大量预算。”Cameron说。“我们计划随着更多的模型更频繁地发布,这一支出将增加。”

Artificial Analysis并不是唯一一家处理不断上升的AI基准测试成本的公司。

AI初创公司General Reasoning的CEO Ross Taylor说,他最近花费580美元对大约3700个独特提示进行Claude 3.7 Sonnet的评估。Taylor估计,对MMLU Pro进行一次试运行可能会超过1800美元。

“我们正在走向一个实验室在基准测试中报告x%的世界,他们花费y数量的计算资源,而学术资源<< y。”Taylor在X的一篇最新文章中说。“没有人能够复制结果。”

为什么推理模型的测试如此昂贵?主要是因为它们生成大量的标记。标记代表原始文本的位,例如,将单词“fantastic”拆分为“fan”,“tas”和“tic”。根据Artificial Analysis的说法,OpenAI的o1在该公司的基准测试中生成了超过4400万个标记,大约是GPT-4o生成量的8倍。

大多数AI公司按标记收费,因此您可以看到这种成本如何累积。

现代基准测试也倾向于从模型中提取大量标记,因为它们包含涉及复杂多步任务的问题,根据Epoch AI的高级研究员Jean-Stanislas Denain的说法。

“[今天的]基准测试更加复杂[尽管]每个基准测试的问题数量总体减少了,”Denain告诉TechCrunch。“它们通常试图评估模型执行真实世界任务的能力,例如编写和执行代码,浏览互联网,并使用计算机。”

Denain补充说,随着时间的推移,最昂贵的模型变得更加昂贵。例如,Anthropic的Claude 3 Opus在2024年发布时是最昂贵的模型,每百万个输出标记的成本为75美元。OpenAI的GPT-4.5和o1-pro,均于今年早些时倻发布,每百万个输出标记的成本分别为150美元和600美元。

“[由于模型随着时间的推移而变得更好,因此达到特定性能水平的成本显著降低,但是如果您想评估任何时间点上最好的最大模型,则仍会付出更多代价,”Denain说。“

许多AI实验室,包括OpenAI,在测试目的上为基准测试组织提供免费或经费补贴的模型使用权。但一些专家表示,这会影响结果-即使没有操纵的证据,AI实验室的参与提议仍可能危及评估评分的完整性。”

“从[科学角度来看,如果您发布一个没有人能够使用同一模型复制的结果,那么它是否还算科学?”Taylor在X的一篇后续文章中写道。“(以前是科学吗,哈哈)。”