主页 tech 即使是一些最优秀的人工智能也无法击败这个新基准

即使是一些最优秀的人工智能也无法击败这个新基准

By

蓝色新闻

-

Saturday, April 19 2025

非营利组织AI安全中心（CAIS）和提供多项数据标注和人工智能开发服务的公司Scale AI发布了一个具有挑战性的新基准，用于评估前沿人工智能系统。

这个基准名为“人类最后的考试”，包含数千个众包问题，涉及数学、人文学科和自然科学等领域。为了让评估更加困难，这些问题以多种格式出现，包括包含图表和图片的格式。

在一项初步研究中，没有一个公开可用的顶级人工智能系统能够在“人类最后的考试”中取得超过10%的分数。

CAIS和Scale AI表示他们计划将这个基准开放给研究界，以便研究人员可以“深入探讨变化”，评估新的人工智能模型。