即使是一些最优秀的人工智能也无法击败这个新基准

非营利组织AI安全中心(CAIS)和提供多项数据标注和人工智能开发服务的公司Scale AI发布了一个具有挑战性的新基准,用于评估前沿人工智能系统。

这个基准名为“人类最后的考试”,包含数千个众包问题,涉及数学、人文学科和自然科学等领域。为了让评估更加困难,这些问题以多种格式出现,包括包含图表和图片的格式。

在一项初步研究中,没有一个公开可用的顶级人工智能系统能够在“人类最后的考试”中取得超过10%的分数。

CAIS和Scale AI表示他们计划将这个基准开放给研究界,以便研究人员可以“深入探讨变化”,评估新的人工智能模型。