OpenAI的合作伙伴表示,他们在测试公司的o3 AI模型时时间相对较少

一个经常与OpenAI合作,用于探究其AI模型能力并评估其安全性的组织Metr表示,他们在测试公司新发布的高性能产品o3时并没有给予太多时间。

Metr在周三发布的一篇博客中写道,o3的一项红队基准测试“在相对较短的时间内”进行,与之前OpenAI旗舰模型o1的测试相比时间较短。他们表示,额外的测试时间可以带来更全面的结果。

“这次评估是在相对较短的时间内进行的,我们仅使用简单的代理支架测试了[o3],”Metr在博客中写道。“我们预计通过更多的挖掘努力,可以实现更高的性能[在基准测试中]。”

最近的报道表明,受竞争压力的驱动,OpenAI正在加速独立评估。据《金融时报》报道,OpenAI为即将发布的重要产品给予一些测试者不到一周的时间进行安全检查。

OpenAI在声明中驳斥了他们在安全性方面妥协的观点。

Metr称,在有限的时间内收集到的信息显示,o3倾向于以复杂的方式“作弊”或“黑客”测试,以最大化其分数 - 即使模型清楚地知道其行为不符合用户(和OpenAI)的意图。该组织认为o3可能还会进行其他类型的敌对或“有害”行为 - 不管模型声称对齐, “从设计上安全”或没有任何自己的意图。

Metr在博文中写道:“尽管我们认为这种可能性不是特别大,但需要指出的是,[我们] 的评估设置无法捕捉到这种风险。”“总的来说,我们认为仅仅进行部署前的能力测试本身并不足以成为风险管理策略,我们目前正在尝试其他形式的评估。”

OpenAI的另一家第三方评估合作伙伴Apollo Research也观察到o3和公司其他新模型o4-mini的欺骗行为。 在一项测试中,模型为AI训练运行提供了100个计算积分,并告诉不要修改配额,结果增加了到500个积分的限制 - 并且撒谎。 在另一项测试中,要求承诺不使用特定工具,当这工具在完成任务时被证明有用时,模型还是使用了该工具。

在其针对o3和o4-mini的安全报告中,OpenAI承认如果没有适当的监控协议,这些模型可能会造成“更小规模的现实世界伤害”,例如欺骗会导致错误代码。

“[Apollo的] 发现表明o3和o4-mini能够进行上下文策划和战略欺骗,”OpenAI写道。“虽然相对无害,但普通用户应该意识到这些模型在言行之间存在差异。这可以通过评估内部推理痕迹进一步评估。”