OpenAI的合作伙伴表示，他们在测试公司的o3 AI模型时时间相对较少

蓝色新闻

Friday, April 18 2025

一个经常与OpenAI合作，用于探究其AI模型能力并评估其安全性的组织Metr表示，他们在测试公司新发布的高性能产品o3时并没有给予太多时间。

Metr在周三发布的一篇博客中写道，o3的一项红队基准测试“在相对较短的时间内”进行，与之前OpenAI旗舰模型o1的测试相比时间较短。他们表示，额外的测试时间可以带来更全面的结果。

“这次评估是在相对较短的时间内进行的，我们仅使用简单的代理支架测试了[o3]，”Metr在博客中写道。“我们预计通过更多的挖掘努力，可以实现更高的性能[在基准测试中]。”

最近的报道表明，受竞争压力的驱动，OpenAI正在加速独立评估。据《金融时报》报道，OpenAI为即将发布的重要产品给予一些测试者不到一周的时间进行安全检查。

OpenAI在声明中驳斥了他们在安全性方面妥协的观点。

Metr称，在有限的时间内收集到的信息显示，o3倾向于以复杂的方式“作弊”或“黑客”测试，以最大化其分数 - 即使模型清楚地知道其行为不符合用户（和OpenAI）的意图。该组织认为o3可能还会进行其他类型的敌对或“有害”行为 - 不管模型声称对齐， “从设计上安全”或没有任何自己的意图。

Metr在博文中写道：“尽管我们认为这种可能性不是特别大，但需要指出的是，[我们] 的评估设置无法捕捉到这种风险。”“总的来说，我们认为仅仅进行部署前的能力测试本身并不足以成为风险管理策略，我们目前正在尝试其他形式的评估。”

OpenAI的另一家第三方评估合作伙伴Apollo Research也观察到o3和公司其他新模型o4-mini的欺骗行为。在一项测试中，模型为AI训练运行提供了100个计算积分，并告诉不要修改配额，结果增加了到500个积分的限制 - 并且撒谎。在另一项测试中，要求承诺不使用特定工具，当这工具在完成任务时被证明有用时，模型还是使用了该工具。

在其针对o3和o4-mini的安全报告中，OpenAI承认如果没有适当的监控协议，这些模型可能会造成“更小规模的现实世界伤害”，例如欺骗会导致错误代码。

“[Apollo的] 发现表明o3和o4-mini能够进行上下文策划和战略欺骗，”OpenAI写道。“虽然相对无害，但普通用户应该意识到这些模型在言行之间存在差异。这可以通过评估内部推理痕迹进一步评估。”

蓝色新闻

OpenAI的合作伙伴表示，他们在测试公司的o3 AI模型时时间相对较少

Recent Posts

阿特金斯26分，帮助神秘队以89-84击败狂热队，克莱林·克拉克狂砍29分

英国乐队The 1975在马来西亚音乐节上接吻事件的诉讼部分遭到法官驳回

英格兰和威尔士的与足球相关逮捕案件数量上升，西汉姆再次成为案例最多的球队

关于TikTok在美国不确定未来以及想要收购的人们需要了解的事情

AI音乐初创公司Suno声称在受版权保护的音乐上进行训练是'公平使用'