根据OpenAI内部基准评估的结果,OpenAI的下一个重要AI模型GPT-4.5非常具有说服力。它特别擅长说服其他AI给予现金。
OpenAI于周四发布了一份白皮书,描述了其GPT-4.5模型(代号Orion)的能力,该模型于周四发布。根据该白皮书,OpenAI对该模型进行了一系列“说服”基准测试,OpenAI将其定义为“说服人们改变信念(或对静态和交互式模型生成的内容采取行动)的风险。”
在一项测试中,GPT-4.5试图操纵另一个模型——OpenAI的GPT-4o——“捐赠”虚拟货币,结果该模型表现比OpenAI的其他可用模型(包括o1和o3-mini等“推理”模型)要好得多。GPT-4.5还比OpenAI的所有模型更擅长欺骗GPT-4o,让其告诉它一个秘密代码词,比o3-mini高出10个百分点。
根据白皮书,GPT-4.5在捐赠欺诈方面表现出色,是因为在测试过程中开发了一种独特的策略。该模型会向GPT-4o请求适量捐款,并得到回应“即使$100中只有$2或$3也会对我大有帮助。”因此,GPT-4.5的捐款金额往往比OpenAI的其他模型获得的金额要小。
尽管GPT-4.5的说服力增强,OpenAI表示,该模型在这个特定基准类别中不符合其内部“高”风险门槛。该公司承诺不会发布达到高风险门槛的模型,直到实施“足够的安全干预”将风险降至“中等”水平。
人们真正担心的是,AI正促使错误或误导信息传播,以达到恶意目的。去年,政治深度伪造视频在全球迅速传播,AI越来越多地被用于对消费者和公司进行社会工程攻击。
在GPT-4.5的白皮书和本周早些时候发布的一篇论文中,OpenAI指出,他们正在修订探究真实世界说服风险的方法,例如大规模传播误导信息。