OpenAI宣布推出了一个新的AI“代理”,专为帮助人们使用ChatGPT进行深入、复杂的研究,ChatGPT是该公司的基于人工智能的聊天机器人平台。
很恰当地,它被称为深度研究。
OpenAI在周日发布的博客文章中表示,这一新功能是为“在金融、科学、政策和工程等领域从事深入知识工作且需要全面、准确、可靠研究的人员设计的。”公司补充说,这也可能对那些需要进行“汽车、家用电器和家具等通常需要仔细研究的购买需求”有所帮助。
ChatGPT深度研究主要用于那些不仅仅需要快速答案或摘要,而是需要仔细考虑来自多个网站和其他信息源的信息的情况。
目前,OpenAI表示将深度研究提供给ChatGPT Pro用户,限制每月查询次数为100次,随后将支持Plus和Team用户,再接着是企业用户。公司表示,预计约一个月后就会推出Plus版本,付费用户的查询限制不久后将“显著提高”。这是一个地理定位的发布;OpenAI尚未公布针对英国、瑞士和欧洲经济区的ChatGPT客户的发布时间表。
要使用ChatGPT深度研究,您只需在composer中选择“深度研究”,然后输入查询,可以选择附加文件或电子表格。(目前只支持网络体验,移动和桌面应用程序集成将在本月晚些时候推出。)深度研究可能需要5到30分钟来回答问题,当搜索完成时,您将收到通知。
目前,ChatGPT深度研究的输出仅为文本。但OpenAI表示,打算很快添加嵌入图像、数据可视化和其他“分析”输出。公司还计划将“更多专业化的数据源”,包括“订阅”和内部资源,纳入路线图。
重点问题是,ChatGPT深度研究到底有多精确?毕竟,人工智能并不完美。它容易出现幻觉和其他类型的错误,这在“深度研究”场景下可能特别有害。这也许是为什么OpenAI表示,每个ChatGPT深度研究输出都将“完全记录,具有清晰的引用和思路摘要,使参考和验证信息变得容易。”
关于这些建筑能否足以应对人工智能错误,还有待观察。OpenAI在ChatGPT的AI Powered Web搜索功能ChatGPT搜索中,经常会出现错误并给出错误答案。TechCrunch的测试发现,在某些查询中,ChatGPT搜索的结果较Google搜索不太有用。
为了提高深度研究的准确性,OpenAI使用了其最近宣布的o3“推理”AI模型的特殊版本,该模型通过强化学习在“需要浏览器和Python工具的现实任务”上进行训练。强化学习基本上是通过试错来“教”模型实现特定目标。随着模型接近目标,它会获得虚拟的“奖励”,这些奖励理想情况下会使其在以后的任务中变得更好。
OpenAI表示,这个版本的OpenAI o3模型是“针对Web浏览和数据分析进行优化”,并补充说“它利用推理来搜索、解释和分析互联网上的大量文本、图像和PDF文档,根据需要对遇到的信息作出反应 […] 该模型还能够浏览用户上传的文件,在文本中绘制和迭代图表,嵌入生成的图表和网站中的图像,并引用其来源的特定句子或段落。
该公司表示,他们使用《人类最后一次考试》对ChatGPT深度研究进行了测试,该考试包括多个学科领域的3000多个专家级问题。支持深度研究的o3模型的准确率达到26.6%,这看起来可能是不及格的成绩 - 但《人类最后一次考试》旨在比其他基准更困难,以保持领先的模型进展。据OpenAI称,深度研究o3模型比Gemini Thinking(6.2%)、Grok-2(3.8%)和OpenAI自己的GPT-4o(3.3%)要好得多。
尽管如此,OpenAI指出,ChatGPT深度研究具有局限性,有时可能会出错和做出不正确的推断。公司表示,深度研究可能难以区分权威信息和谣言,且在对某事感到不确定时经常会出错 - 同时在报告和引用中也可能存在格式错误。
对于任何担心生成式人工智能对学生或任何试图在线查找信息的人造成的影响的人来说,这种深入、有引用的输出可能比没有引用的看似简单的聊天机器人摘要更具吸引力。但我们要看看大多数用户是否真的会对输出进行真正的分析和重复检查,还是只是将其视为更专业的文本进行复制粘贴。
如果这一切听起来很熟悉,其实谷歌在不到两个月前也宣布了一个同名的类似AI功能。