OpenAI发布新Agent,用于深度研究,实测成色如何?

文摘   2025-02-04 13:00   山西  

图片来源:OpenAI

OpenAI 正在宣布一个新的 AI  Agent,旨在帮助人们使用 ChatGPT 进行深入、复杂的研究,这是一款由公司开发的人工智能聊天平台。

恰如其分地,它被称为 Deep Research。

OpenAI 在一篇周日发布的博客文章中表示,这项新功能是为“在金融、科学、政策和工程等领域进行密集知识工作的人员设计的,他们需要全面、精确和可靠的研究。”该公司还补充说,这对任何进行“通常需要仔细研究的购买,如汽车、电器和家具”的人也可能有用。

基本上,ChatGPT Deep Research 旨在处理那些你不仅想要快速答案或摘要的情况,而是需要仔细考虑来自多个网站和其他来源的信息。

OpenAI 表示,今天将 Deep Research 提供给 ChatGPT Pro 用户,每月限制 100 个查询,接下来将支持 Plus 和 Team ,随后是 Enterprise。(OpenAI 表示,Plus 的推出大约在一个月后,付费用户的查询限制应该很快会“显著提高”。)这是一次特定地区的发布;OpenAI 没有分享针对英国、瑞士和欧盟的 ChatGPT 客户的发布时间表。

图片来源:OpenAI

要使用 ChatGPT Deep Research,您只需在创作工具中选择“ Deep Research”,然后输入查询,并可以选择附加文件或电子表格。(目前这是一个仅限网页的体验,移动和桌面应用程序的集成将在本月晚些时候推出。) Deep Research 可能需要 5 到 30 分钟来回答问题,搜索完成时您会收到通知。

目前,ChatGPT  Deep Research 的输出仅为文本。但 OpenAI 表示,它打算很快添加嵌入图像、数据可视化和其他“分析”输出。OpenAI 还补充说,路线图上还有连接“更专业的数据源”的能力,包括“基于订阅的”和内部资源。

大问题是,ChatGPT  Deep Research的准确性到底有多高?毕竟,人工智能并不完美。它容易出现幻觉和其他类型的错误,在“ Deep Research”场景中可能特别有害。这也许就是为什么 OpenAI 说每个 ChatGPT Deep Research 的输出将“完全记录,提供清晰的引用和[思考]的总结,使得信息易于参考和验证。”

图片来源:OpenAI

OpenAI 在 ChatGPT 中的 AI 驱动网页搜索功能 ChatGPT Search,时常 出现失误并给出错误答案。TechCrunch 的测试发现,ChatGPT Search 对某些查询产生的结果不如 Google Search 有用。

为了提高 Deep Research的准确性,OpenAI 正在使用 其最近宣布的 o3 “推理” AI 模型的一个特殊版本,该模型通过强化学习在“需要使用浏览器和 Python 工具的真实世界任务”上进行训练。强化学习本质上是通过试错“教会”模型实现特定目标。当模型接近目标时,它会获得虚拟“奖励”,理想情况下,这使得它在未来的任务中表现得更好。

OpenAI 表示,这个版本的 o3 是“针对网页浏览和数据分析进行优化的”,并补充说“它利用推理来搜索、解释和分析互联网上大量的文本、图像和 PDF,根据遇到的信息进行必要的调整。”该模型“还能够浏览用户上传的文件,”公司表示,并且“使用[Python]工具绘制和迭代图表,在其响应中嵌入生成的图表和来自网站的图像,并引用其来源中的特定句子或段落。”

图片来源:OpenAI

OpenAI 表示,他们使用人类的最后考试对 ChatGPT Deep Research 进行了测试,这是一项包含 3000 多个专家级问题的评估,涵盖多个学术领域。支持 Deep Research 的 o3 模型的准确率为 26.6%,这看起来像是一个不及格的成绩——但人类的最后考试被设计得比其他基准更为严格,以保持在模型进步的前沿。根据 OpenAI 的说法, Deep Research o3 模型的表现远超 Gemini Thinking(6.2%)、Grok-2(3.8%)和 OpenAI 自己的GPT-4o(3.3%)。

尽管如此,OpenAI 指出,ChatGPT 的 Deep Research 存在局限性,有时会犯错误和做出不正确的推断。该公司表示, Deep Research可能难以区分权威信息和谣言,并且经常无法传达其对某些事情的不确定性——它在报告和引用中也可能出现格式错误。

对于任何担心生成性人工智能对学生或任何试图在线寻找信息的人的影响,这种深入且引用充分的输出可能听起来比一个没有引用的看似简单的聊天机器人摘要更具吸引力。但我们将看看大多数用户是否会真正对输出进行分析和核对,或者他们是否只是将其视为一个更专业的文本进行复制粘贴。

如果这些听起来很熟悉,谷歌实际上在不到两个月前宣布了一个相似的 AI 功能,名称完全相同。

本文翻译自:TechCrunch,https://techcrunch.com/2025/02/02/openai-unveils-a-new-chatgpt-agent-for-deep-research/

编译:ChatGPT

活动推荐

往期推荐


知乎互动反作弊实践

数据智能体的构建与优化

滚烫Deepseek一夜刀掉英伟达4万亿,除夕开源多模态新模型:7B超越DALL-E 3和StableDiffusion

基于 Ray 的融合计算引擎在生命科学领域的应用

CNBC专访分析:DeepSeek是中国的ChatGPT时刻,他们不是在复制,而是在创新

AI Infra:计算通信overlap实战分享

《黑神话:悟空》制作人冯骥推荐DeepSeek!

有数 ChatBI:大模型驱动下的数据分析技术探索和实践

数据要素时代的数据治理

HybridFlow:基于 Ray 构建灵活且高效的 RLHF 编程框架

点个在看你最好看

SPRING HAS ARRIVED

DataFunTalk
专注于大数据、人工智能技术应用的分享与交流。致力于成就百万数据科学家。定期组织技术分享直播,并整理大数据、推荐/搜索算法、广告算法、NLP 自然语言处理算法、智能风控、自动驾驶、机器学习/深度学习等技术应用文章。
 最新文章