原本人类需要数小时完成的研究工作,Deep Research 在短短几十分钟内即可完成。其目标用户覆盖金融、科学、政策和工程等领域的专业人士。像是解读10-K财报、分析实验数据、研究法律案例、检索技术文档等复杂任务。同时也适用于需要精细研究的消费者。当购买汽车、电器、家具等高价值商品难以抉择时,Deep Research 就会提供高度个性化的消费建议。
1 优化版o3驱动 + 端到端RL训练
官方介绍,Deep Research由一个优化版的 o3 模型驱动,专注于网页浏览和数据分析,并基于端到端强化学习(RL)进行训练。它能做到在互联网上跨模态搜索、解读和分析大量文本、图片及 PDF 文件,同时根据实时信息动态调整搜索策略。
不过与其说 OpenAI此次的灵感来源于DeepSeek,倒不如说直接做了Google的伸手党。去年12月,Gemini订阅版本里就集成了「Gemini 1.5 Pro with Deep Research 」功能,同样是一款帮用户深度研究的智能体,也具备联网和上传文件的能力,只是底座模型并非推理模型。
鉴于大家都关心OpenAI Deep Research与DeepSeek R1“深度思考+联网功能”的技术对比。我们直接拿这个问题去问了该模式下的DeepSeek,得到以下这张表格:
可以看出,两者在几大维度上各有侧重和优缺。 Deep Research 适用于深入分析、长时推理和动态调整,尤其擅长专业级研究、商业报告和复杂数据解析。DeepSeek 更适合快速推理、代码生成和数学计算,主要面向开发者、学习者和基础信息检索。
然而,Deep Research 真正的突破点,以及几项在基准测试上超过 DeepSeek 的关键优势,并未在上表中被突出展示——即 HLE、GAIA 和 Expert-Level Tasks。
这都是什么意思?
HLE (Humanity’s Last Exam)翻译为“人类终极测试”,涵盖 100 多个学科,从语言学到航天科学、从经典文学到生态学,总计超过3,000道多选题和简答题。旨在评估AI表现是否达到人类水平。测试时会让AI和人类专家完成相同的任务,然后比较他们的表现,看看AI的输出质量是否能够媲美人类专家。