跳转至

Characterizing Deep Research: A Benchmark and Formal Definition

会议: ICLR2026
OpenReview: 5EmpOCq1Ql
代码: https://github.com/microsoft/LiveDRBench
领域: LLM 评测 / Deep Research / Agent benchmark
关键词: 深度研究, 形式化定义, claim 评测, 问题反演, 信息合成

一句话总结

这篇论文给"深度研究(Deep Research, DR)"这个被各家模型抢着用、却从没被严格定义过的任务下了一个形式化定义——核心不是"输出长报告"而是"搜索过程中对概念的高扇出(high fan-out)",并据此构造了 100 道开放网络任务的 benchmark LIVEDRBENCH,用基于 claim 的精确率/召回率做客观打分,发现当前最强的 OpenAI DR 也只有 0.55 的平均 F1,系统普遍只覆盖了约一半的必要搜索查询。

研究背景与动机

领域现状:2024 年底到 2025 年,Google、OpenAI、Perplexity、Grok 等纷纷推出"深度研究"产品,宣称能替人类专家完成需要数小时的调研、写报告、回答大海捞针式的问题。开源界也跟进了 HuggingFace DR、WebThinker、DeerFlow 等一批 agentic 实现。

现有痛点:尽管热度很高,"深度研究"到底是什么任务从来没人说清楚。人们模糊地把它理解成"写报告且耗时较长的任务",并默认它比多跳问答(multi-hop QA)难得多,但这种理解既不精确也不可度量。更麻烦的是,任务的难度还取决于检索语料:像"列出所有由女性作家著作改编的奥斯卡获奖电影"看似是硬核调研任务,但只要网上恰好有一个网页直接列出了答案,它就退化成一次普通检索。缺少形式化定义,导致根本无法客观评估 DR 模型、衡量进展。

核心矛盾:现有 DR 评测要么主观(用 LLM 当裁判给报告的"全面性/洞察力/可读性"打分,如 DeepResearch Bench),要么数据不公开(FutureSearch 的 Deep Research Bench),要么用静态语料、无法直接对比闭源和开源系统。而"报告质量"这个评测对象本身就混进了文风、措辞等与推理能力无关的因素。

本文目标:(1) 给 DR 任务一个能把它和其他推理密集型任务区分开的形式化定义;(2) 构造一个能客观、可复现、可持续更新、且覆盖广泛领域的 benchmark。

切入角度:作者主张 DR 真正的难点不在"生成长报告"这一步,而在前置的信息合成——从语料里把一堆相关信息单元找出来、处理好、组合起来。于是把 DR 输出抽象成一个由 claim 构成的中间表示,把"推理挑战"从"表层报告生成"里剥离出来单独评测。

核心 idea:用"搜索强度(search intensity)× 推理强度(reasoning intensity)"两个维度来定义 DR,并用一个嵌套的 claim 列表作为可客观打分的中间输出表示。

方法详解

整体框架

论文做的是"定义 + benchmark"两件事,没有训练任何模型。整体逻辑是:先把 DR 任务形式化为一个二维空间里的极端点(同时高搜索、高推理),把它的输出抽象成 DAG 上合成出来的一组 claim;再设计一套基于 claim 的精确率/召回率指标,让"对不对"可以被客观打分;然后用"问题反演(problem inversion)"技术把现成的长文档推理题倒过来批量造出 DR 题目,构成 LIVEDRBENCH 的 100 道题、8 个类别;最后拿这套 benchmark 去测 OpenAI/Perplexity/Gemini 的 DR 产品和若干带搜索的 LLM 基线,并通过分析推理轨迹(reasoning trace)量化它们的搜索覆盖度与深度。

整篇是一个 benchmark/定义型工作,没有可画成 pipeline 的多模块算法,因此不强加框架图;下面把四个核心设计点讲清。

关键设计

1. DR 的形式化定义:搜索强度 × 推理强度,而非"输出长度"

作者直接反对"DR = 写长报告"这种通俗理解,把 DR 重新刻画为多跳 RAG 的极端版本。给定语料 \(C\) 和查询 \(q\),定义里有两个必要条件:(a) 搜索强度——回答它需要处理的"信息单元(information unit)"数量很大;(b) 推理强度——在"找到这些信息单元 / 处理它们 / 组合它们"这三个子任务里,至少有一个需要人类专家的非平凡推理。这里特意先定义了"信息单元":它是一段落级别的原子信息(检索系统里通常实现为一个 chunk),所以一篇大文档可以包含多个信息单元——这样像"从一份 200 页财报的多个章节取数"也能算多跳。论文给出可操作的经验阈值:人类专家用网络搜索等工具求解 > 10 分钟即算推理密集;搜索强度约为 20 个信息单元(通过 ≥ 10 次查询)。

这个定义的价值在于它能把一堆容易混淆的任务摆到正确位置(论文的 Figure 1a):HotpotQA 这类多跳 QA 搜索和推理都低;CURIE、CUAD 这类科学/法律 QA 推理高但搜索少;ELI5 这类解释任务有推理但检索集中在单一概念;只有 GAIA、Humanity's Last Exam 以及本文关注的"写政策建议/学术综述/分析报告"这类信息合成任务才同时落在高搜索、高推理的角落。一个反例很说明问题:"这篇论文用的材料的属性是什么"(低搜索)和"NeurIPS 2024 接收论文列表"(低推理)都不算 DR。

2. 基于 claim 的中间表示与精确率/召回率:把客观评测从主观报告里剥出来

为了客观打分,作者把 DR 的解形式化为一个 ⟨query, list of claims⟩ 的嵌套结构:理想解要把所有 claim 及其(递归的)subclaim 都答对。每个顶层 claim 是一个字典,subclaim 是它的键。评测时,给每个 claim \(A_i\) 一个与 ground-truth 的一致性分数 \(s(A_i)\)(通常是 \(\{0,1\}\) 的二值分,本文用 GPT-4o 来判定),然后精确率/召回率定义为:

\[\text{Prec}(A) = \frac{\sum_{A_i} w_i\, s(A_i)\, \text{Prec}(A_i)}{\sum_{A_i} 1}, \qquad \text{Rec}(A) = \frac{\sum_{A_i} w_i\, s(A_i)\, \text{Rec}(A_i)}{\sum_{A_i^*} 1}\]

其中 \(\text{Prec}(A_i)\)\(\text{Rec}(A_i)\) 是该 claim 下所有 subclaim 一致性分数的平均(当 claim 是原子的、没有 subclaim 时取 1),\(w_i\) 是可选的 claim 权重。关键的设计取舍是:一个 claim 的得分要乘上它 subclaim 的精确率/召回率——也就是说 subclaim 错了会把整个 claim 的信用拉低甚至归零(论文还给了一个 subclaim 一错就判零的严格版本)。这背后有两个动机:用户本来就会用 subclaim 去核验 claim 的可信度;而且这样能奖励"真的去搜语料找到答案"的系统,惩罚"靠记忆背出来"的系统。这套指标把不同形态的 DR 任务(列实体、找数据集、找材料)统一到了同一个可比的尺度上。

3. 问题反演(problem inversion):把长文档推理题倒过来,可扩展地造 DR 题

要在"模型能访问整个 Web"的前提下造题非常棘手——网上随时可能冒出一篇正好回答某题的文章,把 DR 任务塌缩成单次检索。作者列了 5 条 desiderata(不能被单一网页回答、需要广泛多源、客观可复现、可周期性更新、覆盖多领域多用户),并借鉴 OpenAI BrowseComp 的思路——造"答案难找但易核验"的题——把它模板化成三步反演流程:① 找一篇信息密集的长文档(长上下文推理题尤其合适,因为它本身就自带可用来定位实体的问题);② 抽出文档里描述的、带独特特征的实体或概念类;③ 反过来出一道题,要求在不知道原文档的情况下,找到具备这些特征的实体并定位佐证来源。

举例来说,标准的长上下文推理题是"给定一篇关于某实验的论文和一组键,按文档填出每个键的值";反演后变成"给定符合某个唯一实体的键值对,识别出这个实体并定位佐证它的来源"。由于科学论文、公开报告、榜单都在持续更新,这套模板天然支持 benchmark 的持续刷新(防污染);而且它允许造出答案包含多个实体/多条 claim 的题。作者会人工核验每道题是否有唯一答案,若不唯一就补充扩展 ground-truth。

4. LIVEDRBENCH 的任务构成:100 题、8 类,覆盖科学、创新与世界事件

最终 benchmark 含 100 道题、8 个类别,刻意覆盖科学家、信息工作者和普通网民三类用户、并让搜索/推理需求有梯度:SCIFACTS(31 题,源自 CURIE)分 Materials(17 题,按测量属性找材料,claim 是材料名、subclaim 是来源论文标题)和 Geo(19 题,找用了给定地理数据集的论文);NOVELDS(20 题,基于数据集论文)分 Identification(按特征找数据集,subclaim 含年份/会议/链接)、Identification and Extraction(还要从论文里抽具体结果,如读图)、Peer Retrieval(找同问题空间的同类数据集论文);PRIORART(17 题,把 ICLR2025/ICML2025 里 2-3 篇论文的想法手工拼成一段新摘要,要求识别其中的关键想法和源论文,模拟专利/创新查新);FLIGHTS(7 题,基于官方航空事故报告反演,给一段高层描述去定位具体航班事故);ENTITIES(20 题,围绕全球文化/事件——如奥斯卡——要求给出满足一组细则的实体穷举列表)。每一类都能用新论文、新事件持续扩充。

损失函数 / 训练策略

本文不训练模型,无损失函数。评测协议要点:claim 一致性分数由 GPT-4o 判定,最终精确率/召回率/F1 按上面的公式(Equation 1)计算;推理轨迹分析(覆盖度、依赖度、分支/回溯)也用 GPT-4o 完成。

实验关键数据

主实验

作者测了三家闭源 DR 产品(OpenAI DR、Perplexity DR、Gemini DR with 2.5 Pro)、一个开源 DR agent(DeepResearcher + DS-Qwen-32B),外加 3 个推理基线和 3 个非推理基线(均开了网络搜索)。所有 DR 模型在 8 类上的 F1 区间为 0.0–0.72,OpenAI DR 平均最强。

子类 OpenAI DR (F1) Perplexity DR (F1) Gemini DR (F1) DeepResearcher (F1)
SCIFACTS Materials 0.314 0.150 0.022 0.000
SCIFACTS Geo 0.721 0.186 0.316 0.000
NOVELDS Identification 0.667 0.633 0.400 0.167
NOVELDS Id.&Extraction 0.470 0.333 0.345 0.023
NOVELDS Peer Retrieval 0.585 0.311 0.338 0.042
PRIORART 0.539 0.419 0.082 0.199
ENTITIES 0.603 0.447 0.338 0.076
FLIGHTS 0.540 0.276 0.090 0.090
平均 0.555 0.355 0.263 0.075

开源 DeepResearcher 除了 PRIORART(0.199,反超 Gemini DR)外几乎全面落后,凸显了闭源与开源 DR 系统之间的巨大差距。

消融 / 对比实验

在最难的 NOVELDS Identification and Extraction 子类上,把 DR 模型和带搜索的普通 LLM 基线放一起对比,普通模型(即便是推理增强的)表现都很差,说明 benchmark 确实难、且"DR 系统"相对"搜索 + 推理的 LLM"有实质增量:

模型 Precision Recall F1
OpenAI DR 0.526 0.448 0.470
Perplexity DR 0.325 0.349 0.333
Gemini DR 0.406 0.329 0.345
OpenAI o4-mini(推理基线) 0.203 0.146 0.168
Gemini 2.5 Pro(推理基线) 0.186 0.130 0.142
Gemini 2.5 Flash(非推理) 0.211 0.097 0.111
OpenAI GPT-4.1(非推理) 0.126 0.078 0.088
DeepResearcher + DS-Qwen-32B 0.045 0.015 0.023
Sonar Reasoning 0.015 0.003 0.005

关键发现

  • 覆盖度只有约一半:作者用 GPT-4o 分析推理轨迹,先生成回答问题所必需的"特征查询 + 抽取查询",再看 DR 模型轨迹里覆盖了多少。OpenAI DR 必要查询覆盖率 66.0%,Perplexity 52.0%、DeepResearcher 53.4%、Gemini 46.8%——即便最强系统也只搜到约三分之二的必要查询,普遍只覆盖约一半,改进空间巨大。
  • 闭源走得更宽更深:闭源模型平均发 24–64 条查询、其中 15–39 条是依赖前序结果的"dependent query"(深度的代理指标),而 DeepResearcher 只发 5–6 条、dependent 仅 5 条。OpenAI DR 的分支数(branching)也最高,呼应它最高的覆盖率,说明广度是 DR 答案准确性的关键;回溯(backtracking)上各家差异不显著。
  • claim 和 subclaim 都对才算对,是最难的地方:模型在 SCIFACTS Materials、NOVELDS Id.&Extraction、FLIGHTS 上最差,因为要跨论文/报告的多个章节同时抽出主 claim 和 subclaim。以 SCIFACTS Materials 为例,OpenAI DR 单看论文标题 F1 有 0.735、单看材料名 0.504,但要求两者都对时整体只剩 0.314——精确抽取的难度被这套 subclaim 评测如实暴露了。

亮点与洞察

  • 把"DR 是什么"从口号变成可度量的二维定义:用搜索强度 × 推理强度刻画 DR,并给出 ">10 分钟、≥20 信息单元、≥10 次查询"的经验阈值,第一次让"这道题到底算不算 DR"有了可操作判据;"难度依赖语料"这个常被忽视的点(一个网页就可能让 DR 塌缩成检索)也被明确指出。
  • claim 评测把推理能力从文风里剥离:报告评测天然主观,作者用嵌套 claim + "subclaim 错则 claim 归零"的乘法式打分,既客观可复现,又奖励"真去搜"而非"背记忆",这套思路可迁移到任何长文本/信息合成任务的评测。
  • 问题反演是可持续 benchmark 的工程亮点:把现成的长上下文推理题倒过来批量造"答案难找易核验"的 DR 题,天然支持随新论文/新事件刷新题库、对抗数据污染,比"请专家手写题"可扩展得多。
  • 轨迹分析直接指出改进方向:覆盖度仅约 50%、广度比深度更决定准确性——这把"DR 该往哪改"从玄学变成了可量化的诊断(先把搜索广度做上去)。

局限与展望

  • claim 一致性用 GPT-4o 判定:精确率/召回率、覆盖度、查询依赖度都依赖同一个 LLM 裁判,裁判本身的偏差/噪声会传导进所有指标;论文未充分讨论裁判一致性。
  • 只评信息合成、不评最终报告质量:作者明确把"给定 claim 写报告"剥离出去当作独立的长文本生成问题,因此 benchmark 不反映报告的组织、论证、可读性——一个 claim 全对但报告写得很差的系统在这里仍是满分。
  • DR 还包含本文未覆盖的能力:computer use、写代码、调外部工具等也是 DR 的一部分,本文聚焦信息合成,结论不能直接外推到这些维度。
  • 经验阈值偏启发式:">10 分钟 / 20 信息单元 / 10 查询"是实用近似,边界附近的任务归类会有主观性。
  • 改进展望:对 ENTITIES 这种"算法简单但搜索繁琐"的任务,作者建议交错使用程序控制和模型控制;对 SCIFACTS 这种"答案对但 grounding 错"的情况,靠更好的训练来修;轨迹分析则可用于指导广度/深度的权衡。

相关工作与启发

  • vs DeepResearch Bench (Du et al., 2025):它用 LLM 裁判给报告的全面性/洞察力/可读性打主观分;本文改用基于 claim 的客观打分,把推理对错和文风分开,且支持可更新题库。
  • vs FutureSearch Deep Research Bench:它评的是有经济价值的任务(数值答案、证据收集、claim 校验),但数据集不公开;本文提供公开 benchmark,覆盖大海捞针到广度枚举两端,并用整个 Web 当语料以便直接对比闭源/开源。
  • vs BrowseComp (Wei et al., 2025a):本文借用了它"造答案难找易核验的题"的反演思想,但把人工逐题构造模板化、并扩展到答案含多个实体/多条 claim 的情形。
  • vs 多跳 QA(HotpotQA 等)与 Mind2Web:本文用搜索强度 × 推理强度把 DR 与这些低搜索或低推理的任务在定义上区分开,并显式建模了广度(搜索覆盖)与深度(claim 正确性)两个之前工作未显式刻画的维度。

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 第一个给"深度研究"下可度量形式化定义、并配套客观 claim 评测的工作
  • 实验充分度: ⭐⭐⭐⭐ 覆盖 3 家闭源 + 1 开源 DR 与 6 个基线、8 类任务,并做了推理轨迹的覆盖/深度/分支分析
  • 写作质量: ⭐⭐⭐⭐ 定义—指标—构造—评测的逻辑链清晰,图表(任务空间、问题反演、F1 分类别)到位
  • 价值: ⭐⭐⭐⭐⭐ 给一个正在爆发却缺乏共识定义的方向立了客观标尺,对推动 DR 评测标准化价值很大