DeepResearch Bench: A Comprehensive Benchmark for Deep Research Agents¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=hQ0K2Hhq7H
代码: https://github.com/Ayanami0730/deep_research_bench
领域: LLM 评测 / Deep Research Agent / Benchmark
关键词: Deep Research Agent、长文报告评测、引用可信度、LLM-as-a-Judge、自动化评测

一句话总结¶

针对"深度研究智能体（DRA）"提出首个系统性基准 DeepResearch Bench——100 个由领域专家精心打磨、覆盖 22 个学科的 PhD 级研究任务，并配套两套全自动且高度对齐人类的评测框架：RACE 评报告质量、FACT 评信息检索与引用可信度。

研究背景与动机¶

领域现状：以 OpenAI/Gemini Deep Research 为代表的深度研究智能体正成为最实用的一类 LLM agent——给定开放式研究任务，它们自动检索、分析、综合大量在线资料，几分钟内产出分析师级别的综合报告。
现有痛点：缺少专门评测 DRA 的基准。DRA 的内部推理与检索过程不透明，唯一可观测的只有最终报告；而复杂研究任务往往无法建立确定性 ground truth。现有基准要么只测孤立能力（网页浏览、信息检索），要么测的是脱离实时检索的纯生成能力，均无法刻画 DRA 的多维综合能力。
核心矛盾：长文研究报告"该怎么评"是开放难题——固定 checklist 或静态 rubric 无法适配多样任务与专业领域；让 LLM 直接打分又会一片高分、缺乏区分度。
本文目标：建一个既贴近真实研究需求、又足够有挑战性的任务集，并设计与人类专家判断高度一致的自动评测方法，用于公平比较各家 DRA。
核心 idea：任务侧用真实用户 query 分布驱动选题、由专家原创任务；评测侧用"参考报告 + 任务自适应权重/标准"做相对评分（RACE），再用"逐句抓取-回源验证"量化引用质量（FACT）。

方法详解¶

整体框架¶

方法分三块：(a) 基于 96,147 条真实用户 query 统计出 22 个领域的研究需求分布，据此分配并由专家原创 100 个双语任务（50 中 50 英）；(b) RACE 评报告质量——先为每个任务动态生成维度权重与评分标准，再以高质量参考报告为锚做相对打分；(c) FACT 评检索能力——把报告拆成"陈述-URL"对，逐一回源验证是否被支持，算出引用准确率与有效引用数。

flowchart LR
    A[96K 真实用户 query] -->|过滤+22领域分类| B[需求分布]
    B -->|按比例分配| C[专家原创 100 任务<br/>50中 50英]
    C --> D[DRA 生成报告]
    D --> E[RACE: 报告质量]
    D --> F[FACT: 引用质量]
    E --> G[Overall 排名]
    F --> G

关键设计¶

1. 真实需求驱动的任务构建：让基准"长得像"真实研究
基准的可信度首先取决于任务是否反映真实研究需求。作者收集 96,147 条来自带搜索 Chatbot 的真实用户 query，用 DeepSeek-V3 过滤出符合"需多轮检索+分析+成稿"定义的 44,019 条深度研究 query，再套用 WebOrganizer 的 22 领域 taxonomy 做分类，统计出各领域的真实需求占比。据此按比例压缩到 100 个任务，并保持中英双语平衡。关键的是这 100 个任务不是从 44K query 里挑的，而是由 5 年以上经验的 PhD/资深从业者按各领域目标配额独立原创，再经团队人工筛查质量、清晰度、复杂度——44K 样本只用来定分布，从而兼顾"贴近真实需求"与"足够挑战"。

2. RACE：参考锚定 + 任务自适应标准的相对评分
直接让 Judge LLM 给长报告打分会一片高分、缺区分度，从零生成评分标准又容易跑偏。RACE 先固定四个正交顶层维度——全面性 COMP、深度 DEPTH、指令遵循 INST、可读性 READ；对每个任务 \(t\)，Judge LLM 先产出四维任务级权重 \(W_d\)，再在每个维度下生成一组可操作的细则 \(\{c_{d,k}\}\) 及其归一权重（\(\sum_k w_{d,k}=1\)），且这套标准一旦生成就对该任务所有 DRA 固定，保证公平。打分采用参考锚定策略：选一篇高质量报告 \(R_{ref}\) 作参考，Judge LLM 在每条细则上同时给目标报告与参考报告打分，最后维度分按 \(W_d\) 汇总成 \(S_{int}\)，目标分取相对值：

\[S_{final}(R_{tgt}) = \frac{S_{int}(R_{tgt})}{S_{int}(R_{tgt}) + S_{int}(R_{ref})}\]

这样分数被映射到以参考报告为锚的相对坐标系，虽然绝对值偏低、头部模型彼此接近，但排名与比例差异与人类判断高度线性相关。

3. FACT：逐句回源验证的引用可信度量化
报告好不好读之外，更要看"引用是否真撑得起论断"。FACT 让 Judge LLM 从报告里抽取离散陈述及其引用 URL，得到陈述-URL 对集合 \(P_t\)，再对同一 URL 描述同一事实的对去重，得到唯一对集合 \(U_t\)（数量 \(N_{u,t}\)）。随后用 Jina Reader API 抓取被引网页正文，由 Judge LLM 判定该网页是否足以支撑对应陈述，得到二元 support/not-support，记 support 数为 \(N_{s,t}\)。据此算两项指标——引用准确率（衡量引用精度）：

\[\text{C. Acc.} = \frac{1}{|T|}\sum_{t\in T}\frac{N_{s,t}}{N_{u,t}}\]

以及每任务平均有效引用数（衡量信息丰度）：

\[\text{E. Cit.} = \frac{\sum_{t\in T} N_{s,t}}{|T|}\]

两者刻画"引用准不准"与"引用多不多"，常呈此消彼长的权衡关系。

实验关键数据¶

主实验（部分代表性结果，RACE Overall + FACT）¶

模型	RACE Overall	C. Acc.	E. Cit.
LangChain ODR (GPT-5)	50.60	32.94	21.06
Gemini-2.5-Pro Deep Research	49.71	78.30	165.34
OpenAI Deep Research	46.45	75.01	39.79
Claude Research	45.00	–	–
Kimi Researcher	44.64	–	–
Doubao Deep Research	44.34	52.86	52.62
Perplexity Deep Research	40.46	82.63	31.20
Tongyi DeepResearch（开源 RL）	40.46	–	–
Claude-3.7-Sonnet w/Search	40.67	93.68	32.48
DeepResearcher（开源 RL）	10.77	–	–

评测配置：RACE 用 Gemini-2.5-pro 作 Judge，FACT 用 Gemini-2.5-flash（更经济）做抽取与回源判断；参考报告取自 2025 年 4 月的 Gemini-2.5-pro Deep Research 输出；全部在 100 任务全集上评测。

消融实验（RACE 各组件 vs 人类一致性，Table 2）¶

评测方法	PAR	OPC	FAP	FAS	Overall
Vanilla Prompt（直接打分）	58.89	98.89	40.30	43.75	60.46
RACE(Full)	71.33	99.54	60.24	59.12	72.56
- No Criteria Weights	70.67	99.62	59.83	56.27	71.60
- No Dim Weights	70.89	99.54	60.11	57.22	71.94
- No Weights	71.11	99.69	59.46	58.17	72.11
- No Reference	66.56	97.46	57.51	51.23	–

关键发现¶

开源框架能追平甚至反超闭源：LangChain Open Deep Research 换上 GPT-5 后 RACE 总分 50.60，超过 Gemini-2.5-Pro Deep Research——说明先进 LLM + 开源框架可达 SOTA 闭源水平。
引用准确率与有效引用数存在权衡：Gemini-2.5-Pro 平均 165 条有效引用遥遥领先（长上下文优势），但准确率不及 Perplexity，更远低于 Claude-3.7 w/Search 的 93.68。
传统"内置搜索 LLM"已打不过现代 DRA：在同一评测下，单轮/少轮搜索的 LLM 普遍落后于多轮检索的 DRA。
RACE 高度对齐人类：RACE(Full) 的成对一致率（PAR 71.33）甚至超过人类标注者之间的一致率；去掉参考锚定（-No Reference）掉得最狠，印证"参考相对评分"是区分度的关键。
开源 RL 系统两极分化：Tongyi DeepResearch（40.46）已逼近 Perplexity Deep Research，而 DeepResearcher（10.77）因常无法产出完整结构化报告而垫底。

亮点与洞察¶

先有"评什么"再有"怎么评"：用 9.6 万真实 query 反推任务分布，把基准锚在真实需求上，避免了"凭感觉出题"。
参考锚定 + 任务自适应标准优雅地解决了 LLM 评长文"一片高分"的痼疾，且 PAR 超过人类内部一致性，可信度有据。
RACE/FACT 双框架互补：一个看"报告写得好不好"，一个看"引用撑不撑得住"，把不透明的 DRA 拆成两个可量化维度。
作者明确指出 RACE/FACT 思路不局限于深度研究场景，可迁移到更广义的长文/检索增强生成评测。

局限与展望¶

任务规模仅 100：受单次深度研究任务资源消耗大所限，规模与 xbench/Mind2Web 2 同量级，覆盖统计稳定性有上限；好在 query-based 标准生成机制为后续扩集留了口子。
FACT 依赖外部抓取：Jina Reader 抓不到/抓串内容会影响指标（Doubao 即受此影响被低估）；部分系统因引用格式不规范（开源 RL 系统）或 UI 无法解析（Claude/Kimi）而缺 FACT 分。
Judge 依赖闭源大模型：RACE/FACT 都依赖 Gemini 系列作 Judge，评测成本与可复现性受商业模型迭代影响。
相对分数易误读：RACE 绝对分偏低且头部接近，需引导使用者看排名与比例差而非绝对值。

评分¶

新颖性: ⭐⭐⭐⭐ 首个 DRA 专用基准，RACE 的参考锚定相对评分与 FACT 的回源验证均有实质创新。
实验充分度: ⭐⭐⭐⭐ 覆盖近 20 个商用/开源 DRA 与内置搜索 LLM，配 70+ 标注者的人类一致性与多项消融/鲁棒性实验。
写作质量: ⭐⭐⭐⭐ 动机-构建-评测-验证链条清晰，公式与表格规范，三张框架图直观。
价值: ⭐⭐⭐⭐ 填补 DRA 评测空白，已开源基准与评测协议，RACE/FACT 可迁移到更广的长文/RAG 评测，社区参考价值高。