DRBench: A Realistic Benchmark for Enterprise Deep Research¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=IGYQ4c92e2
代码: https://github.com/ServiceNow/drbench
领域: LLM 评测 / Agent 评测 / Deep Research
关键词: 深度研究, 企业 Agent, 基准测试, Insight Recall, 多源检索, LLM-as-a-judge

一句话总结¶

DRBench 构造了第一个面向企业场景的 deep research 基准——要求 Agent 同时从公开网页和私有企业数据（邮件、聊天、PPT、表格、PDF）中挖掘并综合关键洞察，用 Insight Recall / Factuality / Distractor Avoidance / Report Quality 四个维度评估，揭示出当下 Agent 在企业洞察召回上严重不足（最强的 GPT-5 也只有 ~37%）。

研究背景与动机¶

领域现状：deep research（高层战略提问 → 拆子问题 → 检索评估材料 → 产出有据可循的总结）正成为 LLM Agent 的热门落地方向，已有 Local Deep Researcher、DeepResearcher、OpenHands 等一批模块化 Agent 架构。
现有痛点：现有 deep research 基准（Deep Research Bench、DeepResearch Bench、GAIA、Mind2Web 2 等）几乎都是纯网页检索任务，评的也只是答案准确率、文档召回或报告 factuality 这类窄维度；企业类环境基准（TheAgentCompany、OSWorld、WorkArena）则聚焦于 computer-use 操作，不涉及深度研究。
核心矛盾：真实企业的有价值洞察散落在 PDF、表格、邮件、内部聊天等异构私有系统里，还要和公开网页信息交叉印证，但现有基准没有一个同时考察"私有+公开"双源检索、洞察召回、抗干扰和报告质量。
本文目标：建一个把公开网页检索与私有企业数据融合、贴近真实工作流、可复现的 deep research 评测床。
核心 idea：「needle-in-a-haystack 式洞察注入 + 多源企业环境 + 原子洞察级评估」——把人工核验过的 groundtruth 洞察注入到分布在多个企业应用里的合成文件中，再混入似是而非的干扰洞察，最后在原子洞察粒度上度量 Agent 能否召回真洞察、避开干扰、并正确引用。

方法详解¶

整体框架¶

DRBench 由三部分构成：(1) 一条五阶段任务生成流水线（LLM 大规模生成 + 三名标注员人工核验），产出 100 个任务、1093 条 groundtruth 洞察、覆盖 Sales/Cybersecurity/Compliance 等 10 个领域；(2) 一个可复现的企业搜索环境，把生成数据灌进 Nextcloud（云盘）、Mattermost（聊天）、RoundCube（邮件）等真实应用，让 Agent 既能爬公网又能调 API 访问私有数据；(3) 一套四维评估框架（Insight Recall、Distractor Avoidance、Factuality、Report Quality），全部基于 LLM-as-a-judge。论文还附带了一个基线 Agent（DRBA）作为参考实现。

flowchart LR
    A[S1 公司+人设生成] --> B[S2 公开源/洞察采集]
    B --> C[S3 研究问题生成]
    C --> D[S4 内部洞察生成<br/>含干扰项]
    D --> E[S5 文件映射与生成<br/>needle-in-a-haystack]
    E --> F[(企业环境<br/>云盘/聊天/邮件)]
    F --> G[DRBA Agent<br/>规划→检索→综合]
    G --> H[结构化报告]
    H --> I[四维评估]

关键设计¶

1. 五阶段「人在环中」任务生成流水线：把真实感和可控难度同时握在手里。 任务不是手写也不是纯 LLM 拍脑袋，而是分五步逐层接力、每步都过人工核验。S1 用 LLM 生成合成公司画像（行业、产品、市场地位、竞品）和跨部门人设（如合规事务经理），经专家精修后构成 Task Context \(C\)；S2 在该公司背景下检索候选 URL，只限定带日期、来自期刊或行业报告的权威站点以保证洞察"时间不变"，标注员选定一个作为 Task URL 并抽取公开洞察 \(I_p\)；S3 用公司画像+人设+Task URL+\(I_p\) 让 LLM 提开放式研究问题 \(Q\)，标注员筛选精修并确保该 URL 至少能部分支撑作答；S4 基于 \(I_p\) 和 \(Q\) 生成与企业业务对齐的内部洞察 \(I_l\)，同时生成似是而非但无关的干扰洞察 \(I_d\)；S5 把每条洞察分配到某种模态（邮件/聊天/PDF/docx 等）。难度由洞察数量、文件类型数、应用类型数共同调节，分 easy/medium/hard。

2. needle-in-a-haystack 文件合成：让真洞察淹没在逼真噪声里。 S5 的文件生成模块对每条要注入的洞察走三步——先按模态搭出文件骨架（文档结构或聊天配置），再把该条相关/干扰洞察插进合适的章节，最后用逼真但无关的内容把文件其余部分填满。这样每个文件就成了一个"草垛"，Agent 必须在大量分散注意力的细节中精准找到那根"针"。标注员还要抽检确保文件连贯、无自相矛盾。一个任务通常跨 2–4 个应用、3–16 个支撑文件，逼真复刻企业数据生态的碎片化。

3. 原子洞察级四维评估：诊断式而非黑盒打分。 评估刻意不把报告当成单一整体输出，而是先用 LLM 把报告拆成原子洞察，再逐条比对 groundtruth，从而支持"部分得分"和故障定位。Insight Recall：每条预测洞察经 LLM Judge 与 groundtruth 匹配，命中即计入召回；为防 Agent 把文件原文整段抄进来刷分，Judge 只看前 \(k=\)（groundtruth 洞察数 \(+5\)）条洞察。Distractor Avoidance \(=1-\text{distractor recall}\)，度量精度（是否误收干扰项）。Factuality 沿用 FactScore 思路：洞察若无引用或引用了不存在的源即判为不实，否则用 text-embedding-3-large 从被引文档取 top-5 片段，再让 Judge 判断证据是否支撑该 claim。Report Quality 让 Judge 在分析深度、相关性、人设一致性、连贯性、无矛盾、完整性六个维度各打 1–10 分取平均。

4. DRBA 基线 Agent：四阶段企业研究工作流参考实现。 为基准提供可比的起点，作者实现了 DRBA——按 research planning → action planning → 自适应研究循环 → report writing 组织。研究规划支持两档：CRP（Complex Research Planning）生成含调查领域/预期信息源/成功判据的结构化计划，SRP（Simple Research Planning）只做轻量子问题拆解；研究循环里的 AAP（Adaptive Action Planning）会迭代地选工具执行、把内容存进向量库、再根据研究缺口自适应生成新动作，直到完成或触顶最大迭代数。报告以"洞察+引用"的结构化格式输出（而非自由叙述的 raw report）以便评估。

实验关键数据¶

主实验（FullBenchmark，100 任务，GPT-4o 为 backbone 与 Judge）¶

不同规划模块组合下 DRBA 的表现（数值越高越好）：

配置	Insight Recall	Factuality	Distractor Avoid.	Report Quality	调和均值
Base DRBA	13.18	58.04	95.76	88.23	34.82
+ SRP	13.42	62.11	96.62	89.74	35.68
+ CRP	13.31	59.53	97.14	87.92	35.21
+ AAP	15.97	60.37	96.48	90.08	39.74
+ SRP + AAP	14.83	55.29	96.55	88.96	37.34
+ CRP + AAP	14.19	52.08	96.47	87.54	35.89

消融：不同 backbone 模型（FullBenchmark 子集）¶

Backbone	Planning	Insight Recall	Factuality	Distractor Avoid.	Report Quality	调和均值
GPT-5	-	36.52	72.11	93.22	93.41	63.81
GPT-5	CRP	37.48	62.33	91.71	92.03	62.02
Llama-3.1-405B	CRP	18.33	65.72	95.04	89.01	43.70
DeepSeek-V3.1	CRP	28.21	67.09	93.96	85.57	55.03
Qwen-2.5-72B	CRP	24.39	55.74	95.12	87.51	49.46

关键发现¶

洞察召回是整个领域的硬伤：即便最强的 GPT-5 也只召回约 37% 的 groundtruth 洞察，开源模型多在 16–28%，说明 Agent 普遍依赖先验知识或网页内容，而非真正去挖企业文件里的关键事实。
抗干扰反而很强（Distractor Avoidance 普遍 >93%），说明 Agent "不被误导"没问题，问题在"找不到决定性洞察"。
AAP（自适应动作规划）增益最明显，同时提升召回与报告质量；但 CRP/SRP 与 AAP 叠加并无明显增益、有时反而拉低 factuality，说明重叠的规划策略会带来冗余/不稳定。
公网检索几乎全军覆没：当所需信息不在私有文件、应该去网上查时，没有任何 Agent 成功从公网取到相关内容——它们发的是"杂货店顾客信任"这类宽泛查询，而非针对 FSMA 204 法规的精准搜索，暴露出"缺失知识检测 + 问题界定"能力的缺失。
定性分析：强模型不仅能取出数字，还能把数字绑定到正确的时间/业务上下文（如"截至 Q2 2024 的 85%"），弱模型常只复述孤立数字而丢掉限定语，导致表面正确但召回为 0。

亮点与洞察¶

第一个真正"公开+私有"双源、企业落地的 deep research 基准，填补了现有基准非纯网页即纯 computer-use 的空白。
needle-in-a-haystack 注入 + 干扰洞察的设计很巧妙：把召回与精度对立起来，既能测"找得到"又能测"不乱抓"。
原子洞察级、诊断式评估比端到端打分信息量大得多，能定位"漏掉/无据/无关"三类具体失败，并通过 \(k=\)groundtruth\(+5\) 的截断巧妙堵住"整篇抄进来刷召回"的漏洞。
结论给出明确的"关键路径"：自适应规划 + 缺失知识检测是推进企业 deep research 的两大抓手。

局限与展望¶

只测召回不测精度的"有用性"：未匹配上 groundtruth 的洞察是否仍对回答问题有价值，作者承认难以自动判定、被一刀切忽略，可能低估了真实有用发现的广度。
\(+5\) 缓冲是经验值，虽能防刷分但本身略显 arbitrary，对"应当包含多少额外洞察"缺乏原则性界定。
生成数据为合成：公司、人设、内部洞察、文件全部 LLM 合成 + 人工抽检，与真实企业数据的分布差异、潜在偏置仍待验证。
评估强依赖 LLM Judge（GPT-4o），存在 judge 与被测模型同源的潜在偏置（虽作者称原子 claim 使 judge 方差很小）。
展望：把"缺失知识检测→主动公网检索"做成显式能力、扩展更多领域与模态、引入真实脱敏企业数据，都是自然的延伸方向。

评分¶

新颖性: ⭐⭐⭐⭐ 第一个公开+私有双源、企业落地的 deep research 基准，问题定义和环境构造都有明确增量。
实验充分度: ⭐⭐⭐⭐ 覆盖 100 任务/10 领域、跨 GPT/Llama/Qwen/DeepSeek 多 backbone、多规划策略消融，并有定性分析与误差报告；但合成数据的真实性验证可再加强。
写作质量: ⭐⭐⭐⭐ 流水线、环境、评估三块层次清晰，图 1–3 把 pipeline/Agent 架构讲得很直观。
价值: ⭐⭐⭐⭐ 给企业 deep research 提供了可复现评测床，并明确指出"洞察召回弱、公网检索失败、缺失知识检测缺位"三大待解问题，对后续研究有清晰指引。