A Benchmark for Deep Information Synthesis (DeepSynth)¶

会议: ICLR 2026
arXiv: 2602.21143
代码: 有（公开数据和代码）
领域: Agent
关键词: benchmark, information synthesis, deep research, multi-source reasoning, agent evaluation

一句话总结¶

提出 DeepSynth 基准，包含 120 个跨 7 领域 67 国的真实信息综合任务（平均需 5.5 小时人工标注），要求 agent 从多个网页收集信息并进行结构化推理，当前最强 agent（o3-deep-research）仅获 8.97 F1 / 17.5% LLM-Judge，揭示了 LLM agent 在信息综合方面的严重不足。

研究背景与动机¶

领域现状：LLM agent 在工具使用（网页浏览、代码执行、数据分析）方面快速进步，但现有基准主要评估浅层事实检索或单源信息查找。

现有痛点：现有 benchmark 存在三个问题：(1) 多为浅层检索任务（如 GAIA），不需要跨源综合；(2) 多依赖英文和 Wikipedia 等知名单一来源；(3) 未覆盖全球多样性的信息源和语言。

核心矛盾：真实世界的信息综合任务需要跨多个数据源收集结构化/非结构化数据，并进行复杂分析（趋势检测、相关性分析、异常检测等），现有 benchmark 无法评估这些能力。

本文目标 构建一个评估 agent 深度信息综合能力的基准——任务答案不可直接检索，必须通过多步推理和跨源综合才能得到。

切入角度：从真实场景出发（16 位专家，每个任务平均 5.5 小时标注），先选数据源→提假设→验证分析→出题，确保答案不可记忆且需要真正综合推理。

核心 idea：构建一个需要"深度研究"能力的真实基准，揭示当前 agent 在信息综合上的巨大差距。

方法详解¶

整体框架¶

这是一篇 benchmark 论文，不提新方法，核心贡献是 DeepSynth 这套数据集本身——120 个任务的设计、专家标注流程，以及对 11 个现有 agent 的全面评估。它要解决的是"现有基准只考浅层事实检索、考不出 agent 跨源综合能力"这个评估缺口。整条流水线可以拆成两段：建题——16 位专家从 223 个真实官方数据源出发，提假设、动手分析、再把分析链逆向封装成题，经层层筛选（223 源 → 155 源 → 130 源 → 120 题）并二次独立标注，得到 120 道答案"搜不到、只能综合出来"的题；考试——让各家 agent 多源浏览、跨源推理产出一份 JSON 答案，再用 EM / F1 / LLM-Judge 三把松紧不同的尺子去量。每道题的固定构成是：一道问题（平均 78.5 tokens）、一串金标准中间推理步骤（平均 7.54 步）、支撑这些步骤的证据 URL（平均需翻 4.2 个网页），以及一个 JSON 标准答案。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400, 'subGraphTitleMargin': {'top': 8, 'bottom': 16}}}%%
flowchart TD
    subgraph BUILD["四阶段逆向数据构建"]
        direction TB
        A["① 数据源识别<br/>16 位专家 → 223 个官方数据源"] --> B["② 假设生成<br/>每源提 1-2 个可验证假设 → 155 源"]
        B --> C["③ 假设验证<br/>动手分析筛掉不可验证 → 130 源"]
        C --> D["④ 任务表述<br/>逆向封装成问题 + 推理链 + 证据 URL"]
    end
    D --> E["二次独立标注<br/>双人答案一致才保留 → 120 个任务"]
    E --> F["任务多样性<br/>67 国 · 7 领域 · 6 类分析操作"]
    F --> G["Agent 作答<br/>多源浏览 + 跨源综合 → JSON 答案"]
    G --> H["多维评估指标<br/>EM 最严 · F1 部分对 · LLM-Judge 语义松"]

关键设计¶

1. 四阶段逆向数据构建：让答案"搜不到、只能综合出来"

现有 benchmark 多是"先有答案再编问题"，结果题目往往一次检索就能命中，考不出真正的综合能力。本文反着来，由 16 位专家走四个阶段：数据源识别（提出 223 个跨 7 领域的官方数据源）→ 假设生成（为每源提 1-2 个可验证假设，筛到 155 源）→ 假设验证（动手分析、淘汰不可验证的，留下 130 源）→ 任务表述（把分析链逆向封装成问题 + 中间推理步骤 + 证据 URL + JSON 答案）。最后还要过一道二次独立标注——另一位标注者重新作答，两人答案完全一致的题才保留，最终得到 120 道题。这一逆向流程的关键在于：答案藏在多步分析的终点而非某个网页上，无法靠 verbatim lookup 或直接搜索拿到，agent 必须真的跨源收集再推理才能复现，从源头上保证了任务的抗记忆、抗污染性。代价是单题平均要花专家 5.5 小时，也正因如此规模只能停在 120 道。

2. 任务多样性：在地域、领域、分析操作三个维度上撑开覆盖面

为了不让 benchmark 偏向英语或西方语境，任务横跨 67 个国家、覆盖 7 个领域（社会经济、金融、环境、科学、教育、交通、政治）。在分析操作类型上也刻意铺开分布：计数比较 33.7%、趋势检测 20.9%、排名 19.8%、求平均 11.1%、相关性分析 7.0%、异常检测 7.0%（另有少量筛选类）。这种三维铺开既检验 agent 在 under-represented 数据源（如非洲地区）上的鲁棒性，也保证考的不是单一一种推理套路，而是真实信息综合里会碰到的各类操作。

3. 多维评估指标：用三把松紧不同的尺子量同一份答案

任务输出统一为 JSON 的 key-value 对，天然可自动验证，但单一指标会失真，所以本文叠了三层。EM（Exact Match）最严，要求所有 key 和 value 全部正确，答对一题才计 1，错一处即 0；F1 退到 key-value pair 粒度，统计"答对的对数 / 应答对数"，给出 precision / recall / F1，容许部分正确；LLM-Judge 最松，用 LLM-as-a-judge 判语义等价，对字符串小差异和 1–5.5% 的数值偏差也算对。三把尺子从严到松排开，既能看出 agent 是否真正精确，也能在它"方向对但细节差"时给出可区分的梯度，避免被 EM 一刀切到 0 而看不出差异。

实验关键数据¶

主实验¶

模型/Agent	F1	EM	LLM-Judge
GPT-4.1	3.46	0.0	0.0
GPT-5.1	3.83	0.0	0.0
GPT-5.2-Pro	8.70	6.25	6.67
Gemini-2.5-Pro	6.25	0.0	5.0
DeepSeek-R1	3.23	1.67	2.5
o3-deep-research	8.97	2.50	17.5
Smolagent (GPT-5)	6.42	1.67	2.5
OWL (GPT-4.1)	5.41	1.67	12.5

消融实验（OWL 工具消融）¶

配置	F1	说明
Full	5.41	完整工具链
- Search	3.60	搜索是最关键能力，去掉后降 1.81
- Web Browsing	4.80	浏览能力也重要
- Doc Processing	4.90	文档处理影响较小
- Code Execution	4.82	代码执行也有贡献

关键发现¶

所有模型在 EM 上接近 0：没有模型能完美解决任何一个任务，说明 benchmark 极具挑战性
推理模型（o3、R1）vs 通用 LLM（GPT-4.1）的 F1 差距很小，说明瓶颈在信息获取而非推理本身
工具增强有帮助但远不够：o3-deep-research 比 base o3 高 5.68 F1，但仍然只有 ~9 分
Best-of-5 能提升到 25% LLM-Judge，但 Self-Consistency@5 只有 5%——agent 输出方差极大，偶尔对但无法稳定
非洲地区相关任务的表现显著下降，暴露了模型在 under-represented 数据源上的弱点

亮点与洞察¶

揭示了一个重要盲区：当前 "deep research" agent 的信息综合能力远未达到实用水平，120 个任务中最好的 agent 只能可靠解决 3 个
数据构建方法很值得学习：先分析再出题、双人验证、每题 5.5 小时标注的精细流程，确保了 benchmark 的高质量和抗污染性
瓶颈诊断有价值：通过对比有/无工具的表现，明确指出信息获取（而非推理）是当前主要瓶颈

局限与展望¶

120 个任务的规模偏小，可能不够覆盖所有信息综合场景
评估主要用 JSON 精确匹配，限制了对开放式回答的评估能力
标注依赖 16 位特定领域专家，可能引入标注者偏差
未评估 agent 使用搜索引擎 API 的能力（主要测试网页浏览）

补充讨论¶

Deep Information Synthesis 与 RAG 的区别¶

RAG 主要关注信息检索和组合，而 Deep Information Synthesis 要求模型进行多步推理、跨源验证和数据整合。这个区别很重要——现有 RAG benchmark 无法评估 agent 的“深度综合”能力。

评分¶

新颖性: ⭐⭐⭐⭐ 首个系统性评估 deep information synthesis 的 benchmark
实验充分度: ⭐⭐⭐⭐⭐ 11 个模型/agent、多维指标、工具消融、Best-of-N 分析
写作质量: ⭐⭐⭐⭐ 结构清晰，数据构建过程描述详尽
价值: ⭐⭐⭐⭐ 为 deep research agent 发展指明了方向和差距