DeepDiver: Adaptive Search Intensity Scaling via Open-Web Reinforcement Learning¶

会议: NeurIPS 2025
arXiv: 2505.24332
代码: 无
领域: 强化学习
关键词: 搜索强度缩放, 强化学习, 信息检索, 大语言模型, 开放网络问答

一句话总结¶

提出 DeepDiver，一个 RL 驱动的搜索推理框架，在真实开放网络环境中训练 LLM 的信息寻求能力，催生"搜索强度缩放"（SIS）涌现行为——7B 模型在知识密集任务上可媲美 671B 的 DeepSeek-R1。

研究背景与动机¶

信息寻求（information seeking）是一项核心认知能力，涉及迭代证据收集、反思推理和冲突信息解决。现有 LLM 在这方面面临以下问题：

Prompting 方法固定流程限制：ReAct、IRCoT 等方法使用预定义规则，无法适应动态复杂问题

SFT 方法过拟合训练语料：SELF-RAG 等方法内化了特定语料的推理模式，泛化性差

RL 方法仅在"干净"环境评估：R1-Searcher、DeepResearcher 等仅在 HotpotQA/Wikipedia 等结构化数据上训练评估，真实网络充满噪声和冲突信息

四种信息寻求行为未被完整覆盖： - 证据收集与补充（传统 QA 数据集主要覆盖此类） - 冲突解决（处理矛盾信息） - 验证与去噪（交叉检查事实） - 反思与纠正（重新评估推理路径）

后三种行为在真实网络搜索中至关重要，但 Wiki-based 环境无法激发。

方法详解¶

整体框架¶

DeepDiver 采用 Cold-start SFT → RL 训练 的两阶段流程，在真实搜索引擎环境中训练 LLM 的迭代检索-推理能力。

关键设计¶

1. WebPuzzle 数据集¶

一个 24K 训练 + 275 测试的开放网络 QA benchmark，覆盖 Wiki 和开放域查询：

数据类型	生成方式	特点
Cross-Page QA	从网页提取事实生成"反转"问题	需跨页推理
Open Riddle	选择实体属性进行模糊化/泛化	高度挑战性
Wiki Riddle	同上但基于 Wiki 来源	有结构化知识

难度标注：用 DeepSeek-R1 测试 4 次，按正确次数分 easy/medium/hard，确保 RL 训练奖励信号稳定。测试集由 5 位专家手工标注。

2. Cold-start SFT 初始化¶

使用多样数据蒸馏 DeepSeek-R1 的响应： - 2000 条 WebPuzzle 样本（跨难度） - 300 条真实用户查询 - 2200 条通用推理问题 - 1000 条用户查询 + 检索文档

3. GRPO + 迭代 RAG¶

在每轮迭代中，模型交替执行推理和搜索直到产生答案。关键设计： - Loss mask：仅对模型生成的 token 计算 GRPO 损失，检索文本不参与梯度更新 - 额外搜索奖励：当无搜索 rollout 均失败但有搜索 rollout 成功时，给搜索成功的 rollout 额外 +1.0 奖励 - 松严奖励过渡：前 80 步用宽松评分（10 分制，≥6 得 1.0），后续切换严格评分（3 轮评估，≥2/3 正面）

4. 搜索强度缩放（SIS）¶

SIS 是 DeepDiver 的核心涌现能力——模型自适应地增加搜索频率和深度以应对更复杂的问题。论文通过训练过程分析证明 SIS 是涌现行为而非奖励工程的产物：

额外搜索奖励的触发频率从 step 0-9 的 4.5% 骤降到 step 70-80 的 0.1%
搜索轮次的增长发生在 step 80-120，此时额外奖励已基本不活跃
模型主动利用外部工具弥补内部知识不足，无需直接激励

损失函数 / 训练策略¶

GRPO 优势估计：\(A_i = r_i - \text{mean}(r)\)（组内相对奖励）
检索文本 mask：仅模型生成部分贡献梯度
训练数据：从 24K WebPuzzle 中精选 7K（2K SFT + 5K RL），按难度均衡混合
骨干模型：Qwen2.5-7B-Instruct 和 Pangu-7B-Reasoner

实验关键数据¶

主实验：与基线对比¶

方法	WebPuzzle	C-SimpleQA-500	FRAMES-zh	BamBoogle-zh
Qwen2.5-7B (无搜索)	7.4	28.4	14.1	19.7
Qwen2.5-7B (迭代RAG)	17.0 (2.24轮)	65.3	30.9	40.8
Cold-Start-SFT	27.9 (1.85轮)	75.5	35.1	48.4
R1-Distill	29.8 (1.75轮)	78.7	40.1	52.6
DeepDiver-Qwen7B	37.6 (2.51轮)	81.9	44.5	63.4
DeepSeek-R1 (迭代RAG)	37.1 (1.48轮)	84.8	65.8	79.3

7B 的 DeepDiver 在 WebPuzzle 开放域任务上超越 671B 的 DeepSeek-R1（37.6 vs 37.1）。

与 Wiki-based 方法对比（英语评测）¶

方法	WebPuzzle-en	BamBoogle	FRAMES	HotpotQA
R1-Searcher	13.7 (1.9轮)	46.7	25.3	57.9
DeepResearcher	15.0 (7.5轮)	53.9	33.6	56.6
DeepDiver-Qwen	26.1 (14.7轮)	56.8	32.0	58.4

尽管仅用中文训练，DeepDiver 在英语开放域任务上大幅超越 Wiki-based 方法。

信息寻求能力隔离测试¶

去除仅靠内部知识就能回答的问题后： - DeepDiver 在所有领域超越 DeepSeek-R1，WebPuzzle 领先 5.1 分 - 7B 模型在全集上的劣势主要源于内部知识量不足，而非信息寻求能力

消融实验：奖励函数设计¶

策略	WebPuzzle 变化	FRAMES-zh 变化
持续宽松奖励	几乎无提升	下降 7 分
宽松→严格过渡	+9 分（29.1→37.6）	持续上升

关键发现¶

搜索强度与性能正相关：搜索轮次增加伴随训练奖励上升，SIS 能力使模型动态调整搜索深度
开放网络训练增强泛化：WebPuzzle 训练的模型在 Wiki-based 测试上也表现优异
SIS 是涌现行为：不是奖励工程的产物，额外搜索奖励仅是短暂的早期脚手架
从封闭到开放的泛化：在 ProxyQA 长文写作任务上，DeepDiver 超越 R1 蒸馏模型 9.47 分

亮点与洞察¶

问题定义精准：将信息寻求行为分为四类（证据收集、冲突解决、验证去噪、反思纠正），并论证了 Wiki-based 环境的局限性
SIS 涌现的严谨验证：通过追踪额外奖励触发频率的衰减，令人信服地证明 SIS 是涌现而非工程产物
松严奖励过渡的实用洞察：早期用宽松奖励稳定训练，后期用严格奖励突破瓶颈——这一策略对 RL 训练具有普遍参考价值
跨语言泛化：仅用中文训练却能在英语测试中表现优异，说明信息寻求能力具有语言无关性

局限与展望¶

7B 模型内部知识有限：全集性能受限于参数量导致的知识量不足，更大模型可能获得更好效果
搜索引擎依赖：性能受限于搜索引擎质量和可用性
计算成本高：DeepDiver 的搜索轮次（平均 2.5+ 轮，每轮最多 15 次查询）远高于基线，推理成本显著增加
评测依赖 LLM 评审：虽然采用了严格/宽松双模式，但 LLM-as-judge 本身存在偏差

评分¶

新颖性: ⭐⭐⭐⭐ (SIS 概念新颖，WebPuzzle 填补数据集空白)
实验充分度: ⭐⭐⭐⭐⭐ (隔离测试、消融、跨语言、跨领域泛化分析极其详尽)
写作质量: ⭐⭐⭐⭐ (结构清晰，分析逻辑严密)
价值: ⭐⭐⭐⭐⭐ (对 LLM+搜索的 RL 训练有重要指导意义)