DeepDiver: Adaptive Search Intensity Scaling via Open-Web Reinforcement Learning¶
会议: NeurIPS 2025
arXiv: 2505.24332
代码: 无
领域: 强化学习
关键词: 搜索强度缩放, 强化学习, 信息检索, 大语言模型, 开放网络问答
一句话总结¶
提出 DeepDiver,一个 RL 驱动的搜索推理框架,在真实开放网络环境中训练 LLM 的信息寻求能力,催生"搜索强度缩放"(SIS)涌现行为——7B 模型在知识密集任务上可媲美 671B 的 DeepSeek-R1。
研究背景与动机¶
信息寻求(information seeking)是一项核心认知能力,涉及迭代证据收集、反思推理和冲突信息解决。现有 LLM 在这方面面临以下问题:
Prompting 方法固定流程限制:ReAct、IRCoT 等方法使用预定义规则,无法适应动态复杂问题
SFT 方法过拟合训练语料:SELF-RAG 等方法内化了特定语料的推理模式,泛化性差
RL 方法仅在"干净"环境评估:R1-Searcher、DeepResearcher 等仅在 HotpotQA/Wikipedia 等结构化数据上训练评估,真实网络充满噪声和冲突信息
四种信息寻求行为未被完整覆盖: - 证据收集与补充(传统 QA 数据集主要覆盖此类) - 冲突解决(处理矛盾信息) - 验证与去噪(交叉检查事实) - 反思与纠正(重新评估推理路径)
后三种行为在真实网络搜索中至关重要,但 Wiki-based 环境无法激发。
方法详解¶
整体框架¶
DeepDiver 采用 Cold-start SFT → RL 训练 的两阶段流程,在真实搜索引擎环境中训练 LLM 的迭代检索-推理能力。
关键设计¶
1. WebPuzzle 数据集¶
一个 24K 训练 + 275 测试的开放网络 QA benchmark,覆盖 Wiki 和开放域查询:
| 数据类型 | 生成方式 | 特点 |
|---|---|---|
| Cross-Page QA | 从网页提取事实生成"反转"问题 | 需跨页推理 |
| Open Riddle | 选择实体属性进行模糊化/泛化 | 高度挑战性 |
| Wiki Riddle | 同上但基于 Wiki 来源 | 有结构化知识 |
难度标注:用 DeepSeek-R1 测试 4 次,按正确次数分 easy/medium/hard,确保 RL 训练奖励信号稳定。测试集由 5 位专家手工标注。
2. Cold-start SFT 初始化¶
使用多样数据蒸馏 DeepSeek-R1 的响应: - 2000 条 WebPuzzle 样本(跨难度) - 300 条真实用户查询 - 2200 条通用推理问题 - 1000 条用户查询 + 检索文档
3. GRPO + 迭代 RAG¶
在每轮迭代中,模型交替执行推理和搜索直到产生答案。关键设计: - Loss mask:仅对模型生成的 token 计算 GRPO 损失,检索文本不参与梯度更新 - 额外搜索奖励:当无搜索 rollout 均失败但有搜索 rollout 成功时,给搜索成功的 rollout 额外 +1.0 奖励 - 松严奖励过渡:前 80 步用宽松评分(10 分制,≥6 得 1.0),后续切换严格评分(3 轮评估,≥2/3 正面)
4. 搜索强度缩放(SIS)¶
SIS 是 DeepDiver 的核心涌现能力——模型自适应地增加搜索频率和深度以应对更复杂的问题。论文通过训练过程分析证明 SIS 是涌现行为而非奖励工程的产物:
- 额外搜索奖励的触发频率从 step 0-9 的 4.5% 骤降到 step 70-80 的 0.1%
- 搜索轮次的增长发生在 step 80-120,此时额外奖励已基本不活跃
- 模型主动利用外部工具弥补内部知识不足,无需直接激励
损失函数 / 训练策略¶
- GRPO 优势估计:\(A_i = r_i - \text{mean}(r)\)(组内相对奖励)
- 检索文本 mask:仅模型生成部分贡献梯度
- 训练数据:从 24K WebPuzzle 中精选 7K(2K SFT + 5K RL),按难度均衡混合
- 骨干模型:Qwen2.5-7B-Instruct 和 Pangu-7B-Reasoner
实验关键数据¶
主实验:与基线对比¶
| 方法 | WebPuzzle | C-SimpleQA-500 | FRAMES-zh | BamBoogle-zh |
|---|---|---|---|---|
| Qwen2.5-7B (无搜索) | 7.4 | 28.4 | 14.1 | 19.7 |
| Qwen2.5-7B (迭代RAG) | 17.0 (2.24轮) | 65.3 | 30.9 | 40.8 |
| Cold-Start-SFT | 27.9 (1.85轮) | 75.5 | 35.1 | 48.4 |
| R1-Distill | 29.8 (1.75轮) | 78.7 | 40.1 | 52.6 |
| DeepDiver-Qwen7B | 37.6 (2.51轮) | 81.9 | 44.5 | 63.4 |
| DeepSeek-R1 (迭代RAG) | 37.1 (1.48轮) | 84.8 | 65.8 | 79.3 |
7B 的 DeepDiver 在 WebPuzzle 开放域任务上超越 671B 的 DeepSeek-R1(37.6 vs 37.1)。
与 Wiki-based 方法对比(英语评测)¶
| 方法 | WebPuzzle-en | BamBoogle | FRAMES | HotpotQA |
|---|---|---|---|---|
| R1-Searcher | 13.7 (1.9轮) | 46.7 | 25.3 | 57.9 |
| DeepResearcher | 15.0 (7.5轮) | 53.9 | 33.6 | 56.6 |
| DeepDiver-Qwen | 26.1 (14.7轮) | 56.8 | 32.0 | 58.4 |
尽管仅用中文训练,DeepDiver 在英语开放域任务上大幅超越 Wiki-based 方法。
信息寻求能力隔离测试¶
去除仅靠内部知识就能回答的问题后: - DeepDiver 在所有领域超越 DeepSeek-R1,WebPuzzle 领先 5.1 分 - 7B 模型在全集上的劣势主要源于内部知识量不足,而非信息寻求能力
消融实验:奖励函数设计¶
| 策略 | WebPuzzle 变化 | FRAMES-zh 变化 |
|---|---|---|
| 持续宽松奖励 | 几乎无提升 | 下降 7 分 |
| 宽松→严格过渡 | +9 分(29.1→37.6) | 持续上升 |
关键发现¶
- 搜索强度与性能正相关:搜索轮次增加伴随训练奖励上升,SIS 能力使模型动态调整搜索深度
- 开放网络训练增强泛化:WebPuzzle 训练的模型在 Wiki-based 测试上也表现优异
- SIS 是涌现行为:不是奖励工程的产物,额外搜索奖励仅是短暂的早期脚手架
- 从封闭到开放的泛化:在 ProxyQA 长文写作任务上,DeepDiver 超越 R1 蒸馏模型 9.47 分
亮点与洞察¶
- 问题定义精准:将信息寻求行为分为四类(证据收集、冲突解决、验证去噪、反思纠正),并论证了 Wiki-based 环境的局限性
- SIS 涌现的严谨验证:通过追踪额外奖励触发频率的衰减,令人信服地证明 SIS 是涌现而非工程产物
- 松严奖励过渡的实用洞察:早期用宽松奖励稳定训练,后期用严格奖励突破瓶颈——这一策略对 RL 训练具有普遍参考价值
- 跨语言泛化:仅用中文训练却能在英语测试中表现优异,说明信息寻求能力具有语言无关性
局限与展望¶
- 7B 模型内部知识有限:全集性能受限于参数量导致的知识量不足,更大模型可能获得更好效果
- 搜索引擎依赖:性能受限于搜索引擎质量和可用性
- 计算成本高:DeepDiver 的搜索轮次(平均 2.5+ 轮,每轮最多 15 次查询)远高于基线,推理成本显著增加
- 评测依赖 LLM 评审:虽然采用了严格/宽松双模式,但 LLM-as-judge 本身存在偏差
相关工作与启发¶
- 与 DeepSeek-R1 的技术关联:同样使用 GRPO,但扩展到迭代 RAG 场景,证明 GRPO 在工具使用训练中也有效
- 与 R1-Searcher/DeepResearcher 的关键差异:使用真实开放网络而非 Wiki 环境训练,培养出更强的信息寻求能力
- SIS 的启示:类似于 test-time compute scaling 的思想,但作用于搜索维度——难题需要更多搜索,简单题则快速回答
评分¶
- 新颖性: ⭐⭐⭐⭐ (SIS 概念新颖,WebPuzzle 填补数据集空白)
- 实验充分度: ⭐⭐⭐⭐⭐ (隔离测试、消融、跨语言、跨领域泛化分析极其详尽)
- 写作质量: ⭐⭐⭐⭐ (结构清晰,分析逻辑严密)
- 价值: ⭐⭐⭐⭐⭐ (对 LLM+搜索的 RL 训练有重要指导意义)