Enhancing LLM-based Search Agents via Contribution Weighted Group Relative Policy Optimization¶

会议: ACL 2026
arXiv: 2604.14267
代码: GitHub
领域: 信息检索
关键词: 搜索代理, GRPO, 贡献加权, 过程监督, 信用分配

一句话总结¶

CW-GRPO 将过程监督重新定义为"优势重分配"：用 LLM 判断器评估每轮搜索的检索有用性和推理正确性，计算贡献分数来缩放基于结果的优势，实现轮级别信用分配而不引入不稳定的价值函数，在 Qwen3-8B 上超越标准 GRPO 5.0%。

研究背景与动机¶

领域现状：搜索代理（如 Search-R1、R1-Searcher）通过迭代检索外部证据来增强 LLM 的事实可靠性。训练方法分为过程监督（轮级别奖励 + PPO）和结果监督（最终答案奖励 + GRPO）。

现有痛点：过程监督需要学习价值函数做轮级别奖励估计，但中间状态多样导致估计不稳定、训练脆弱。结果监督（GRPO）训练稳定但奖励信号稀疏——对成功轨迹的所有搜索轮给相同信用，无法区分关键搜索和冗余搜索。

核心矛盾：过程监督精细但不稳定，结果监督稳定但粗粒度——需要在两者之间找到平衡点。

本文目标：在保持 GRPO 训练稳定性的同时实现轮级别信用分配。

切入角度：不直接优化过程奖励，而是用过程信号来调制（rescale）结果优势——将过程监督视为优势重分配问题。

核心 idea：LLM 判断器评估每轮的检索有用性 \(u\) 和推理正确性 \(v\) → 联合贡献分数 \(p = u \cdot v\) → 通过温度 softmax 将结果优势重分配到高贡献轮。

方法详解¶

整体框架¶

CW-GRPO 把过程监督重新表述为“优势重分配”，而不是另学一个价值函数。对每个问题先用 GRPO 的方式采样 \(G\) 条搜索轨迹，靠组内相对比较得到一条轨迹级的结果优势 \(A_i^O\)；这本来会被均匀摊到该轨迹的每一轮搜索上。CW-GRPO 在这之上插入一层调制：对成功轨迹的每一轮，用 LLM 判断器评出该轮的检索有用性与推理正确性，合成一个贡献分数，再用温度 softmax 把同一条轨迹的总优势向高贡献轮倾斜；失败轨迹则保持均匀分配。最后仍用标准的裁剪代理目标优化策略，因此训练稳定性与 GRPO 基本一致，却获得了轮级别的信用分配。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["问题输入"] --> B["GRPO 采样 G 条搜索轨迹<br/>组内相对比较得结果优势 A^O"]
    B -->|成功轨迹| C["LLM 判断器逐轮评分"]
    C --> D["联合贡献信号<br/>检索有用性 u × 推理正确性 v = p"]
    D --> E["非对称成功/失败处理（成功支）<br/>温度 softmax 把优势集中到高贡献轮"]
    B -->|失败轨迹| F["非对称成功/失败处理（失败支）<br/>均匀分配 1/(T−1)"]
    E --> G["优势保持性重分配<br/>A_i^t = A^O · c · (T−1)，轨迹均值守恒"]
    F --> G
    G --> H["裁剪代理目标更新策略"]

关键设计¶

1. 联合贡献信号（Conjunctive Contribution）：检索得好且用得对才算真进展

搜索代理的每一轮其实做了两件可能脱节的事——检索和推理。CW-GRPO 让 LLM 判断器对每轮评两个正交的二元信号：检索有用性 \(u_i^t\)（这轮是否拿到新的、任务相关的证据）和推理正确性 \(v_i^t\)（推理链是否正确解读了当前上下文）。贡献分数取两者的逻辑与 \(p_i^t = u_i^t \cdot v_i^t\)。这个“与”而非“或”是刻意的：有用检索配错误推理是在浪费好证据，正确推理配无用检索是在空转，只有两者同时成立才是朝答案推进了一步，因此只有这种轮才该被放大信用。

2. 非对称处理成功/失败轨迹：成功能归因，失败不硬归因

成功轨迹用温度控制的 softmax 把优势集中到高贡献轮：\(c_i^t = \exp(\alpha p_i^t) / \sum_{t'} \exp(\alpha p_i^{t'})\)；失败轨迹则均匀分配 \(c_i^t = 1/(T_i-1)\)。背后的判断是成功与失败的可归因性并不对称——一条轨迹成功了，多半能指出是哪几轮的好检索/好推理导致的；但失败往往源于语料根本没覆盖答案这类外部因素，而非代理某一轮决策错了。在归因模糊时强行分配会引入噪声监督，所以失败轨迹退回均匀分配，既不乱罚也保住了结果监督原有的稳定性。

3. 优势保持性重分配：只重分配信用，不改变学习信号总量

重分配后的轮级优势写成 \(A_i^t = A_i^O \cdot c_i^t \cdot (T_i-1)\)，这个形式特意保证了 \(\frac{1}{T_i-1}\sum_t A_i^t = A_i^O\)，即一条轨迹内的优势均值始终等于原始结果优势。效果是高贡献轮的梯度信号被放大、低贡献轮被抑制，但轨迹层面的总量分文不动。这样 CW-GRPO 维持了和原始 GRPO 相同的梯度量级，避免了过程信号常带来的训练不稳定，也正是它能“在 GRPO 稳定性下做精细信用分配”的关键。

训练策略¶

策略用裁剪代理目标优化 \(\mathcal{L}(\theta) = -\mathbb{E}[\min(rA, \text{clip}(r, 1-\epsilon, 1+\epsilon)A)]\)，其中 \(A\) 即上面重分配后的轮级优势。判断器的可靠性经过校准：在 97 个搜索轮的人工标注上，LLM 判断器与人类专家的共识率达 95%，支撑了用 LLM 替代 PRM 式人工过程标注的可行性。

实验关键数据¶

主实验¶

模型	方法	性能提升	说明
Qwen3-8B	CW-GRPO vs GRPO	+5.0%	多个知识密集型基准
Qwen3-1.7B	CW-GRPO vs GRPO	+6.3%	小模型收益更大
-	CW-GRPO vs 过程监督基线	一致优于	避免了价值函数不稳定

消融实验¶

配置	关键指标	说明
仅检索有用性	低于联合	单一信号不够
仅推理正确性	低于联合	单一信号不够
失败轨迹也做贡献分配	不如均匀	验证了非对称设计的必要性
不同温度 α	最优 α 在中等值	太高过度集中、太低退化为 GRPO

关键发现¶

成功轨迹中贡献高度集中在少数关键轮——这是搜索代理任务的结构性特征
小模型（1.7B）从 CW-GRPO 的收益更大（+6.3%），可能因为小模型更需要精细的信用分配来提高搜索效率
LLM 判断器与人工标注的 95% 共识率证明了用 LLM 做过程评估的可行性
失败轨迹的归因困难是一个结构性挑战——许多失败并非因为代理决策错误

亮点与洞察¶

将过程监督重定义为优势重分配是一个优雅的视角转换——不训练价值函数、不直接优化过程奖励，而是用过程信号调制结果优势
联合贡献信号（\(u \cdot v\)）的设计反映了搜索任务的核心：好的检索必须伴随正确的解读，两者缺一不可
非对称处理的哲学很深刻——"我们知道成功是因为做对了什么，但不一定知道失败是因为做错了什么"

局限与展望¶

LLM 判断器自身的评估可能有偏差，特别是对推理正确性的判断
仅在知识密集型 QA 任务上验证，对代码生成等其他代理任务的适用性待验证
温度 \(\alpha\) 是超参数，不同任务需要调整
二元贡献信号（0/1）可能过于粗糙，连续值评估可能更精细

评分¶

新颖性: ⭐⭐⭐⭐ 过程监督→优势重分配的视角转换新颖，联合贡献信号设计合理
实验充分度: ⭐⭐⭐⭐ 两个模型大小、多基准、判断器校准验证
写作质量: ⭐⭐⭐⭐⭐ 动机链清晰，方法推导流畅，公式设计优雅