跳转至

PRInTS: 面向长程信息检索的过程奖励建模

会议: ACL 2026
arXiv: 2511.19314
代码: https://github.com/G-JWLee/PRInTS
领域: Agent / 过程奖励建模 / 测试时扩展
关键词: 过程奖励模型, 信息检索 Agent, 信息增益, 轨迹摘要, GRPO

一句话总结

PRInTS 把"过程奖励模型(PRM)"从短数学推理搬到长程信息检索 Agent:用一个 4B 模型同时学会"按信息增益给每一步打稠密分"和"递归压缩不断膨胀的轨迹上下文",靠测试时 best-of-\(n\) 选步,就让 32B 量级 Agent 平均提升 9.3%、甚至让 30B+4B 的组合在 GAIA 上超过 671B 的 DeepSeek-V3.1。

研究背景与动机

领域现状:让 LLM Agent 用 ReAct 范式交替"推理 + 调工具"去回答需要多步检索的问题,是当前主流。提升它有两条路——要么微调 Agent 本身(需要海量数据、绑定特定模型家族、还要昂贵的在线 RL),要么训练一个与模型无关的奖励模型,在测试时给候选步骤排序、选出更好的动作。后者更轻量,而过程奖励模型(PRM)正是其中给"每一步"打分的代表。

现有痛点:现成的 PRM 都是为数学/逻辑推理设计的,搬到长程信息检索上有两个硬伤。其一是评估粒度不匹配:数学 PRM 评判的是一两句话的短推理单元,给的是"对/错"二元判断;而信息检索里"一步"是「推理 + 工具调用 + 工具返回」的完整组合,质量由多个维度决定(工具输出解读得对不对、这次检索信息量大不大、下一步计划合不合理),二元分根本刻画不了。其二是上下文爆炸:信息检索轨迹里每一步的工具返回都很长,历史会迅速膨胀,模型处理长噪声上下文时打分会变得不可靠。

核心矛盾:要给一步"打准分",既需要把这一步放进完整轨迹上下文里看(否则缺信息),又不能把越堆越长的原始历史直接喂进去(噪声会淹没判断)——信息充分性与上下文噪声之间存在直接冲突。

本文目标:训练一个统一的生成式 PRM,既能对"推理+工具"的复合步骤给出多维度的稠密分,又能在轨迹任意增长时保持评估准确。

切入角度:作者把"一步好不好"重新定义为信息增益——这一步把"最终答对"的概率提高了多少,从而把模糊的质量评判变成一个可用蒙特卡洛 rollout 估计、可用 RL 训练的标量目标;同时让同一个模型兼任"摘要器",把长轨迹递归压成定长摘要再去打分。

核心 idea:用"信息增益打分 + 递归轨迹摘要"双能力武装一个 4B 生成式 PRM,纯靠测试时选步引导,不动底层 Agent 的一根权重。

方法详解

整体框架

PRInTS 是一个模型身兼两职:既是 scorer(给候选下一步打信息增益分),又是 summarizer(把历史轨迹递归压成紧凑摘要)。整条管线分"离线造数据 + 训练"和"在线测试时引导"两段。离线阶段先用蒙特卡洛 rollout 给每一步标注信息增益分、构造"赢/输"偏好对,并为每一步生成一份递归摘要;训练阶段用 GRPO 学打分(score reward + comparison reward + 自适应权重)、用 SFT 学摘要,两种能力在同一个 PRM 里联合习得。测试时,Agent 每步先生成 \(n=4\) 个候选下一步,PRInTS 基于"当前摘要 + 最新工具返回"给每个候选生成一段 CoT 分析并输出稠密分,选最高分那一步执行,然后把新步并入摘要、进入下一轮。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["信息检索轨迹<br/>推理+工具调用+返回"] --> B["信息增益打分<br/>MC rollout 估算<br/>答对概率变化"]
    B --> C["偏好对 + 双奖励 GRPO<br/>训练 scorer"]
    A --> D["递归轨迹摘要<br/>SFT 训练 summarizer"]
    C --> E["统一 4B PRM<br/>scorer + summarizer"]
    D --> E
    E -->|测试时| F["对 n=4 候选步打分<br/>选最高信息增益步执行"]

关键设计

1. 信息增益打分:把"这一步好不好"量化成"它把答对概率提了多少"

数学 PRM 给二元对错,但信息检索里一步的好坏没有客观对错,只有"对达成最终答案有没有帮助"。作者据此把当前步 \((s_t, a_t)\) 的质量定义为信息增益——执行这一步前后"最终答对"期望概率的变化。具体用蒙特卡洛估计:从某个前缀出发跑 \(M\) 次 rollout 到出答案,统计平均准确率 \(m_t = \frac{1}{M}\sum_{j=1}^{M}\mathbb{1}(o_{T_j}^{(j)}=a^*)\),再令信息增益分

\[g_t = (m_t - m_{t-1}) \times M/2\]

缩放系数 \(M/2\) 把分数映到 \([-M/2, M/2]\)、以 0.5 为步长离散化,便于直观比较各步相对质量。\(g_t>0\) 表示这步(比如一次解决了不确定性的检索)提升了答对概率,\(g_t<0\) 表示这步(比如做了未经验证的假设、调了无关工具)反而拖累。把质量锚到这个可估、可训的标量上,是后续 RL 训练的根基。

2. 偏好对 + 双奖励 GRPO:让 PRM 既会估绝对分、又会比优劣

光有标注分还不够稳。作者在 \(M\) 次 rollout 里,先挑出能导向正确轨迹的那一步当"潜在赢家",再从剩余步里随机采一个当"对照(较差)步",组成候选偏好对;接着对这一对各自再跑 \(M\) 次 rollout 估其信息增益分,按分高分低重新打标为赢样本 \((s^+,a^+)\)、输样本 \((s^-,a^-)\)。训练时给 PRInTS(先生成 CoT 分析、再吐标量 \(\hat{g}_t\))施加两路奖励:score reward \(r_s^k = 1-\left|\frac{g^k-\hat{g}^k}{M}\right|\) 逼近真值绝对分;comparison reward \(r_c^k\)\(\mathrm{sgn}\) 强制赢样本得分高于输样本,学成对偏好。两路用自适应权重合成 \(r^k = r_s^k + w\cdot r_c^k\),其中 \(w = \frac{g^+-g^-}{M}\):分差大的对更可靠、权重更高,分差小的对很可能是标注噪声、权重压低。这样"估准绝对分"和"比对相对优劣"互补,既给细粒度反馈又抗噪。

3. 递归轨迹摘要:把爆炸式增长的上下文压成定长摘要再打分

直接拿原始长历史去打分,噪声会淹没判断。作者让同一个 PRM 兼任摘要器:每一步递归生成/更新一份紧凑摘要 \(h_t = \text{LLM}(q, h_{t-1}, o_{t-1}, s_t, a_t)\),即把"查询 + 上一份摘要 + 最新工具返回 + 当前步"压成新摘要,捕获截至当前的关键发现与计划。这个递归式让 \(h_t\) 始终是整条轨迹 \(H_t\) 的压缩形态、输入长度有界。摘要器用 SFT 在标注摘要上训练(模仿压缩),与打分能力在同一模型里联合习得——打分时喂的正是 \(h_{t-1}\) 而非原始历史,从而在轨迹任意变长时仍能稳定评估。

一个完整示例

设 Agent 在回答一个多跳问题,已检索了 6 步、原始历史很长。PRInTS 不把这 6 步原文喂进去,而是维护一份摘要 \(h_6\)("已确认 X 公司 2019 年 CEO 是甲、甲此前任职乙公司,待查乙公司成立年份")。第 7 步 Agent 生成 \(n=4\) 个候选:①再搜一次甲的履历、②直接搜乙公司成立年份、③做无依据假设直接作答、④调一个无关计算器。PRInTS 基于"\(h_6\) + 最新工具返回"对四者各生成 CoT 分析、输出稠密分:②信息增益最高(直击缺口)、①次之(冗余)、③④为负(假设/无关)。选②执行,拿到结果后更新出 \(h_7\),进入第 8 步。整条交互里输入长度始终被摘要钉在定长,而不是随步数线性膨胀。

损失函数 / 训练策略

打分能力用 GRPO 优化,单 rollout 奖励为 \(r^k = r_s^k + w\cdot r_c^k\)(公式 4–5);摘要能力用 SFT 在递归摘要标注上训练。两者按"SFT(摘要)→ GRPO(打分)"循环若干轮迭代联合训练。PRInTS 以 Qwen3-4B 初始化,标注用 Qwen3-32B 生成信息增益分与摘要;测试时取 \(n=4\)、按 best-of-\(n\) 选最高分步。整套只需 2k+ 偏好对、不需工具交互式在线 rollout,比微调 Agent 动辄 10k–100k+ 样本便宜得多。

实验关键数据

主实验

在 FRAMES、GAIA(Level 1-3)、WebWalkerQA(易-难)三个长程信息检索基准上,用 LLM-as-Judge(GPT-5 评判)的 Avg@3 衡量。PRInTS 是 4B PRM,给三类不同 Agent 都带来一致、可观的测试时增益(绝对平均准确率):

Agent 主干 Base Agent 最优 PRM 基线 PRInTS 绝对提升
Qwen3-32B(开源) 29.5 32.8(Confidence) 38.8 +9.3%
Tongyi DeepResearch-30B-A3B(专用检索 Agent) 62.9 64.2(Verbal-progress) 66.8 +3.9%
Gemini-2.5-Flash(闭源前沿,仅 GAIA) 40.0 41.5(StepWiser) 44.0 +4.0%

关键看点:在 GAIA 上 PRInTS 把 DeepResearch-30B-A3B 从 61.9% 抬到 64.4%,让"30B Agent + 4B PRM"的组合超过 20 倍大的 DeepSeek-V3.1-671B(63.1%)、并逼近 OpenAI DeepResearch(67.4%)。同数据同主干下,输出二元判断的 StepWiser 只带来 1.5% 增益(vs PRInTS 9.3%),说明粗粒度监督是瓶颈;而输出更丰富的 Verbal-progress(标量)、Web-Shepherd(清单)也只 +0.2%/+0.5%,说明"光有表达力不够,得有信息增益 + 偏好训练的稠密分"。

消融实验

在 Qwen3-32B 上、FRAMES + GAIA(L1,L2) 验证两个核心组件:

维度 配置 Avg 说明
上下文表示 原始全历史 \(H_t\) 39.5 噪声多,最差
上下文表示 最近 2 步 \(H_{-2:}\) 44.1 优于 1 步/4 步,原始历史越长越差
上下文表示 递归摘要 \(h_t\)(本文) 47.2 比全历史高 7.7%
奖励设计 仅 score \(r_s\) 44.2 缺相对偏好
奖励设计 仅 comparison \(r_c\) 缺绝对锚
奖励设计 \(r_s + r_c\) 比单项分别 +2.0% / +3.1%
奖励设计 \(r_s + w\cdot r_c\)(自适应) 再 +1.0%,抗标注噪声

关键发现

  • 摘要 > 原始历史:把全轨迹喂进去(\(H_t\),39.5)反而最差,加长历史不涨点;递归摘要(47.2)最好,证实"长历史引入噪声、压缩才利于打分"。
  • 两路奖励互补:信息增益估计(绝对分)与偏好预测(相对序)分别覆盖不同侧面,合用比单用任一项都好;自适应权重靠"分差大→权重高"过滤噪声对,再稳一截。
  • 越强的 Agent 越能体现差距:现成 PRM 在强 Agent 上增益缩水甚至不稳,PRInTS 在 DeepResearch 这种专用强 Agent 上仍能持续提升。

亮点与洞察

  • 把"步质量"重定义为信息增益:用"答对概率前后变化"这一可 MC 估计、可 RL 训练的标量,绕开了信息检索里"没有客观对错"的难题——这是把数学 PRM 思路迁到 Agent 的关键转译。
  • 一个模型身兼 scorer + summarizer:摘要不是外挂模块,而是和打分联合训练、且打分直接吃摘要,让"上下文管理"内生地服务于"准确评估"。
  • 测试时扩展的性价比:4B PRM + 2k 偏好对、无需在线工具 rollout,就把 30B Agent 推到能压 671B 的水平,给"小模型引导大任务"提供了便宜的范式。
  • 可迁移:信息增益打分 + 递归摘要这套"造数据→双奖励 GRPO→SFT 摘要"的组合,原则上能搬到任何长程、工具密集的 Agent 任务(代码、科研检索)。

局限与展望

  • 依赖 MC rollout 造数据:信息增益分要靠多次 rollout 估计,标注成本随 \(M\) 和轨迹长度上升;偏好对仍可能含噪(作者用自适应权重缓解但未根除)。
  • 训练迭代轮数留白:原文 SFT-GRPO 循环写作"重复 X 轮"(⚠️ 以原文为准,具体轮数未在正文给出),复现时需查附录。
  • 评测依赖 LLM-as-Judge:用 GPT-5 判对错是该领域惯例,但裁判模型本身的偏差会传导到所有方法的绝对数值上;不同基准难度/轮次预算不同,横向数值不宜直接比大小。
  • 改进方向:把摘要质量也纳入可学习的奖励、或让 scorer 与 Agent 在线协同更新,可能进一步压缩"标注—训练—部署"的链路。

相关工作与启发

  • vs 数学/逻辑 PRM(StepWiser、GenPRM):它们评判一两句短推理、给二元/局部分;PRInTS 评判"推理+工具"的复合步、给信息增益稠密分。同数据同主干下 StepWiser 仅 +1.5% vs PRInTS +9.3%,差距来自监督粒度。
  • vs Agent 微调(WebSailor、DeepResearch):它们直接训 Agent,需 10k–100k+ 样本、绑模型家族、还要在线 RL;PRInTS 是与模型无关的测试时引导,2k+ 偏好对即可,且与微调正交、可叠加。
  • vs 启发式打分(Confidence、Relevance、Verbal-progress):这些靠现成置信度/相关性信号,表达力或有或无但都只带边际增益;PRInTS 的稠密分由信息增益 + 偏好学习显式训练而来,能识别细微但关键的质量差异。

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 把信息增益打分 + 递归摘要统一进一个生成式 PRM,是 PRM 向长程 Agent 迁移的实质创新
  • 实验充分度: ⭐⭐⭐⭐⭐ 三类 Agent ×三基准 + 两组核心消融,且有"30B+4B 超 671B"的硬证据
  • 写作质量: ⭐⭐⭐⭐ 动机—公式—实验链条清晰,个别训练细节(迭代轮数)留在附录
  • 价值: ⭐⭐⭐⭐⭐ 给"低成本提升长程信息检索 Agent"提供了可复用、与模型无关的测试时方案