AgentV-RL: Scaling Reward Modeling with Agentic Verifier¶
会议: ACL 2026
arXiv: 2604.16004
代码: 有 (GitHub)
领域: LLM Agent / 奖励建模
关键词: Agentic Verifier, 奖励模型, Test-Time Scaling, 工具增强推理, GRPO
一句话总结¶
把奖励模型从"单轮打分"重塑为"前向+后向双 agent + 工具调用"的多轮审议流程,并通过 SFT+GRPO 把多 agent 能力蒸馏到单个 4B 模型中,使其在 BoN 选择上比 70B 量级 ORM 高 25.2%。
研究背景与动机¶
领域现状:在数学等复杂推理任务上,Test-Time Scaling(BoN 并行采样、迭代修正等顺序细化)越来越依赖奖励模型(verifier)来挑选/批判候选解。主流方案分三类:ORM(标量输出、零解释)、PRM(步骤级标量)和 GenRM(自然语言生成式判断)。
现有痛点:(1)错误传播:GenRM 多用 next-token 训练,且训练数据偏正例,遇到"看起来合理但实际错误"的解时容易被表面逻辑带跑、给出错误正判;(2)缺乏外部 grounding:纯文本 verifier 在数值计算、长链算术、知识密集任务上容易自己也算错,无法独立验证。
核心矛盾:单轮文本推理同时承担"逻辑链审查 + 数值/事实校验"两个任务,前者会被错误前提污染,后者会因 LLM 自身算术弱点失败——两者天然冲突。
本文目标:把奖励建模从"一次性看完打分"升级为"像人类做证明那样多轮、双向、工具增强地审查",并训练单个模型同时具备这种能力。
切入角度:借鉴数学证明的"充分性 + 必要性"双向检查——一个 agent 从前提推到结论查充分性,另一个 agent 从结论倒推到前提查必要性,两边都允许 Python 解释器介入计算。这两路互补且通常会暴露对方忽略的错误。
核心 idea:用"双 agent × 多轮 ReAct × 代码解释器"替代单轮 GenRM,再用"合成轨迹 + 拒绝采样 SFT + GRPO"把这套多 agent 流程蒸馏进单 LLM。
方法详解¶
整体框架¶
推理时:给定问题 \(x\) 和候选解 \(y\),verifier \(\pi_\psi\) 启动两个 agent。Forward agent 按 "Plan → Validate → Verdict" 把解拆成原子子步骤、逐步用代码核查、给出二元判定;Backward agent 用同样三段式但从最终答案出发反向检查问题约束是否都被满足。两路 verdict 聚合得到最终置信分;BoN 时按置信分挑最高那条解。训练时:先用合成数据做拒绝采样 SFT 让模型学会 ReAct + 工具,再用 GRPO 进一步释放推理潜力。
关键设计¶
-
双向 agent 验证(Forward + Backward Verifier):
- 功能:对同一解进行充分性 + 必要性互补检查,覆盖单向 verifier 容易漏掉的失败模式。
- 核心思路:Forward agent 从前提到结论遍历原子步 \(\Pi = \{v_1, \ldots, v_n\}\),检查相邻步之间的逻辑充分性;Backward agent 从答案倒推回问题陈述,验证所有题目约束是否真的被用到、有无隐性遗漏。两者共享 "Plan / Validate / Verdict" 三段提示模板。最终聚合两个 verdict 的 token logits 作为综合置信度。
- 设计动机:纯前向审查容易被"看似自洽但绕开了约束"的伪证骗过;反向检查正好揭穿这类情况,两路互补避免单一视角的盲区。
-
多轮 ReAct + 工具增强验证(Tool-augmented Multi-turn Validation):
- 功能:让 verifier 在审查每一步时可以调用 Python 解释器算数值/枚举/检验等式,弥补 LLM 自身的算术短板。
- 核心思路:Validate 阶段执行轨迹 \(\mathcal{H} = (s_0, a_0, o_0, \ldots, s_t, a_t, o_t)\),其中 \(s\) 是思考、\(a\) 是代码动作、\(o\) 是解释器返回。动作段由特殊 token 包裹,便于训练时排除观测部分梯度。一个题往往要执行 5-6 轮思考+1 次工具调用左右(见表 5)。
- 设计动机:审查 AIME 这类竞赛题时,关键卡点常是"这个等式到底成不成立",依赖工具一锤定音比让 LLM 自己脑补可靠得多。
-
AgentV-RL 训练配方(合成轨迹 SFT + GRPO):
- 功能:把多 agent 范式蒸馏进单个 4B 模型,并通过 RL 释放更深的推理。
- 核心思路:先从 Polaris / DeepScaleR / AReaL-boba 等数据采 \(k=8\) 候选解(过滤全对/全错的过简单题),让 LLM 角色扮演 forward 或 backward agent 生成验证轨迹,只保留 verdict 与 ground truth 一致的轨迹得到 \(\mathcal{D}_{\text{sft}}\) 共 15K 条。SFT 损失对所有非 observation token 做 NLL:\(\mathcal{L} = -\mathbb{E}_\tau[\sum_i \mathbb{I}[\tau_i \neq o_i] \log \pi_\theta(\tau_i \mid \mathcal{H}_{<i})]\)。随后在 50K 样本上跑 GRPO,奖励 \(r(\mathcal{H}) = 1\) 若 verdict 正确否则 \(-1\),并用 DAPO 风格动态过滤掉全 +1 / 全 -1 的零方差组。
- 设计动机:直接多 agent 部署成本高,蒸馏到单模型才能落地;SFT 灌输 ReAct 行为模式,GRPO 让模型自主探索更优的工具使用与推理路径。
损失函数 / 训练策略¶
GRPO 目标为 \(\mathcal{J}_{\mathrm{GRPO}}(\psi) = \mathbb{E}\big[\frac{1}{G}\sum_i \frac{1}{|\mathcal{H}_i|} \sum_t \min(r_{i,t}\hat{A}_{i,t}, \mathrm{clip}(r_{i,t}, 1-\epsilon_{\text{low}}, 1+\epsilon_{\text{high}})\hat{A}_{i,t}) - \beta D_{\mathrm{KL}}(\pi_\psi \| \pi_{\mathrm{ref}})\big]\),混合采样让同一模型既扮演 forward 也扮演 backward agent。为避免记忆环境观测,loss 计算时显式 mask 掉解释器执行结果。
实验关键数据¶
主实验¶
| 模型 | MATH500@128 | GSM8K@128 | Gaokao2023@128 | AIME24@128 |
|---|---|---|---|---|
| Qwen3-4B-Think (base) | 72.4 | 92.2 | 51.9 | 36.7 |
| INF-ORM-Llama3.1-70B | 55.4 | 91.5 | 44.4 | 40.0 |
| Qwen2.5-Math-PRM-7B | 70.2 | 95.4 | 54.3 | 46.7 |
| Skywork-V2-Llama-8B | 53.8 | 87.6 | 39.7 | 36.7 |
| Agentic-Verifier-Qwen3-4B | 79.0 | 93.3 | 57.4 | 53.3 |
在 MATH500@128 上比最强 ORM (Skywork-V2-Llama-8B 的 53.8) 高 25.2 个百分点;4B 体量战胜 70B ORM。
消融实验¶
| 配置 | MATH500 (BoN) | 说明 |
|---|---|---|
| Full (Forward + Backward + Tool) | 78.9 | 完整模型 |
| Forward only | ~75 | 单向充分性检查 |
| Backward only | ~74 | 单向必要性检查 |
| w/o Tool | 明显下降 | 去掉 Python 解释器后掉点 |
| Train-free | 比 base +2.6 (Gaokao) | 不训练直接 prompt 已有效 |
| SFT only | 中等 | 仅 SFT 不做 RL |
| SFT + RL (Full) | 最佳 | 完整 AgentV-RL 配方 |
关键发现¶
- 双向 agent 比单向显著更好——前向和后向暴露的错误类型互补,去掉任一路都掉点。
- 工具使用频率不算高(4B 全模型平均每轨迹仅 1.6 次 Python 调用),但去掉后掉点明显,说明关键节点工具不可替代。
- BoN 的 N 越大(32 → 64 → 128)本方法越占便宜,AIME24 上 N=128 时拉到 53.3%。
- 模型 size scaling 也很顺:0.6B → 1.7B → 4B 在 Gaokao2023 上从 43.9 → 49.4 → 57.4 单调上升。
- 在 LiveCodeBench (70.86) 和 HotpotQA (66.00) 上同样大幅领先,表明方法不止限于数学。
亮点与洞察¶
- 把"奖励模型"重新定义为"agent"——这是从 PRM/GenRM 的标量/单轮范式向 agentic reward modeling 的明显范式转换,潜力很大。
- 双向证明的思路很巧妙:把数学证明里"充分性 + 必要性"的方法论直接搬进 RM,自然解释了为什么两个 agent 应当互补而不是冗余。
- 工具使用通过 token 级 mask 排除 observation 梯度——这是训练 ReAct 风格 agent 必要的小细节,否则模型会记环境字符串而非学推理。
- 4B 模型干翻 70B ORM 这个结果暗示:RM 比 actor 更值得花 inference compute,因为 RM 的错误会成倍放大。
局限与展望¶
- 多轮 + 工具让推理 token 量从 base 的 2560 飙到 8349、单题延时从 119s 增到 323s(A100, batch 128),实时场景不友好。
- 合成轨迹的覆盖偏数学/代码,对开放域偏好(如 helpfulness、写作风格)能否迁移未验证。
- 工具仅限 Python 解释器,对需要外部知识(如真实事实校验)的任务仍可能漏检。
- 双 agent 之间没有显式协商机制,目前是独立打分再聚合,可能存在两边都漏的"系统性盲区"。
相关工作与启发¶
- vs GenRM (Zhang et al., 2025): GenRM 单轮文本判定容易被 plausible-but-wrong 解骗,本文用多轮 + 工具 + 双向解决;但代价是 3× token、3× 延时。
- vs PRM (Lightman et al., 2024 等): PRM 给步骤级标量监督但缺解释性、且训练需密集步骤标注;本文 verdict 自带可读 critique,且只需结果级监督(verdict 是否正确)。
- vs Tool-augmented RM (Li et al., 2024): 现有 tool-RM 工具调用是松耦合的;本文把工具调用嵌进 ReAct 推理链,工具结果直接进入验证决策。
评分¶
- 新颖性: ⭐⭐⭐⭐ 双向 agent + 工具 + RL 的组合在 RM 领域是新颖范式
- 实验充分度: ⭐⭐⭐⭐⭐ 4 数学基准 + LCB + HotpotQA + scaling 实验 + 充分消融
- 写作质量: ⭐⭐⭐⭐ 动机清晰,技术细节交代完整
- 价值: ⭐⭐⭐⭐ 4B > 70B 的结果对工业落地很有吸引力,开了 agentic RM 的方向