Incentivizing Agentic Reasoning in LLM Judges via Tool-Integrated Reinforcement Learning¶
会议: ICLR 2026
arXiv: 2510.23038
代码: 无
领域: 模型压缩
关键词: LLM-as-a-Judge, 工具集成推理, 强化学习, 代码执行, 评估
一句话总结¶
提出 TIR-Judge,一个端到端的 RL 框架,训练 LLM 评判模型在评估过程中交替使用推理和代码执行工具,在7个公开基准上以 8B 参数超越 32B 推理奖励模型,且无需蒸馏的 TIR-Judge-Zero 可自举提升。
研究背景与动机¶
LLM评判模型(LLM-as-a-Judge)在LLM生态中日益关键——训练阶段提供偏好信号、推理阶段做 best-of-N 选择、评估阶段替代人工。但目前评判模型面临两大问题:
纯文本推理的天花板:现有推理增强的评判模型(如JudgeLRM、J1-Judge)仅依赖文本推理链,在需要精确计算或符号推理的场景下力不从心(如验证代码输出、检查指令约束)
工具使用的局限:少数尝试引入工具的方法存在(i)仅在推理时使用工具而非训练时优化,(ii)局限于特定任务/领域
核心idea:用强化学习端到端训练评判模型学会何时调用代码解释器、如何基于执行结果迭代精化推理,实现推理与工具使用的深度融合。
方法详解¶
整体框架¶
TIR-Judge 要解决的是:让评判模型不再只靠脑补文本推理来打分,而是在评判过程中边想边写代码、用执行结果来校正判断。整篇方法围绕「把工具集成推理(TIR)塞进评判任务、并用 RL 端到端训练它」展开。
具体来说,评判被建模成一条多轮 TIR 轨迹 \(s_k = \{r_1,c_1,o_1,...,r_k,c_k,o_k\}\):每一轮模型先产出推理步骤 \(r_i\),再生成一段代码 \(c_i\),工具执行后返回结果 \(o_i = \mathcal{I}(c_i)\),模型据此进入下一轮推理(最多 3 轮),直到给出最终判断。这条轨迹整体在 DAPO(GRPO 的改进版)框架下做 RL 优化,并统一支持 Pointwise(单样本打分)、Pairwise(两两比较)、Listwise(列表排序)三种评判格式。围绕这套主干,论文的三处核心贡献依次落在:喂什么数据(多样化训练数据)、用什么信号(三维度乘法奖励)、怎么冷启动(迭代自举训练)。
%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400, 'subGraphTitleMargin': {'top': 8, 'bottom': 16}}}%%
flowchart TD
D["多样化训练数据<br/>可验证域(数学/编程)+<br/>不可验证域(对话/安全)<br/>真实+合成约 26K 偏好对"] --> T
subgraph T["TIR 评判轨迹(边想边算)"]
direction TB
R["推理步骤 r_i"] --> C["生成代码 c_i"] --> O["工具执行 o_i=I(c_i)"]
O -->|"迭代 ≤3 轮"| R
end
T --> J["最终判断<br/>Pointwise/Pairwise/Listwise"]
J --> RW["三维度乘法奖励<br/>R=Rc×(0.1+0.9·[Rt∧Rf])"]
RW --> RL["DAPO 强化学习<br/>端到端更新策略"]
RL --> BOOT["迭代自举训练<br/>RL→拒绝采样→SFT→RL"]
BOOT -.->|"自我进化, 无需教师"| D
关键设计¶
1. 多样化训练数据:让模型学会「该不该用工具」
如果训练数据全是数学、编程这类可验证任务,模型会养成「凡事都写代码」的惯性;但对话、安全这类不可验证场景里硬调工具反而添乱。为此作者刻意把可验证域(数学、编程)和不可验证域(对话、安全、通用代码)混在一起训练。数据来源有两块:一是从 HelpSteer3、UltraInteract、CodeRM 等收集真实偏好对,二是用 Qwen3-8B/14B 等多个模型采样生成合成偏好对并自动验证其正确性。最终约 26K 偏好对,覆盖多域多格式——这种刻意的域混合,正是让模型在「可验证场景调工具、不可验证场景纯推理」之间学会自适应切换的前提。
2. 三维度乘法奖励:把正确性、格式、工具质量绑成一个信号
评判任务里只奖励「答对」是不够的——模型可能输出不合规范却碰巧对,或滥用工具刷轨迹。作者把奖励设计成乘法结构:
三个分量各司其职:正确性奖励 \(R_c\) 看预测是否匹配 ground truth 偏好;格式奖励 \(R_f\) 看输出是否符合结构化格式(<score>、<preference> 等标签),并且对安全/通用场景额外要求「不使用工具」才给正分;工具奖励 \(R_t\) 要求代码无执行错误且调用不超过 3 次。乘法结构的关键在于:只有「答对 + 格式对 + 工具用得对」三者兼得时才拿满分,否则即使答对也只剩 \(0.1 R_c\) 这 10% 的奖励。这比简单加权更省心——不用反复调各项权重,就能把「不规范但碰巧正确」的投机行为压下去。
3. 迭代自举训练 (TIR-Judge-Zero):不靠教师蒸馏也能自我进化
常规做法是先用强教师蒸馏冷启动再 RL,但这把性能上限绑死在教师身上。TIR-Judge-Zero 干脆去掉教师,靠 RL→拒绝采样→SFT→RL 的循环自举:
即用当前策略 \(\pi_{\theta_t}\) 做拒绝采样产出新轨迹集 \(\mathcal{T}_{t+1}\),从原始模型 \(\pi_{\theta_0}\) 重新 SFT,再接一轮 RL。拒绝采样时每个 prompt 只保留最短、工具调用最少的正确轨迹,既提效又抑制冗余调用。这套循环证明了 TIR 评判模型能脱离强教师自我进化,把对蒸馏的依赖整个拿掉。
训练策略与细节¶
骨干用 Qwen3-8B 和 Qwen3-4B。工程上做了两处稳定化处理:代码报错信息截断到最后一行,避免冗长 traceback 撑爆上下文;工具执行结果 \(o_i\) 在 loss 计算中被 mask 掉,防止模型去拟合环境返回的内容而过拟合。蒸馏版(对照 Zero 版)则用 Gemini-2.5-Flash 当教师,收集约 10K 高质量轨迹冷启动。全程在 8 张 H100 80G GPU 上训练。
实验关键数据¶
主实验(Pointwise + Pairwise)¶
| 模型 | PPE Avg | IFBench | CJBench | RWBench | RMBench | JGBench |
|---|---|---|---|---|---|---|
| Qwen3-8B Pointwise | 60.6 | 56.2 | 16.6 | 76.5 | 66.9 | 50.8 |
| Qwen3-8B Pairwise | 65.5 | 61.3 | 60.8 | 87.0 | 77.9 | 67.5 |
| Gemini-2.5-Flash Pairwise | 74.8 | 69.3 | 66.5 | 93.4 | 81.9 | 75.4 |
| TIR-Judge (下文推断) | ~70+ | ~66+ | ~63+ | ~90+ | — | — |
消融:Zero vs Distill¶
| 配置 | 规模 | 说明 |
|---|---|---|
| TIR-Judge-Zero (4B) | 4B | 纯RL自举,比蒸馏版高1.2% |
| TIR-Judge-Distill (4B) | 4B | 蒸馏冷启动后RL |
| TIR-Judge-Zero (8B) | 8B | 超越32B推理奖励模型 |
关键发现¶
- TIR-Judge 在 Pointwise 上提升最高6.4%,Pairwise 上提升最高7.7%,超越纯推理评判基线
- 8B参数的 TIR-Judge 在 PPE 上超越 32B 推理奖励模型
- TIR-Judge-Zero 在 4B 规模上反超蒸馏版1.2%,说明纯RL自举是可行且更优的策略
- Listwise 设置中达到 Claude-Opus-4 96% 的性能
亮点与洞察¶
- 将RL+工具使用从数学推理迁移到评判任务是一个natural但很有效的方向扩展
- 三维度奖励设计(正确性×格式×工具质量)的乘法结构巧妙,避免了简单加权的调参困难
- TIR-Judge-Zero 不依赖蒸馏的纯自举训练挑战了"需要强教师冷启动"的常见假设
局限与展望¶
- 在安全/通用域强制不使用工具可能过于简单,某些安全评估场景也可能受益于工具
- 多轮工具调用上限设为3可能限制了复杂评估任务的能力
- 实验主要在推理相关benchmark上表现最佳,在开放式对话评判上的优势需更多验证
相关工作与启发¶
- vs JudgeLRM/J1-Judge: 这些方法仅增强文本推理链,TIR-Judge 额外引入代码执行实现精确验证
- vs AgentRM: AgentRM 在推理时使用工具但未在训练时优化,TIR-Judge 端到端联合训练
评分¶
- 新颖性: ⭐⭐⭐⭐ TIR在评判任务的首次系统应用
- 实验充分度: ⭐⭐⭐⭐⭐ 7个benchmark、3种评判格式、Zero/Distill消融
- 写作质量: ⭐⭐⭐⭐ 框架清晰,细节充分
- 价值: ⭐⭐⭐⭐⭐ 8B模型超越32B,实用价值极高