Incentivizing Agentic Reasoning in LLM Judges via Tool-Integrated Reinforcement Learning¶
会议: ICLR 2026
arXiv: 2510.23038
代码: 无
领域: 模型压缩
关键词: LLM-as-a-Judge, 工具集成推理, 强化学习, 代码执行, 评估
一句话总结¶
提出 TIR-Judge,一个端到端的 RL 框架,训练 LLM 评判模型在评估过程中交替使用推理和代码执行工具,在7个公开基准上以 8B 参数超越 32B 推理奖励模型,且无需蒸馏的 TIR-Judge-Zero 可自举提升。
研究背景与动机¶
LLM评判模型(LLM-as-a-Judge)在LLM生态中日益关键——训练阶段提供偏好信号、推理阶段做 best-of-N 选择、评估阶段替代人工。但目前评判模型面临两大问题:
纯文本推理的天花板:现有推理增强的评判模型(如JudgeLRM、J1-Judge)仅依赖文本推理链,in需要精确计算或符号推理的场景下力不从心(如验证代码输出、检查指令约束)
工具使用的局限:少数尝试引入工具的方法存在(i)仅在推理时使用工具而非训练时优化,(ii)局限于特定任务/领域
核心idea:用强化学习端到端训练评判模型学会何时调用代码解释器、如何基于执行结果迭代精化推理,实现推理与工具使用的深度融合。
方法详解¶
整体框架¶
TIR-Judge 基于多轮工具集成推理(TIR)构建评判轨迹 \(s_k = \{r_1,c_1,o_1,...,r_k,c_k,o_k\}\),其中 \(r_i\) 是推理步骤、\(c_i\) 是生成的代码、\(o_i = \mathcal{I}(c_i)\) 是执行结果。使用DAPO(GRPO改进版)进行RL训练。支持Pointwise/Pairwise/Listwise三种评判格式。
关键设计¶
-
多样化训练数据构建:
- 功能:平衡可验证域(数学、编程)和不可验证域(对话、安全、通用代码)的训练数据
- 核心思路:从HelpSteer3、UltraInteract、CodeRM等收集真实偏好对;从Qwen3-8B/14B等多个模型采样生成合成偏好对并自动验证。共约26K偏好对,覆盖多域多格式
- 设计动机:让模型学会何时调用工具有用(可验证场景)、何时纯推理即可(不可验证场景)
-
三维度奖励设计:
- 功能:引导模型同时优化正确性、格式规范和工具使用质量
- 核心思路:\(R = R_c \times (0.1 + 0.9 \cdot \mathbb{I}[R_t = 1 \wedge R_f = 1])\)
- 正确性奖励 \(R_c\):预测是否匹配ground truth偏好
- 格式奖励 \(R_f\):输出是否符合结构化格式(\<score>标签、\<preference>标签等),对安全/通用场景要求不使用工具才给正分
- 工具奖励 \(R_t\):代码无错误且不超过3次调用
- 设计动机:仅在"三者兼得"时给满分,单独的正确性只给10%奖励,避免不规范但碰巧正确的行为
-
迭代自举训练策略 (TIR-Judge-Zero):
- 功能:无需教师蒸馏,纯RL自举提升
- 核心思路:交替执行 RL→拒绝采样→SFT→RL 循环:\(\mathcal{T}_{t+1} \leftarrow \text{RS}(\pi_{\theta_t}), \pi_{\theta_{t+1}} \leftarrow \text{SFT}(\pi_{\theta_0}, \mathcal{T}_{t+1}), \pi_{\theta_{t+1}} \leftarrow \text{RL}(\pi_{\theta_{t+1}})\)。每个prompt只保留最短/工具调用最少的正确轨迹以提高效率
- 设计动机:证明TIR评判模型可不依赖蒸馏自我进化,降低对强教师模型的依赖
其他训练细节¶
- 骨干模型Qwen3-8B和Qwen3-4B;错误信息截断到最后一行防止上下文过长;执行结果在loss计算中被mask防止过拟合
- 蒸馏版使用 Gemini-2.5-Flash 作教师,收集约10K高质量轨迹
- 8张H100 80G GPU训练
实验关键数据¶
主实验(Pointwise + Pairwise)¶
| 模型 | PPE Avg | IFBench | CJBench | RWBench | RMBench | JGBench |
|---|---|---|---|---|---|---|
| Qwen3-8B Pointwise | 60.6 | 56.2 | 16.6 | 76.5 | 66.9 | 50.8 |
| Qwen3-8B Pairwise | 65.5 | 61.3 | 60.8 | 87.0 | 77.9 | 67.5 |
| Gemini-2.5-Flash Pairwise | 74.8 | 69.3 | 66.5 | 93.4 | 81.9 | 75.4 |
| TIR-Judge (下文推断) | ~70+ | ~66+ | ~63+ | ~90+ | — | — |
消融:Zero vs Distill¶
| 配置 | 规模 | 说明 |
|---|---|---|
| TIR-Judge-Zero (4B) | 4B | 纯RL自举,比蒸馏版高1.2% |
| TIR-Judge-Distill (4B) | 4B | 蒸馏冷启动后RL |
| TIR-Judge-Zero (8B) | 8B | 超越32B推理奖励模型 |
关键发现¶
- TIR-Judge 在 Pointwise 上提升最高6.4%,Pairwise 上提升最高7.7%,超越纯推理评判基线
- 8B参数的 TIR-Judge 在 PPE 上超越 32B 推理奖励模型
- TIR-Judge-Zero 在 4B 规模上反超蒸馏版1.2%,说明纯RL自举是可行且更优的策略
- Listwise 设置中达到 Claude-Opus-4 96% 的性能
亮点与洞察¶
- 将RL+工具使用从数学推理迁移到评判任务是一个natural但很有效的方向扩展
- 三维度奖励设计(正确性×格式×工具质量)的乘法结构巧妙,避免了简单加权的调参困难
- TIR-Judge-Zero 不依赖蒸馏的纯自举训练挑战了"需要强教师冷启动"的常见假设
局限与展望¶
- 在安全/通用域强制不使用工具可能过于简单,某些安全评估场景也可能受益于工具
- 多轮工具调用上限设为3可能限制了复杂评估任务的能力
- 实验主要在推理相关benchmark上表现最佳,在开放式对话评判上的优势需更多验证
相关工作与启发¶
- vs JudgeLRM/J1-Judge: 这些方法仅增强文本推理链,TIR-Judge 额外引入代码执行实现精确验证
- vs AgentRM: AgentRM 在推理时使用工具但未在训练时优化,TIR-Judge 端到端联合训练
评分¶
- 新颖性: ⭐⭐⭐⭐ TIR在评判任务的首次系统应用
- 实验充分度: ⭐⭐⭐⭐⭐ 7个benchmark、3种评判格式、Zero/Distill消融
- 写作质量: ⭐⭐⭐⭐ 框架清晰,细节充分
- 价值: ⭐⭐⭐⭐⭐ 8B模型超越32B,实用价值极高