Empowering LLM Tool Invocation with Tool-call Reward Model¶

会议: ICLR 2026
代码: OpenDFM/TRM
领域: LLM 智能体 / 工具调用强化学习
关键词: 工具调用奖励模型、过程奖励模型、强化学习、PPO/GRPO、梯度冲突

一句话总结¶

针对 LLM 工具调用中结果奖励信号粒度粗、导致梯度冲突的问题，提出 Tool-call Reward Model（TRM）——一种为每次工具调用独立打分的过程奖励模型，并设计了与 PPO/GRPO 集成的 turn-level 信用分配与优势估计策略，在搜索问答和代码数学任务上均取得持续提升。

研究背景与动机¶

领域现状：LLM 通过调用外部工具（搜索引擎、代码执行器）弥补知识陈旧和计算错误的缺陷，已成为主流 agentic 范式。强化学习（PPO、GRPO）被广泛用于增强工具使用能力。

现有痛点：几乎所有 agentic RL 方法都只使用 outcome reward——仅根据最终答案是否正确来分配奖励。这带来两个问题：(1) 信用分配粒度粗，无法区分哪次工具调用有价值；(2) 梯度冲突——若轨迹最终答案错误，其中正确的工具调用也会被惩罚，反之亦然。

核心矛盾：现有 Process Reward Model（PRM）研究主要面向数学逐步推理，工具调用场景有两大独特挑战：如何构造有效的 TRM 训练数据，以及如何在 GRPO 等算法中集成 TRM 而不引发 reward hacking（模型倾向于尽量少调用工具以规避惩罚）。

本文目标：提出专为工具调用设计的 TRM，系统研究其构建流程，并设计可与 PPO/GRPO 稳定集成的训练算法。

核心 idea：为轨迹中每次工具调用打一个二元效用分（必要性 × 质量），在 RL 训练中取代或补充结果奖励，实现 turn-level 细粒度信用分配。

方法详解¶

整体框架¶

TRM 系统分为「创建」与「应用」两个阶段：首先从前沿 LLM 蒸馏带标注的轨迹数据来训练 TRM；再将训好的 TRM 嵌入 PPO/GRPO 的奖励信号，通过 turn-level 信用分配和优势估计指导策略优化。

flowchart LR
    A[Prompt + Tool Env] --> B[DeepSeek-R1\nRollout 生成]
    B --> C[工具调用评估\nnecessity × quality]
    C --> D[TRM 训练\n二元分类头 BCE 损失]
    D --> E[TRM 打分]
    E --> F{RL 集成}
    F -->|PPO| G[turn-level 信用分配\nα·s̃ᵢ 分配到动作末 token]
    F -->|GRPO| H[turn-level 优势估计\n各 turn 独立归一化]
    G --> I[策略优化 → 更好的工具调用]
    H --> I

关键设计¶

1. 数据蒸馏：necessity × quality 双维度标注
TRM 训练数据来自 DeepSeek-R1 在工具环境中自动生成的多轮轨迹。对每次工具调用 \(a_i\)，由 LLM 再评估打两个二元分：必要性 \(s_i^{ne}\)（该调用是否对任务推进有实质贡献）和质量 \(s_i^q\)（工具参数是否合理、使用是否正确）。最终分数 \(s_i = s_i^{ne} \cdot s_i^q\)，只有两者同时满足才为 1。消融实验表明，单用质量分会导致工具调用过多引入噪声，单用必要性分则损害每次调用的精度，组合二者效果最优。

2. TRM 训练：轻量分类头替换语言建模头
TRM 以 Qwen2.5 系列为骨干，将原始语言建模头（下一 token 预测）替换为单层线性二元分类头。对每个工具调用 \(a_i\)，TRM 取观测输出 \(o_i\) 最后一个 token 的隐状态，输出预测效用概率 \(\tilde{s}_i \in [0,1]\)，以 BCE 损失训练：

\[\mathcal{L}_{BCE} = \mathbb{E}_\tau \left[ -\frac{1}{n_\tau} \sum_{i=1}^{n_\tau} \left( s_i \log \tilde{s}_i + (1-s_i)\log(1-\tilde{s}_i) \right) \right]\]

实验发现 3B 规模 TRM 在 10K 样本下即可达到稳定性能，更大的 7B 反而因数据量不足而过拟合。

3. Turn-level 信用分配（PPO）：奖励锚定到动作末 token
PPO 工作在 token 级别，TRM 奖励则定义在 turn 级别，需要跨粒度映射。具体做法：将第 \(i\) 轮工具调用的 TRM 分数 \(\tilde{s}_i\) 分配给该工具动作的最后一个 token，结果奖励分配给轨迹的最后一个 token：

\[r_j = \begin{cases} \alpha \cdot \tilde{r}_{I(j)}, & j \in E \quad (\text{工具末 token}) \\ \tilde{r}_{I(j)}, & j = L \quad (\text{答案末 token}) \\ 0, & \text{otherwise} \end{cases}\]

超参数 \(\alpha \in (0,1]\) 控制 TRM 信号权重，实验设为 0.05。

4. Turn-level 优势估计（GRPO）：规避 reward hacking
GRPO 直接使用 group-level 归一化（将一组轨迹的所有工具调用奖励放在一起统计均值方差）会导致 reward hacking——模型发现减少工具调用可以规避低分，于是倾向于"少用工具"。本文的解决方案是 turn-level 归一化：对每个 turn \(i\)，只在同组轨迹中对应 turn 的奖励之间做独立归一化（见公式 9），结果奖励同样独立归一化。实验（Figure 4）表明 turn-level 方案比 group-level 提升约 1.3 个百分点。

实验关键数据¶

主实验（搜索问答）¶

模型规模	方法	NQ	HotpotQA	2Wiki	Avg.
3B	Search-R1-PPO	36.93	32.65	32.47	32.75
3B	Search-R1-PPO-TRM	39.58	34.80	33.22	34.93
3B	Search-R1-GRPO	47.01	43.34	42.68	42.33
3B	Search-R1-GRPO-TRM	47.89	44.47	43.48	43.49
7B	Search-R1-GRPO	49.97	49.06	47.80	46.90
7B	Search-R1-GRPO-TRM	52.11	51.32	47.67	48.62

主实验（代码数学）¶

模型规模	方法	AIME24	AIME25	MATH500	Avg.
1.5B	ToRL-GRPO	25.56	19.33	75.80	43.18
1.5B	ToRL-GRPO-TRM	26.00	27.00	75.80	45.42
7B	ToRL-GRPO	35.00	21.89	83.80	52.19
7B	ToRL-GRPO-TRM	36.56	23.67	83.20	53.70

消融实验¶

配置	Avg.	说明
group-level 优势估计	41.18	GRPO 默认方式，reward hacking
turn-level 优势估计（TRM）	42.47	各 turn 独立归一化，+1.29
仅质量分	最低	工具调用过多引入噪声
仅必要性分	中等	减少调用但损失质量
必要性 × 质量	最高	平衡调用数与质量
ORM（轨迹级打分）	低于 answer-only	轨迹级噪声过大
TRM as verifier	次优	聚合分优于轨迹级但不如完整 TRM

关键发现¶

TRM 在 PPO 和 GRPO、1.5B 至 7B 模型、搜索和代码两类任务上均有稳定提升，具有高度通用性。
3B 规模 TRM 用 10K 样本训练即已足够；7B TRM 反而因过拟合性能下降。
TRM 还显著提升工具调用的跨任务泛化能力——在搜索场景训练的模型加入 TRM 后，在代码数学任务上的迁移性能显著更高。

亮点与洞察¶

梯度冲突的实质解法：outcome reward 之所以产生梯度冲突，根源在于轨迹内各步骤奖励耦合。TRM 将每次调用的效用解耦，是对症而非治标。
Reward hacking 的精准定位：group-level 归一化时工具调用奖励均值随着调用减少而上升，本文通过 turn-level 独立归一化切断这条激励路径，设计简洁有效。
10K + 3B 的工程友好性：相较于动辄百亿参数的 LLM，一个 3B TRM 在数万样本上可以达到稳定效果，实际部署成本低。
双维度标注优于单一准则：necessity 防止多余调用，quality 确保调用执行正确，缺一不可，消融结果直接验证了设计合理性。

局限与展望¶

当前 TRM 训练数据依赖 DeepSeek-R1 进行轨迹生成与标注，较强的教师模型可能不总是可得。
仅在搜索问答和代码数学两类工具上验证，对更复杂的多工具、工具链场景（如 API 调用、数据库查询）的泛化性尚待探索。
TRM 目前是离线预训练的静态模型，若策略随 RL 训练动态演化，TRM 是否需要同步更新（在线 TRM）尚未研究。
超参数 α 的最优值在 PPO（0.05）和 GRPO（0.01）之间有差异，如何自适应调节仍是开放问题。

评分¶

新颖性: ⭐⭐⭐⭐ 把 PRM 延伸到工具调用场景思路清晰，turn-level 优势估计解 reward hacking 的设计有新意，但整体框架是 PRM + RL 的自然组合
实验充分度: ⭐⭐⭐⭐ 双任务、多规模、多 RL 算法验证充分，消融细致，泛化性分析到位
写作质量: ⭐⭐⭐⭐ 问题描述清晰，图示直观，方法公式完整，可读性高
价值: ⭐⭐⭐⭐ 工具调用是 agentic LLM 的核心能力，TRM 作为即插即用模块对从业者实用价值高