Nemotron-Research-Tool-N1: Exploring Tool-Using Language Models with Reinforced Reasoning¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=yiE16lWzDj
代码: 已开源（NVIDIA）
领域: LLM Agent / 工具调用 / 强化学习
关键词: 工具调用, 规则化强化学习, GRPO, 推理, 二元奖励, BFCL

一句话总结¶

用一个只看「格式是否合规 + 工具调用是否精确匹配」的二元奖励做 R1 风格 GRPO 训练，无需任何蒸馏推理轨迹，就把 Qwen2.5-7B/14B 训成超过 GPT-4o 的工具调用推理模型。

研究背景与动机¶

领域现状：让 LLM 调用外部工具（搜索、Python 解释器、API）已是扩展模型能力的主流路线。主流做法是用更强的模型合成大量工具调用轨迹，再对学生模型做监督微调（SFT）。

现有痛点：合成数据往往只标注「该调哪个工具」这一动作步，缺少显式的推理过程；即便有人蒸馏出推理轨迹再 SFT，学生模型也只是模仿表层 pattern，产生「伪推理」（pseudo reasoning）——记住了轨迹却没内化决策逻辑，导致泛化能力受限。更糟的是 SFT 走 next-token 精确匹配，把参数顺序不同但语义等价的工具调用也当成错误，强迫模型做僵硬的字符串级模仿。

核心矛盾：工具调用需要的是「功能正确」而非「字符级一致」，而 SFT 的监督信号既贵（要蒸馏推理轨迹）又僵（强制 token 对齐），二者根本错位。

本文目标：回答两个问题——规则化 RL 能否有效训练工具调用模型？这套 RL 流水线该怎么设计？

核心 idea：用二元规则奖励替代 SFT 监督——奖励只评估推理格式合规性和工具调用的精确匹配（容许参数乱序），不监督任何中间推理轨迹，让模型在 GRPO 下自主习得推理策略。轻量监督 + 结构灵活正是它优于 SFT 的根源。

方法详解¶

整体框架¶

从标准 SFT 工具调用数据（用户 query + 候选工具）出发，让模型按固定模板先在 <think> 里推理、再在 <tool_call> 里输出调用；rollout 后用一个二元奖励函数打分（格式对且工具调用精确匹配才给 1，否则给 0），用 GRPO 做组内相对优势的策略优化。整条管线不需要任何带推理标注的轨迹。

flowchart LR
    A[用户Query + 候选工具] --> B[Thinking模板提示]
    B --> C[策略模型 π 采样 N 个响应<br/>think推理 + tool_call动作]
    C --> D[二元规则奖励<br/>格式✓ ∧ 工具精确匹配✓ → 1, 否则 0]
    D --> E[GRPO 组内相对优势 + KL约束]
    E --> C
    F[参考模型] -.KL.-> E

关键设计¶

1. 二元规则奖励：只奖励「完全正确」，反而最稳。 奖励函数 \(r(c_t, O_t)\in\{0,1\}\) 只在两个条件同时满足时给 1：格式正确（输出同时被 <think></think> 和 <tool_call></tool_call> 正确包裹）且工具调用精确匹配（预测的工具名与全部参数键值对与 ground-truth 完全一致）。形式化为 \(r=\mathbb{1}[\text{FormatCorrect}(O_t)\wedge \text{ToolCallMatch}(a_t,a_t^*)]\)。这种「全对才给分」的设计看似严苛，却比给部分分（0.2 给格式、再 0.2 给工具名）的细粒度奖励效果更好，作者归因于细粒度奖励容易诱发 reward hacking——模型只学会迎合格式或工具名等表层线索而不保证整体执行正确。消融里二元奖励在更真实的 Live 子集上以 80.38% vs 76.61% 明显胜出。

2. 字典级匹配替代字符级对齐：把僵硬的 token 监督松绑成功能正确性。 工具调用输出被解析成字典，与 ground-truth 做结构化精确匹配，只校验工具名是否对、必需参数是否齐全且键值对应。相比 SFT 的 next-token 精确预测，这套字典匹配天然容许参数顺序变化而不惩罚，逼模型关注「调用语义是否正确」而非「token 序列是否记得住」，这正是它在 OOD 输入上泛化更好的机制来源。

3. 显式推理格式约束：先想后调，逼出内生推理。 Thinking 模板强制模型把推理放进 <think> 标签、把工具调用放进 <tool_call> 标签，且二者必须在同一条回复里。这个结构约束阻止模型「抄近路直接给答案」，鼓励它在调用前显式推理。消融证明这一约束至关重要：在二元奖励下去掉推理格式要求，Live 子集性能从 80.38% 直接掉到 76.24%。模板本身刻意保持轻量，避免过度僵硬的格式规则导致对特定 prompt pattern 过拟合，也便于训练后的模型接入 ReAct 等更复杂的提示策略。

4. GRPO 组内相对优势优化：免价值网络的稳定 RL。 对每个输入采样 \(N\) 个候选响应得到奖励集 \(\{r_1,...,r_N\}\)，用组内标准化计算优势 \(A_i = (r_i - \text{mean})/\text{std}\)，再以 PPO 式裁剪目标加 KL 正则做更新：\(L_{\text{GRPO}}=\mathbb{E}[\min(\rho_i A_i, \text{clip}(\rho_i,1-\epsilon,1+\epsilon)A_i) - \beta\,\text{KL}(\pi_\theta\|\pi_{\text{old}})]\)。无需单独的价值网络，二元奖励配合组内相对比较即可给出稳定的学习信号。数据上统一清洗 xLAM 与 ToolACE 子集，过滤掉调用了候选列表外工具、JSON 解析失败的样本，多轮轨迹按单步切片成「当前目标调用 + 前序上下文」的单步预测实例。

实验关键数据¶

骨干为 Qwen2.5-7B/14B-Instruct，用 Verl 训练（batch 1024，lr 1e-6，温度 0.7，熵系数 0，KL 系数 1e-3，4 节点 × 8×H100）。

主实验（BFCL Overall 准确率）¶

模型	Non-live	Live	Overall
GPT-4o	88.10	79.83	83.97
GPT-4o-mini	86.77	76.50	81.64
Gemini-2.0-Flash	84.48	81.39	82.94
DeepSeek-R1	87.35	74.41	80.88
Hammer2.1-7B (FC)	88.65	75.11	81.88
ToolACE-8B (FC)	87.54	78.59	82.57
xLAM-2-70b-fc-r	88.44	72.95	80.70
Tool-N1-7B	89.25	80.38	84.82
Tool-N1-14B	90.52	81.42	85.97

Tool-N1-7B 仅 7B 就超过 GPT-4o（+0.85%）和专用模型 Hammer2.1-7B（+2.97%）；Tool-N1-14B 比 GPT-4o 高约 2%。另在 API-Bank（7B 81.28 vs GPT-4o 77.16）和 ACEBench（14B 87.00 vs GPT-4o 87.00、7B 较基座 +30%）上同样大幅领先。

消融实验¶

训练配方（5,518 条 DeepSeek-R1 蒸馏轨迹，等数据预算）

配方	Non-Live	Live	Avg
No-Reason SFT (100%)	86.40	76.54	81.47
Reason-SFT (100%)	87.54	77.87	82.71
Reason-SFT+RL (50/50)	88.19	78.16	83.17
RL (100%)	88.23	78.24	83.24

奖励设计（Tool-N1-7B）

奖励方案	Non-Live	Live	Avg
细粒度（格式部分分）	87.83	79.64	83.74
细粒度（+函数名部分分）	88.54	76.61	82.58
二元 w/o 推理格式	87.63	76.24	81.94
二元 w/ 推理格式	89.25	80.38	84.82

关键发现¶

Finding 1：R1 风格训练随模型规模放大收益越大（0.5B/1.5B 几乎无提升，7B/14B 大幅增益），且跨骨干泛化好，同规模 Qwen 优于 LLaMA（推理底子更强）。
Finding 2：常被奉为最佳实践的「SFT-then-RL」在工具调用上并不优于纯 RL（83.17% vs 83.24%），SFT 甚至可能拖累——印证 SFT 易诱发伪推理。
Finding 3：二元奖励 > 细粒度奖励（尤其真实输入），且强制结构化推理至关重要（去掉掉 4 个点）。
训练中响应长度并未像其他 R1 工作那样持续增长——更长推理链未必带来更好工具调用，存在一个「够用即可」的长度。

亮点与洞察¶

「少即是多」的奖励哲学：最简单的 0/1 二元奖励反而最抗 reward hacking，给部分分会让模型学偏到表层线索，这对所有想做规则化 RL 的人是反直觉但实用的教训。
挑战 SFT-then-RL 教条：在工具调用这一可验证场景下，纯 RL 直接超过「先蒸馏推理再 SFT 再 RL」，质疑了跨领域照搬的训练范式假设。
把 SFT 数据变可验证信号：核心贡献是把已有的标准工具调用数据（无需推理标注）直接转成完全可验证的 RL 训练信号，几乎零额外标注成本。
字典匹配的工程巧思：用结构化字典匹配松绑参数顺序，既保证功能正确又给模型泛化空间，比字符串匹配优雅。

局限与展望¶

仅限单轮 / 单步评测：BFCL/API-Bank/ACEBench 都排除了多轮场景，多轮工具调用（长程依赖、错误恢复）下规则奖励是否仍奏效未验证。
依赖可精确匹配的 ground-truth：二元奖励要求有标准答案做字典匹配，对开放式 / 无唯一正确调用的任务难以直接套用。
骨干依赖性强：方法对 Qwen 的推理底子高度依赖，LLaMA 上明显逊色，说明 RL 更多是「激发」而非「凭空赋予」推理能力。
小模型几乎无收益：0.5B/1.5B 提升有限，方法的红利集中在中大模型。

评分¶

新颖性: ⭐⭐⭐⭐ — 把规则化 RL 系统迁移到工具调用并非全新范式，但「二元奖励最优 + SFT-then-RL 未必更好」的系统性结论有真实价值。
实验充分度: ⭐⭐⭐⭐⭐ — 三大 benchmark + 训练配方/奖励/数据组成/scaling/骨干多维消融，Findings 清晰，证据扎实。
写作质量: ⭐⭐⭐⭐ — 动机—方法—发现逻辑顺畅，图表配合好；少量笔误但不影响理解。
价值: ⭐⭐⭐⭐⭐ — 7B 超 GPT-4o 且完全开源、recipe 透明，对工业界训练工具调用模型有直接可复制的指导意义。