跳转至

NFT: Bridging Supervised Learning and Reinforcement Learning in Math Reasoning

会议: ICLR 2026
arXiv: https://openreview.net/forum?id=ujBrsQm6Zu
代码: https://research.nvidia.com/labs/dir/Negative-aware-Fine-Tuning
领域: LLM 推理 / 后训练算法
关键词: 数学推理, 负样本利用, 监督学习, 强化学习, GRPO, 隐式策略

一句话总结

NFT(Negative-aware Fine-Tuning)证明监督学习也能做"验证驱动"的自我提升:通过给负样本构造一个由目标正策略隐式参数化的负策略,把所有自生成答案(对的和错的)统一进最大似然训练,性能追平甚至超过 GRPO/DAPO,并在严格 on-policy 下与 GRPO 梯度完全等价。

研究背景与动机

  • 领域现状:LLM 数学推理近年的飞跃来自从"模仿"到"自我提升"的范式切换——只需题目 + 二元验证器(判对错)即可训练,不再依赖人工参考答案。这一范式几乎被默认是强化学习(RL)的专属:PPO、GRPO 天生为最大化奖励信号设计,二元正确性正好当奖励用。
  • 现有痛点:监督学习(SL)一侧最简单的 Rejection Fine-Tuning(RFT)只把验证器判对的正样本收集起来再做 SFT,直接丢掉所有负样本。这让模型只会"强化已经做对的",无法"从错误中反思"——而后者被普遍认为是通往通用智能的关键能力,也是 SL 落后于 RL 的核心原因。
  • 核心矛盾:主流观点(Chu et al. 2025)认为 SL 天生只能记忆正样本,无法从负反馈学习,因此自我反思式提升是 RL 的独有优势。但 RL 与 SL 真的有本质鸿沟吗,还是只是 SL 一直没找到用负样本的方法?
  • 本文目标:在监督学习范式内实现"利用负反馈的自我提升",并从理论上厘清 SL 与 RL 在二元反馈学习系统中的真实关系。
  • 核心 idea【隐式负策略】 不丢弃负样本,而是给负样本数据构造一个隐式负策略 \(\pi_\theta^-\),它与我们真正想优化的正策略 \(\pi_\theta^+\) 通过老策略 \(\pi_{old}\) 紧密耦合——于是"在负样本上做最大似然训练负策略"等价于"直接优化正策略",所有生成都能用,全程只需维护单个模型。

方法详解

整体框架

NFT 把一次在线迭代拆成两步:数据收集——LLM 对每道题采样 \(K\) 个答案,验证器打二元标签 \(r\in\{0,1\}\),分成正子集 \(D^+\) 与负子集 \(D^-\)策略优化——对正样本像 RFT 一样做监督最大似然,对负样本则通过隐式负策略反推回正策略,两路损失合一后用最大似然统一优化目标 LLM \(\pi_\theta^+\)

flowchart LR
    Q[数学题 q] --> G[LLM π 采样 K 个答案]
    G --> V{二元验证器 r}
    V -->|r=1| DP[正样本 D+]
    V -->|r=0| DN[负样本 D-]
    DP --> P1["正路: 直接最大化 log π_θ+(a|q)"]
    DN --> P2["负路: 用隐式负策略 π_θ-<br/>反推优化 π_θ+"]
    P1 --> OPT[统一最大似然损失 L_NFT]
    P2 --> OPT
    OPT --> U[更新 π_θ+ → 下一轮 π]

关键设计

1. 策略分裂恒等式:让正负策略相互锁定。 NFT 的全部根基是一条由贝叶斯规则推出的耦合关系。把目标正策略写成 \(\pi^+(a|q)=\pi(a|q,r{=}1)\)、负策略写成 \(\pi^-(a|q)=\pi(a|q,r{=}0)\),二者与老策略满足线性组合 \(r_q\,\pi^+(a|q)+(1-r_q)\,\pi^-(a|q)=\pi_{old}(a|q)\),其中 \(r_q=p(r{=}1|q)\) 是模型在该题上的正确率,实践中用 \(\hat r_q=\text{mean}\{r_{1:K}\}\) 估计。这个恒等式意味着:一旦 \(\pi_{old}\)\(r_q\) 已知,"塑造负策略"就等于"反向塑造正策略",为从负样本反推正策略提供了数学许可。

2. 隐式负策略:把负样本训练重写成正策略优化。 直接训练负策略没意义,关键是用上面的恒等式把 \(\pi_\theta^-\) 重参数化为目标正策略 \(\pi_\theta^+\) 的函数:\(\pi_\theta^-(a|q):=\dfrac{\pi_{old}(a|q)-r_q\,\pi_\theta^+(a|q)}{1-r_q}\)。于是在负样本 \(D^-\) 上对 \(\pi_\theta^-\) 做最大似然 \(\max_\theta \mathbb{E}_{\pi^-}[\log\pi_\theta^-(a|q)]\),根据定理 3.1,在无限数据/容量下最优解恰好满足 \(\pi_\theta^{+*}=\pi^+\)——即训练隐式负策略直接收敛到我们想要的正策略。这是 NFT 区别于 RFT 的本质:"丢弃负样本"变成了"负样本也在优化同一个正策略"。

3. 统一最大似然损失 + token 级稳定化。 合并正负两路得到实用目标:对正样本 \(r=1\) 最大化似然比 \(R_\theta^t(q,a)=\pi_\theta^+(a_t|q,a_{<t})/\pi_{old}(a_t|q,a_{<t})\) 的对数,对负样本 \(r=0\) 最大化隐式负似然比 \(\log\frac{1-\hat r_q R_\theta^t}{1-\hat r_q}\)。论文给出实践版本: $\(L_{NFT}=-\sum_{q,a,r}\omega(q)\sum_t\Big[r\log R_\theta^t+(1-r)\log\,\text{maxv}\big(\tfrac{1-\hat r_q R_\theta^t}{1-\hat r_q},\,\epsilon\big)\Big]\)$ 三个工程要点缺一不可:token 级损失把每个 token 当独立单元求和,避免序列似然随长度积累导致的高方差与数值不稳;负似然比截断——负路对数的自变量必须为正,当 \(R_\theta^t\) 未优化时可能为负引发崩溃,故强制下界 \(\epsilon>0\) 并用直通梯度(straight-through)保留梯度流;难题加权 \(\omega(q)\) 给低正确率的难题更高权重,既聚焦信息量大的样本,又正好让 NFT 对齐 GRPO 系列。

4. 与 GRPO 的等价性:揭穿 SL/RL 的鸿沟。 论文对比 NFT 与 GRPO 的损失梯度(命题 4.1),发现 GRPO 那个被当作经验技巧的"组内优势归一化"\(\hat A_q\) 其实已隐含在 NFT 损失里——取 \(\omega(q)=\sqrt{(1-\hat r_q)/\hat r_q}\) 时正负优势恰为 \(A_q^+=\sqrt{(1-\hat r_q)/\hat r_q}\)\(A_q^-=-\sqrt{\hat r_q/(1-\hat r_q)}\),与 GRPO 一致。命题 4.2 进一步证明在严格 on-policy(\(R_\theta^t=1\))下二者梯度完全相等;唯一差异在 off-policy 的梯度截断策略:GRPO 在偏离老策略时直接把梯度清零,NFT 则用更"软"的衰减。调整 \(\omega(q)=1-\hat r_q\) 还能让 NFT 对齐 Dr. GRPO。这从根上说明 SL 与 RL 在二元反馈系统中是同一枚硬币的两面。

实验关键数据

设置:在 Qwen2.5-Math-7B 与 Qwen2.5-32B 上做在线微调,数据集 DAPO-Math-17k,约 5000 梯度步、batch 512、温度 1.0;在 AIME24/25、AMC23、MATH500、OlympiadBench、Minerva Math 六个基准上评测平均准确率。

主实验表格(7B / 32B 平均准确率)

模型 / 算法 AIME24 MATH500 AIME25 AMC23 Olympiad Minerva Average
Qwen2.5-Math-7B(基座) 13.3 69.0 5.5 45.8 34.7 21.3 31.6
+ DPO 29.8 79.8 13.8 83.2 48.0 39.0 48.9
+ GRPO 30.2 80.4 17.1 79.5 51.8 38.2 49.5
+ Dr. GRPO 31.8 83.4 15.7 80.2 49.6 38.2 49.8
+ DAPO 33.1 81.6 18.7 85.0 49.9 39.3 51.2
+ RFT(SL 基线) 33.7 79.8 13.4 79.7 44.3 38.6 48.3
+ NFT(本文) 32.0 83.2 18.3 88.5 47.3 40.8 51.7
Qwen2.5-32B(基座) 4.1 68.6 1.0 45.0 31.1 27.9 29.6
+ DAPO 44.1 89.2 33.4 90.9 54.1 47.5 59.9
+ RFT 29.9 86.2 19.1 92.4 45.3 44.1 52.8
+ NFT(本文) 37.8 88.4 31.5 93.8 55.0 48.9 59.2

7B 上 NFT 平均 51.7 反超 DAPO(51.2)与所有 RL 算法;32B 上 NFT 59.2 几乎追平 DAPO 59.9,远超同为 SL 的 RFT(52.8)。

消融实验表格

消融项 设置对比 结论
难题加权 \(\omega(q)\) 常数 1 / \(1-\hat r_q\) / \(\sqrt{(1-\hat r_q)/\hat r_q}\) 后两者(对齐 Dr.GRPO/GRPO)表现相近且都优于常数加权
负似然比截断 \(\epsilon\) 0.1 → 4.0 \(\epsilon\to 0\) 过度惩罚错误反而掉点,默认 \(\epsilon=1.0\) 最稳
正/负数据贡献(32B) RFT 正样本 vs NFT 负样本 正样本贡献约 80% 增益,负样本贡献剩余 20%

关键发现

  • 负反馈带来探索与提升:NFT 持续显著超过 RFT;RFT 训练中熵单调下降,而 NFT/DAPO 鼓励熵上升,意味着更强探索,可能是 NFT 优于 RFT 的原因。
  • 模型越大负反馈越重要:32B 上 RFT 与 NFT 的差距比 7B 拉得更快,呼应 DeepSeek-R1 观察——大模型已记忆充分,"从错误中反思"成为新瓶颈。
  • on-policy 下 NFT≈GRPO:训练曲线收敛速度与终点和 DAPO 持平,印证理论等价性。

亮点与洞察

  • 概念去魅:把"自我反思是 RL 专属"这一流行论断证伪——只要会用负样本,纯 SL 也能做验证驱动的自我提升。
  • 理论桥梁:首次给出 SL(NFT)与 RL(GRPO)在严格 on-policy 下梯度等价的证明,并解释了 GRPO 组归一化为何"碰巧"有效——它其实隐含在最大似然目标里。
  • 工程极简:全程单模型、无需 critic/参考模型,老策略似然在生成时即可预计算,内存开销与 RFT 相当却拿到 RL 级性能。
  • 可扩展性:损失天然支持连续奖励 \(r\in[0,1]\),收敛性质不变,不局限于二元验证。

局限与展望

  • 实验集中在数学推理 + Qwen 系列,对代码、通用推理、其他模型族的迁移性未验证。
  • 负样本只贡献约 20% 增益,"如何更充分地利用负反馈"仍是开放问题——当前隐式负策略可能没榨干负样本的价值。
  • off-policy 下 NFT 与 GRPO 的软/硬截断差异对最终性能影响缺乏更细致的实验拆解。
  • \(\hat r_q\)\(K\) 个采样估计,当 \(K\) 小或题目极难/极易(被 prompt filtering 过滤)时估计噪声对训练稳定性的影响未充分讨论。

相关工作与启发

  • RLVR 谱系:相比依赖奖励模型模拟人类反馈的传统 RLHF,RLVR(GRPO、DAPO、Dr. GRPO)转向 ground-truth 验证器提供可靠二元监督;NFT 把这条线"翻译"回 SL 侧。
  • 隐式模型参数化:用策略网络隐式定义另一个模型以实现直接优化,与 DPO 的隐式奖励模型、视觉生成里的隐式条件/残差模型一脉相承,是 NFT 隐式负策略的思想来源。
  • 启发:当一类方法(RL)被认为有"独家能力"时,往往不是范式本质差异,而是另一范式(SL)缺了某个关键机制(这里是负样本利用);找到那个缺失机制即可统一两者,这种"梯度对齐式"分析值得推广到偏好学习、对齐等其他场景。

评分

  • 新颖性: ⭐⭐⭐⭐⭐ — 隐式负策略 + SL/RL 梯度等价证明是真正打通两个范式的原创贡献,概念冲击力强。
  • 实验充分度: ⭐⭐⭐⭐ — 7B/32B 双规模、多基准、多随机种子、完整消融,扎实;但局限于数学 + Qwen,跨域验证不足。
  • 写作质量: ⭐⭐⭐⭐⭐ — 从恒等式到隐式策略到等价性层层递进,图 1 谱系图与图 4 梯度对比把抽象理论讲得很清楚。
  • 价值: ⭐⭐⭐⭐⭐ — 既给出可落地的单模型高性能后训练算法,又在理论上澄清了 SL/RL 之争,对整个 LLM 后训练社区有指导意义。