跳转至

Native Reasoning Models: Training Language Models to Reason on Unverifiable Data

会议: ICLR2026
arXiv: 2602.11549
代码: 待确认
领域: LLM推理
关键词: 推理训练, 无验证器RL, 隐变量推理, GRPO, 奖励设计

一句话总结

提出 NRT(Native Reasoning Training)框架,将推理链视为隐变量,通过模型自身对参考答案的预测置信度作为内在奖励信号训练 LLM 推理能力,无需外部验证器或专家推理示范;在 Llama-3.1-8B 上 9 个基准平均提升 10.2 分(46.0→56.2),超越需要验证器的 RLPR +5.4 分。

研究背景与动机

领域现状:当前 LLM 推理能力提升主要靠两条路径——(a) 用人类/GPT-4 标注的推理链做 SFT(如 o1 复现),(b) 用外部验证器的 RL(RLVR),如数学题用最终答案正确性做奖励。两者在数学/编程等可验证领域表现出色。

现有痛点:大量学科任务(历史、常识、开放 QA、多跳推理)的答案不可程序化验证——没有确定性的 verifier 能判断推理过程是否正确。这类"不可验证数据"占实际应用的大多数,但现有 RLVR 方法无法处理。

核心矛盾:推理能力需要 RL 训练,RL 需要奖励信号,传统奖励来自外部验证器——但不可验证领域不存在这样的验证器。如何在没有外部奖励的情况下训练推理?

本文要解决:在仅有 (question, answer) 对、没有推理示范、没有外部验证器的情况下,如何训练 LLM 生成有效的推理链?

切入角度:将推理链 \(z\) 视为隐变量——好的推理链应该让模型对正确答案 \(y^*\) 的预测概率更高。奖励 = 模型自身在读完推理后预测答案的 token 级概率。

核心 idea:用"推理链是否帮助模型自己更好地预测答案"作为内在奖励,不依赖任何外部验证——模型既是推理者也是自己的评判者。

方法详解

整体框架

输入 (question \(x\), answer \(y^*\)) → 模型采样推理链 \(z \sim \pi_\theta(z|x)\) → 计算模型在 \(z\) 条件下预测 \(y^*\) 的 token 级概率 \(c_i = \pi_\theta(y^*_i|x,z,y^*_{<i})\) → 将概率聚合为 trace-level 奖励 \(R(z,\theta)\) → GRPO 策略梯度更新 \(\theta\)

关键设计

  1. 隐变量推理范式:

    • 功能:推理链 \(z\) 不由外部标注,而是模型自己生成并自我评估
    • 核心思路:好的推理 \(z\) 应增加 \(\pi_\theta(y^*|x,z)\),即模型读完推理后对正确答案更"有信心"
    • 设计动机:这是不依赖外部验证的唯一自洽方式——模型既是学生也是老师
  2. 加权求和奖励(Weighted Sum):

    • 功能:用 token 级概率的加权和作为奖励,权重反比于 token 的基础难度
    • 核心思路:逆概率加权 \(w_i \propto 1/c_{i,base}\) 让简单 token(如"the")权重趋近 0,难 token(如关键事实词)权重放大
    • 设计动机:标准 logP 奖励被简单 token 主导,模型学不到对困难预测的改进。-log p 加权方案在 Llama-3.1-8B 上比 logP 高 3.3 分
    • 与理论联系:-log p 加权等价于交叉熵 \(-\sum c_j \log c_{j,base}\),直接优化模型在困难 token 上的 KL 散度减小
  3. 奖励稳定化:

    • 功能:clipped reward \(R' = \max(0, R - R_{base})\) + group-wise normalization
    • 核心思路:减去基线(无推理链时的奖励)使奖励差异化;组内标准化使 GRPO 梯度稳定
    • 设计动机:RLPR 等方法存在严重的策略崩塌问题(推理链熵→0,质量→0),NRT 全程保持高熵和高质量
  4. 格式监督损失:

    • 功能:额外损失确保模型输出包含 <think>...</think> 标签包裹推理
    • 权重 0.3,防止模型跳过推理直接输出答案

损失函数 / 训练策略

\(J(\theta) = \mathbb{E}_{z \sim \pi_\theta}[R(z,\theta)]\),用 GRPO + 重要性采样优化。梯度分解为 trace policy gradient(强化整条推理链)+ token prediction gradient(加权 token 级预测更新)。训练数据 200K 样本来自 tulu-3-sft-mixture,平均响应长度 415 tokens。

实验关键数据

主实验

Llama-3.1-8B 在 9 个基准上:

方法 BBH MMLU DROP GSM8K MATH HumanEval IFEval 总体均值
SFT 38.0 59.2 36.7 29.0 17.8 74.7 58.3 46.0
RLPR* 41.2 58.7 32.5 65.0 27.8 77.8 61.3 50.8
Verifree* 35.7 58.3 33.5 54.3 19.4 76.3 59.3 48.1
NRT-GM 54.3 66.1 48.7 70.3 32.2 76.3 55.3 54.9
NRT-WS(-logp) 51.0 66.7 52.2 76.0 30.7 77.8 59.0 56.2

Llama-3.2-3B:

方法 总体均值
SFT 36.4
NRT-WS(-logp) 39.9(+3.5)

消融实验

奖励聚合方式 Llama-3.1-8B 总体
logP(对数概率) 52.9
P(概率乘积) 51.4
GM(几何均值) 54.9
AM(算术均值) 53.3
WS-1/p(逆概率加权) 53.3
WS-(-logp) 56.2

关键发现

  • 策略崩塌问题解决:RLPR 训练过程中推理链熵迅速降为 0(推理质量崩塌),NRT 全程保持高熵和高质量推理
  • 困难 token 定向提升:WS 加权方案使模型在高熵 token 上概率提升最多达 15%,而 RLPR 几乎无改善
  • 不需要可验证数据:在 GSM8K(数学,可验证)和 BBH(推理,不可验证)上同时大幅提升,证明方法不局限于特定领域
  • 推理与答案解耦:词汇分析显示模型自动学会在推理中使用 meta-cognitive 词汇("premise"、"reasoning"),同时抑制答案格式词

亮点与洞察

  • 范式创新:隐变量推理:将推理链视为隐变量、用模型自身预测置信度做奖励的想法极其优雅——不需要任何外部标注或验证器,扩展了 RL 推理训练的适用范围到所有领域
  • 困难 token 加权的理论直觉:-log p 加权让奖励聚焦在模型最不确定的关键 token 上,与课程学习和 hard example mining 的精神一致。这个简单的修改带来了 3.3 分的显著提升
  • 策略崩塌的诊断与解决:清晰展示了 RLPR 的崩塌现象(推理熵→0),并通过内在奖励设计自然避免了这一问题——因为崩塌的推理无法帮助预测答案

局限与展望

  • 奖励函数手工设计:5 种聚合方式 + 多种加权方案都是手工设定,可以探索自动学习奖励函数
  • 采样效率有限:RL 训练需要大量采样(GRPO 需要组内多条推理链),计算成本较高
  • 仅限微调阶段:未在预训练阶段验证,如果能在预训练就引入推理训练可能效果更好
  • 幻觉风险:案例研究显示模型可能在开放任务中生成不存在的程序名——内在奖励不能防止事实错误

相关工作与启发

  • vs RLPR(Reasoning via Planning with RL): RLPR 使用外部答案匹配奖励,在不可验证任务上崩塌。NRT 用内在预测置信度做奖励,全场景适用
  • vs Verifree: 前人的无验证器方法使用更简单的奖励设计,NRT 的 token 级加权方案效果更好(+8.1 on Llama-8B)
  • vs STaR/Self-Improvement: STaR 依赖正确答案筛选推理链做 SFT,NRT 用 RL 直接优化推理质量,避免了 SFT 的分布匹配问题

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 隐变量推理范式和内在奖励设计是全新视角,从根本上解决了无验证器领域的推理训练问题
  • 实验充分度: ⭐⭐⭐⭐⭐ 3 个模型 × 9 个基准 × 5 种奖励变体,训练动态分析、token 级分析、案例研究全覆盖
  • 写作质量: ⭐⭐⭐⭐⭐ 从问题定义到理论推导到实验分析层层递进,公式推导清晰
  • 价值: ⭐⭐⭐⭐⭐ 解决了当前 reasoning 训练最核心的瓶颈——将 RL 推理训练从可验证领域扩展到任意领域