Native Reasoning Models: Training Language Models to Reason on Unverifiable Data¶
会议: ICLR2026
arXiv: 2602.11549
代码: 待确认
领域: LLM推理
关键词: 推理训练, 无验证器RL, 隐变量推理, GRPO, 奖励设计
一句话总结¶
提出 NRT(Native Reasoning Training)框架,将推理链视为隐变量,通过模型自身对参考答案的预测置信度作为内在奖励信号训练 LLM 推理能力,无需外部验证器或专家推理示范;在 Llama-3.1-8B 上 9 个基准平均提升 10.2 分(46.0→56.2),超越需要验证器的 RLPR +5.4 分。
研究背景与动机¶
领域现状:当前 LLM 推理能力提升主要靠两条路径——(a) 用人类/GPT-4 标注的推理链做 SFT(如 o1 复现),(b) 用外部验证器的 RL(RLVR),如数学题用最终答案正确性做奖励。两者在数学/编程等可验证领域表现出色。
现有痛点:大量学科任务(历史、常识、开放 QA、多跳推理)的答案不可程序化验证——没有确定性的 verifier 能判断推理过程是否正确。这类"不可验证数据"占实际应用的大多数,但现有 RLVR 方法无法处理。
核心矛盾:推理能力需要 RL 训练,RL 需要奖励信号,传统奖励来自外部验证器——但不可验证领域不存在这样的验证器。如何在没有外部奖励的情况下训练推理?
本文要解决:在仅有 (question, answer) 对、没有推理示范、没有外部验证器的情况下,如何训练 LLM 生成有效的推理链?
切入角度:将推理链 \(z\) 视为隐变量——好的推理链应该让模型对正确答案 \(y^*\) 的预测概率更高。奖励 = 模型自身在读完推理后预测答案的 token 级概率。
核心 idea:用"推理链是否帮助模型自己更好地预测答案"作为内在奖励,不依赖任何外部验证——模型既是推理者也是自己的评判者。
方法详解¶
整体框架¶
NRT 要回答的是:手上只有 (question \(x\), answer \(y^*\)) 对、既没有推理示范也没有外部验证器时,怎么训练模型生成有用的推理链。它的做法是让模型自己当裁判。对每个问题,模型先采样一组推理链 \(z \sim \pi_\theta(z|x)\),然后在读完推理后逐 token 地去预测参考答案,得到 token 级概率 \(c_i = \pi_\theta(y^*_i \mid x, z, y^*_{<i})\)。这些概率经一个加权聚合函数压成 trace 级奖励 \(R(z,\theta)\)——推理链越能抬高难 token 的预测概率、奖励越高——再经减基线 + 组内归一化变成稳定的优势 \(A_k\),最后用 GRPO 更新 \(\theta\);训练时另挂一个轻量的格式监督损失,逼模型把推理真写进 <think> 标签里而不是跳步直接报答案。整个回路里没有任何外部信号,奖励完全来自模型自身的预测置信度。
%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
A["问答对 (x, y*)<br/>无推理示范、无验证器"] --> B["隐变量推理范式<br/>采样一组推理链 z ~ π(z|x)"]
B --> C["读完 z 逐 token 预测答案<br/>得 token 概率 c_i"]
C --> D["加权求和奖励<br/>按 -log p 给难 token 加权<br/>聚合成 trace 奖励 R(z,θ)"]
D --> E["奖励稳定化<br/>减空推理基线 + 组内归一化<br/>得优势 A_k"]
E --> F["GRPO 更新 θ<br/>trace 策略梯度 + token 预测梯度"]
G["格式监督损失<br/>逼推理写进 think 标签"] --> F
F -->|下一轮采样| B
关键设计¶
1. 隐变量推理范式:把推理链当成无标注的隐变量,用"能否帮自己答对"来评价
不可验证领域的根本困境是没有验证器能判断一条推理对不对。NRT 绕开这个问题:既然没人能标注 \(z\),那就不标注,把 \(z\) 当隐变量,让模型自己生成、自己评估。判据是一个朴素但自洽的假设——一条好的推理 \(z\) 应当抬高模型对正确答案的预测概率 \(\pi_\theta(y^*\mid x,z)\),也就是读完推理后模型对正确答案更"有信心"。这样模型同时扮演学生(生成推理)和老师(用预测置信度打分),是不依赖外部验证时唯一自洽的奖励来源。
2. 加权求和奖励:按 token 难度反比加权,让奖励聚焦在难预测的关键词上
如果直接用 token 概率的对数和(标准 logP)做奖励,信号会被"the""of"这类高频简单 token 主导,它们本来概率就接近 1,模型在它们身上学不到任何对困难预测的改进。NRT 改成加权求和,权重反比于 token 的基础难度 \(w_i \propto 1/c_{i,base}\):简单 token 权重趋近 0,关键事实词这类难 token 权重被放大。实践中最有效的是 \(-\log p\) 加权方案,在 Llama-3.1-8B 上比 logP 高 3.3 分。这个方案还有理论解释——\(-\log p\) 加权等价于交叉熵 \(-\sum c_j \log c_{j,base}\),等于直接去缩小模型在困难 token 上的 KL 散度,因此优化压力天然集中在模型最不确定的地方。
3. 奖励稳定化:减基线 + 组内归一化,避开 RL 训练的策略崩塌
RLPR 这类方法有个致命问题:训练几步后推理链的熵迅速塌到 0,模型退化成不再认真推理、质量直接归零。NRT 用两步稳住训练。先做 clipped reward \(R' = \max(0,\, R - R_{base})\),减去"没有推理链时"的基线奖励,让只有真正帮上忙的推理才拿到正奖励,把推理的增益和答案本身的难易解耦开;再做组内(group-wise)标准化,使 GRPO 在一组采样里的梯度尺度稳定。靠这两点,NRT 全程保持高熵和高质量推理,没有出现 RLPR 的崩塌。
4. 格式监督损失:用一个轻量约束逼模型真去推理而不是跳步
只有内在奖励时,模型有偷懒的捷径——跳过推理直接输出答案。NRT 加一个权重 0.3 的格式监督损失,要求输出必须用 <think>...</think> 标签包住推理过程,确保推理链真实存在、奖励信号有的放矢。
损失函数 / 训练策略¶
总目标是最大化期望奖励 \(J(\theta) = \mathbb{E}_{z \sim \pi_\theta}[R(z,\theta)]\),用 GRPO 配重要性采样优化。它的梯度可以分解成两部分:trace policy gradient 强化整条推理链(推理好就整体上调它的采样概率),token prediction gradient 则按前面的难度权重对 token 级预测做更新。训练用 200K 样本,取自 tulu-3-sft-mixture,平均响应长度 415 tokens。
实验关键数据¶
主实验¶
Llama-3.1-8B 在 9 个基准上:
| 方法 | BBH | MMLU | DROP | GSM8K | MATH | HumanEval | IFEval | 总体均值 |
|---|---|---|---|---|---|---|---|---|
| SFT | 38.0 | 59.2 | 36.7 | 29.0 | 17.8 | 74.7 | 58.3 | 46.0 |
| RLPR* | 41.2 | 58.7 | 32.5 | 65.0 | 27.8 | 77.8 | 61.3 | 50.8 |
| Verifree* | 35.7 | 58.3 | 33.5 | 54.3 | 19.4 | 76.3 | 59.3 | 48.1 |
| NRT-GM | 54.3 | 66.1 | 48.7 | 70.3 | 32.2 | 76.3 | 55.3 | 54.9 |
| NRT-WS(-logp) | 51.0 | 66.7 | 52.2 | 76.0 | 30.7 | 77.8 | 59.0 | 56.2 |
Llama-3.2-3B:
| 方法 | 总体均值 |
|---|---|
| SFT | 36.4 |
| NRT-WS(-logp) | 39.9(+3.5) |
消融实验¶
| 奖励聚合方式 | Llama-3.1-8B 总体 |
|---|---|
| logP(对数概率) | 52.9 |
| P(概率乘积) | 51.4 |
| GM(几何均值) | 54.9 |
| AM(算术均值) | 53.3 |
| WS-1/p(逆概率加权) | 53.3 |
| WS-(-logp) | 56.2 |
关键发现¶
- 策略崩塌问题解决:RLPR 训练过程中推理链熵迅速降为 0(推理质量崩塌),NRT 全程保持高熵和高质量推理
- 困难 token 定向提升:WS 加权方案使模型在高熵 token 上概率提升最多达 15%,而 RLPR 几乎无改善
- 不需要可验证数据:在 GSM8K(数学,可验证)和 BBH(推理,不可验证)上同时大幅提升,证明方法不局限于特定领域
- 推理与答案解耦:词汇分析显示模型自动学会在推理中使用 meta-cognitive 词汇("premise"、"reasoning"),同时抑制答案格式词
亮点与洞察¶
- 范式创新:隐变量推理:将推理链视为隐变量、用模型自身预测置信度做奖励的想法极其优雅——不需要任何外部标注或验证器,扩展了 RL 推理训练的适用范围到所有领域
- 困难 token 加权的理论直觉:-log p 加权让奖励聚焦在模型最不确定的关键 token 上,与课程学习和 hard example mining 的精神一致。这个简单的修改带来了 3.3 分的显著提升
- 策略崩塌的诊断与解决:清晰展示了 RLPR 的崩塌现象(推理熵→0),并通过内在奖励设计自然避免了这一问题——因为崩塌的推理无法帮助预测答案
局限与展望¶
- 奖励函数手工设计:5 种聚合方式 + 多种加权方案都是手工设定,可以探索自动学习奖励函数
- 采样效率有限:RL 训练需要大量采样(GRPO 需要组内多条推理链),计算成本较高
- 仅限微调阶段:未在预训练阶段验证,如果能在预训练就引入推理训练可能效果更好
- 幻觉风险:案例研究显示模型可能在开放任务中生成不存在的程序名——内在奖励不能防止事实错误
相关工作与启发¶
- vs RLPR(Reasoning via Planning with RL): RLPR 使用外部答案匹配奖励,在不可验证任务上崩塌。NRT 用内在预测置信度做奖励,全场景适用
- vs Verifree: 前人的无验证器方法使用更简单的奖励设计,NRT 的 token 级加权方案效果更好(+8.1 on Llama-8B)
- vs STaR/Self-Improvement: STaR 依赖正确答案筛选推理链做 SFT,NRT 用 RL 直接优化推理质量,避免了 SFT 的分布匹配问题
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 隐变量推理范式和内在奖励设计是全新视角,从根本上解决了无验证器领域的推理训练问题
- 实验充分度: ⭐⭐⭐⭐⭐ 3 个模型 × 9 个基准 × 5 种奖励变体,训练动态分析、token 级分析、案例研究全覆盖
- 写作质量: ⭐⭐⭐⭐⭐ 从问题定义到理论推导到实验分析层层递进,公式推导清晰
- 价值: ⭐⭐⭐⭐⭐ 解决了当前 reasoning 训练最核心的瓶颈——将 RL 推理训练从可验证领域扩展到任意领域