Native Reasoning Models: Training Language Models to Reason on Unverifiable Data¶
会议: ICLR2026
arXiv: 2602.11549
代码: 待确认
领域: LLM推理
关键词: 推理训练, 无验证器RL, 隐变量推理, GRPO, 奖励设计
一句话总结¶
提出 NRT(Native Reasoning Training)框架,将推理链视为隐变量,通过模型自身对参考答案的预测置信度作为内在奖励信号训练 LLM 推理能力,无需外部验证器或专家推理示范;在 Llama-3.1-8B 上 9 个基准平均提升 10.2 分(46.0→56.2),超越需要验证器的 RLPR +5.4 分。
研究背景与动机¶
领域现状:当前 LLM 推理能力提升主要靠两条路径——(a) 用人类/GPT-4 标注的推理链做 SFT(如 o1 复现),(b) 用外部验证器的 RL(RLVR),如数学题用最终答案正确性做奖励。两者在数学/编程等可验证领域表现出色。
现有痛点:大量学科任务(历史、常识、开放 QA、多跳推理)的答案不可程序化验证——没有确定性的 verifier 能判断推理过程是否正确。这类"不可验证数据"占实际应用的大多数,但现有 RLVR 方法无法处理。
核心矛盾:推理能力需要 RL 训练,RL 需要奖励信号,传统奖励来自外部验证器——但不可验证领域不存在这样的验证器。如何在没有外部奖励的情况下训练推理?
本文要解决:在仅有 (question, answer) 对、没有推理示范、没有外部验证器的情况下,如何训练 LLM 生成有效的推理链?
切入角度:将推理链 \(z\) 视为隐变量——好的推理链应该让模型对正确答案 \(y^*\) 的预测概率更高。奖励 = 模型自身在读完推理后预测答案的 token 级概率。
核心 idea:用"推理链是否帮助模型自己更好地预测答案"作为内在奖励,不依赖任何外部验证——模型既是推理者也是自己的评判者。
方法详解¶
整体框架¶
输入 (question \(x\), answer \(y^*\)) → 模型采样推理链 \(z \sim \pi_\theta(z|x)\) → 计算模型在 \(z\) 条件下预测 \(y^*\) 的 token 级概率 \(c_i = \pi_\theta(y^*_i|x,z,y^*_{<i})\) → 将概率聚合为 trace-level 奖励 \(R(z,\theta)\) → GRPO 策略梯度更新 \(\theta\)。
关键设计¶
-
隐变量推理范式:
- 功能:推理链 \(z\) 不由外部标注,而是模型自己生成并自我评估
- 核心思路:好的推理 \(z\) 应增加 \(\pi_\theta(y^*|x,z)\),即模型读完推理后对正确答案更"有信心"
- 设计动机:这是不依赖外部验证的唯一自洽方式——模型既是学生也是老师
-
加权求和奖励(Weighted Sum):
- 功能:用 token 级概率的加权和作为奖励,权重反比于 token 的基础难度
- 核心思路:逆概率加权 \(w_i \propto 1/c_{i,base}\) 让简单 token(如"the")权重趋近 0,难 token(如关键事实词)权重放大
- 设计动机:标准 logP 奖励被简单 token 主导,模型学不到对困难预测的改进。-log p 加权方案在 Llama-3.1-8B 上比 logP 高 3.3 分
- 与理论联系:-log p 加权等价于交叉熵 \(-\sum c_j \log c_{j,base}\),直接优化模型在困难 token 上的 KL 散度减小
-
奖励稳定化:
- 功能:clipped reward \(R' = \max(0, R - R_{base})\) + group-wise normalization
- 核心思路:减去基线(无推理链时的奖励)使奖励差异化;组内标准化使 GRPO 梯度稳定
- 设计动机:RLPR 等方法存在严重的策略崩塌问题(推理链熵→0,质量→0),NRT 全程保持高熵和高质量
-
格式监督损失:
- 功能:额外损失确保模型输出包含
<think>...</think>标签包裹推理 - 权重 0.3,防止模型跳过推理直接输出答案
- 功能:额外损失确保模型输出包含
损失函数 / 训练策略¶
\(J(\theta) = \mathbb{E}_{z \sim \pi_\theta}[R(z,\theta)]\),用 GRPO + 重要性采样优化。梯度分解为 trace policy gradient(强化整条推理链)+ token prediction gradient(加权 token 级预测更新)。训练数据 200K 样本来自 tulu-3-sft-mixture,平均响应长度 415 tokens。
实验关键数据¶
主实验¶
Llama-3.1-8B 在 9 个基准上:
| 方法 | BBH | MMLU | DROP | GSM8K | MATH | HumanEval | IFEval | 总体均值 |
|---|---|---|---|---|---|---|---|---|
| SFT | 38.0 | 59.2 | 36.7 | 29.0 | 17.8 | 74.7 | 58.3 | 46.0 |
| RLPR* | 41.2 | 58.7 | 32.5 | 65.0 | 27.8 | 77.8 | 61.3 | 50.8 |
| Verifree* | 35.7 | 58.3 | 33.5 | 54.3 | 19.4 | 76.3 | 59.3 | 48.1 |
| NRT-GM | 54.3 | 66.1 | 48.7 | 70.3 | 32.2 | 76.3 | 55.3 | 54.9 |
| NRT-WS(-logp) | 51.0 | 66.7 | 52.2 | 76.0 | 30.7 | 77.8 | 59.0 | 56.2 |
Llama-3.2-3B:
| 方法 | 总体均值 |
|---|---|
| SFT | 36.4 |
| NRT-WS(-logp) | 39.9(+3.5) |
消融实验¶
| 奖励聚合方式 | Llama-3.1-8B 总体 |
|---|---|
| logP(对数概率) | 52.9 |
| P(概率乘积) | 51.4 |
| GM(几何均值) | 54.9 |
| AM(算术均值) | 53.3 |
| WS-1/p(逆概率加权) | 53.3 |
| WS-(-logp) | 56.2 |
关键发现¶
- 策略崩塌问题解决:RLPR 训练过程中推理链熵迅速降为 0(推理质量崩塌),NRT 全程保持高熵和高质量推理
- 困难 token 定向提升:WS 加权方案使模型在高熵 token 上概率提升最多达 15%,而 RLPR 几乎无改善
- 不需要可验证数据:在 GSM8K(数学,可验证)和 BBH(推理,不可验证)上同时大幅提升,证明方法不局限于特定领域
- 推理与答案解耦:词汇分析显示模型自动学会在推理中使用 meta-cognitive 词汇("premise"、"reasoning"),同时抑制答案格式词
亮点与洞察¶
- 范式创新:隐变量推理:将推理链视为隐变量、用模型自身预测置信度做奖励的想法极其优雅——不需要任何外部标注或验证器,扩展了 RL 推理训练的适用范围到所有领域
- 困难 token 加权的理论直觉:-log p 加权让奖励聚焦在模型最不确定的关键 token 上,与课程学习和 hard example mining 的精神一致。这个简单的修改带来了 3.3 分的显著提升
- 策略崩塌的诊断与解决:清晰展示了 RLPR 的崩塌现象(推理熵→0),并通过内在奖励设计自然避免了这一问题——因为崩塌的推理无法帮助预测答案
局限与展望¶
- 奖励函数手工设计:5 种聚合方式 + 多种加权方案都是手工设定,可以探索自动学习奖励函数
- 采样效率有限:RL 训练需要大量采样(GRPO 需要组内多条推理链),计算成本较高
- 仅限微调阶段:未在预训练阶段验证,如果能在预训练就引入推理训练可能效果更好
- 幻觉风险:案例研究显示模型可能在开放任务中生成不存在的程序名——内在奖励不能防止事实错误
相关工作与启发¶
- vs RLPR(Reasoning via Planning with RL): RLPR 使用外部答案匹配奖励,在不可验证任务上崩塌。NRT 用内在预测置信度做奖励,全场景适用
- vs Verifree: 前人的无验证器方法使用更简单的奖励设计,NRT 的 token 级加权方案效果更好(+8.1 on Llama-8B)
- vs STaR/Self-Improvement: STaR 依赖正确答案筛选推理链做 SFT,NRT 用 RL 直接优化推理质量,避免了 SFT 的分布匹配问题
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 隐变量推理范式和内在奖励设计是全新视角,从根本上解决了无验证器领域的推理训练问题
- 实验充分度: ⭐⭐⭐⭐⭐ 3 个模型 × 9 个基准 × 5 种奖励变体,训练动态分析、token 级分析、案例研究全覆盖
- 写作质量: ⭐⭐⭐⭐⭐ 从问题定义到理论推导到实验分析层层递进,公式推导清晰
- 价值: ⭐⭐⭐⭐⭐ 解决了当前 reasoning 训练最核心的瓶颈——将 RL 推理训练从可验证领域扩展到任意领域