Native Reasoning Models: Training Language Models to Reason on Unverifiable Data¶

会议: ICLR2026
arXiv: 2602.11549
代码: 待确认
领域: LLM推理
关键词: 推理训练, 无验证器RL, 隐变量推理, GRPO, 奖励设计

一句话总结¶

提出 NRT（Native Reasoning Training）框架，将推理链视为隐变量，通过模型自身对参考答案的预测置信度作为内在奖励信号训练 LLM 推理能力，无需外部验证器或专家推理示范；在 Llama-3.1-8B 上 9 个基准平均提升 10.2 分（46.0→56.2），超越需要验证器的 RLPR +5.4 分。

研究背景与动机¶

领域现状：当前 LLM 推理能力提升主要靠两条路径——(a) 用人类/GPT-4 标注的推理链做 SFT（如 o1 复现），(b) 用外部验证器的 RL（RLVR），如数学题用最终答案正确性做奖励。两者在数学/编程等可验证领域表现出色。

现有痛点：大量学科任务（历史、常识、开放 QA、多跳推理）的答案不可程序化验证——没有确定性的 verifier 能判断推理过程是否正确。这类"不可验证数据"占实际应用的大多数，但现有 RLVR 方法无法处理。

核心矛盾：推理能力需要 RL 训练，RL 需要奖励信号，传统奖励来自外部验证器——但不可验证领域不存在这样的验证器。如何在没有外部奖励的情况下训练推理？

本文要解决：在仅有 (question, answer) 对、没有推理示范、没有外部验证器的情况下，如何训练 LLM 生成有效的推理链？

切入角度：将推理链 \(z\) 视为隐变量——好的推理链应该让模型对正确答案 \(y^*\) 的预测概率更高。奖励 = 模型自身在读完推理后预测答案的 token 级概率。

核心 idea：用"推理链是否帮助模型自己更好地预测答案"作为内在奖励，不依赖任何外部验证——模型既是推理者也是自己的评判者。

方法详解¶

整体框架¶

输入 (question \(x\), answer \(y^*\)) → 模型采样推理链 \(z \sim \pi_\theta(z|x)\) → 计算模型在 \(z\) 条件下预测 \(y^*\) 的 token 级概率 \(c_i = \pi_\theta(y^*_i|x,z,y^*_{<i})\) → 将概率聚合为 trace-level 奖励 \(R(z,\theta)\) → GRPO 策略梯度更新 \(\theta\)。

关键设计¶

隐变量推理范式:
- 功能：推理链 \(z\) 不由外部标注，而是模型自己生成并自我评估
- 核心思路：好的推理 \(z\) 应增加 \(\pi_\theta(y^*|x,z)\)，即模型读完推理后对正确答案更"有信心"
- 设计动机：这是不依赖外部验证的唯一自洽方式——模型既是学生也是老师
加权求和奖励（Weighted Sum）:
- 功能：用 token 级概率的加权和作为奖励，权重反比于 token 的基础难度
- 核心思路：逆概率加权 \(w_i \propto 1/c_{i,base}\) 让简单 token（如"the"）权重趋近 0，难 token（如关键事实词）权重放大
- 设计动机：标准 logP 奖励被简单 token 主导，模型学不到对困难预测的改进。-log p 加权方案在 Llama-3.1-8B 上比 logP 高 3.3 分
- 与理论联系：-log p 加权等价于交叉熵 \(-\sum c_j \log c_{j,base}\)，直接优化模型在困难 token 上的 KL 散度减小
奖励稳定化:
- 功能：clipped reward \(R' = \max(0, R - R_{base})\) + group-wise normalization
- 核心思路：减去基线（无推理链时的奖励）使奖励差异化；组内标准化使 GRPO 梯度稳定
- 设计动机：RLPR 等方法存在严重的策略崩塌问题（推理链熵→0，质量→0），NRT 全程保持高熵和高质量
格式监督损失:
- 功能：额外损失确保模型输出包含 <think>...</think> 标签包裹推理
- 权重 0.3，防止模型跳过推理直接输出答案

损失函数 / 训练策略¶

\(J(\theta) = \mathbb{E}_{z \sim \pi_\theta}[R(z,\theta)]\)，用 GRPO + 重要性采样优化。梯度分解为 trace policy gradient（强化整条推理链）+ token prediction gradient（加权 token 级预测更新）。训练数据 200K 样本来自 tulu-3-sft-mixture，平均响应长度 415 tokens。

实验关键数据¶

主实验¶

Llama-3.1-8B 在 9 个基准上:

方法	BBH	MMLU	DROP	GSM8K	MATH	HumanEval	IFEval	总体均值
SFT	38.0	59.2	36.7	29.0	17.8	74.7	58.3	46.0
RLPR*	41.2	58.7	32.5	65.0	27.8	77.8	61.3	50.8
Verifree*	35.7	58.3	33.5	54.3	19.4	76.3	59.3	48.1
NRT-GM	54.3	66.1	48.7	70.3	32.2	76.3	55.3	54.9
NRT-WS(-logp)	51.0	66.7	52.2	76.0	30.7	77.8	59.0	56.2

Llama-3.2-3B:

方法	总体均值
SFT	36.4
NRT-WS(-logp)	39.9（+3.5）

消融实验¶

奖励聚合方式	Llama-3.1-8B 总体
logP（对数概率）	52.9
P（概率乘积）	51.4
GM（几何均值）	54.9
AM（算术均值）	53.3
WS-1/p（逆概率加权）	53.3
WS-(-logp)	56.2

关键发现¶

策略崩塌问题解决：RLPR 训练过程中推理链熵迅速降为 0（推理质量崩塌），NRT 全程保持高熵和高质量推理
困难 token 定向提升：WS 加权方案使模型在高熵 token 上概率提升最多达 15%，而 RLPR 几乎无改善
不需要可验证数据：在 GSM8K（数学，可验证）和 BBH（推理，不可验证）上同时大幅提升，证明方法不局限于特定领域
推理与答案解耦：词汇分析显示模型自动学会在推理中使用 meta-cognitive 词汇（"premise"、"reasoning"），同时抑制答案格式词

亮点与洞察¶

范式创新：隐变量推理：将推理链视为隐变量、用模型自身预测置信度做奖励的想法极其优雅——不需要任何外部标注或验证器，扩展了 RL 推理训练的适用范围到所有领域
困难 token 加权的理论直觉：-log p 加权让奖励聚焦在模型最不确定的关键 token 上，与课程学习和 hard example mining 的精神一致。这个简单的修改带来了 3.3 分的显著提升
策略崩塌的诊断与解决：清晰展示了 RLPR 的崩塌现象（推理熵→0），并通过内在奖励设计自然避免了这一问题——因为崩塌的推理无法帮助预测答案

局限与展望¶

奖励函数手工设计：5 种聚合方式 + 多种加权方案都是手工设定，可以探索自动学习奖励函数
采样效率有限：RL 训练需要大量采样（GRPO 需要组内多条推理链），计算成本较高
仅限微调阶段：未在预训练阶段验证，如果能在预训练就引入推理训练可能效果更好
幻觉风险：案例研究显示模型可能在开放任务中生成不存在的程序名——内在奖励不能防止事实错误

评分¶

新颖性: ⭐⭐⭐⭐⭐ 隐变量推理范式和内在奖励设计是全新视角，从根本上解决了无验证器领域的推理训练问题
实验充分度: ⭐⭐⭐⭐⭐ 3 个模型 × 9 个基准 × 5 种奖励变体，训练动态分析、token 级分析、案例研究全覆盖
写作质量: ⭐⭐⭐⭐⭐ 从问题定义到理论推导到实验分析层层递进，公式推导清晰
价值: ⭐⭐⭐⭐⭐ 解决了当前 reasoning 训练最核心的瓶颈——将 RL 推理训练从可验证领域扩展到任意领域