Reinforcing General Reasoning without Verifiers¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=nnwvwge40d
代码: 有（论文标注 Code Link，Sea AI Lab）
领域: LLM推理 / 强化学习 / RLVR
关键词: 无验证器RL、RLVR、推理链、方差缩减、通用推理

一句话总结¶

本文提出 VeriFree——一种不需要任何验证器的 DeepSeek-R1-Zero 式强化学习方法：它不再判断模型答案对错，而是直接最大化「在模型自己生成的推理链条件下，参考答案被生成的概率」，从 RL 目标里严格推导出来，把 R1-Zero 训练从数学/代码扩展到化学、医疗、法律等无法规则判分的通用推理领域，且在 MMLU-Pro、GPQA、SuperGPQA 上追平甚至超过带验证器的方法。

研究背景与动机¶

领域现状：DeepSeek-R1-Zero 证明了「RL + 可验证奖励（RLVR）」能极大提升 LLM 推理能力——模型先生成一段推理链（CoT）再给出最终答案，一个规则程序抽取答案、对则奖励 1、错则 0，再用 GRPO 优化。这套范式在数学、代码上效果惊人，引发大量跟进工作。

现有痛点：这套方法死死绑定在「能规则判分」的领域。数学有 Math-Verify、代码有测试用例，但化学、医疗、工程、法律、生物、商科、经济这些真实世界领域，答案等价性判断本身就极难，规则验证根本无从下手。一个自然的补救是引入一个专门的 LLM 当验证器（类似 RLHF 的奖励模型）来判断生成答案与参考答案是否等价，但这又带来三个新问题：① 依赖一个本身就很强的验证器 LLM；② 把范式退化成「优化一个模型给的奖励」，因此容易被 reward hacking 钻空子；③ 训练时还得在显存里多挂一个验证器模型反复查询，开销大。

核心矛盾：想把 R1-Zero 范式推广到通用领域，就绕不开「如何判断答案对错」；而无论用规则还是用模型来判断，都各有死穴（规则做不到 / 模型不可靠又昂贵）。

本文目标：在保留 RL 范式好处的同时，彻底拿掉「显式判断答案对错」这一步，让 R1-Zero 式训练能直接用在无法验证的通用推理任务上。

切入角度：作者回到 RL 目标函数本身做数学推导，发现——在「答案唯一正确」的假设下，对最终答案 \(y\) 求期望奖励这一步可以解析地积分掉，根本不需要采样答案再判分。

核心 idea：用「模型在给定推理链 \(z\) 下生成参考答案 \(y^\star\) 的概率 \(\pi_\theta(y^\star|x,z)\)」直接充当奖励信号，从而既不需要规则验证器、也不需要模型验证器，还顺带降低了梯度方差。

方法详解¶

整体框架¶

VeriFree 的输入是「问题 \(x\) + 参考答案 \(y^\star\)」，输出是一个被强化过通用推理能力的策略 \(\pi_\theta\)。它和标准 R1-Zero 共用「采样推理链」这一前半段，关键区别在后半段：R1-Zero 要让模型把答案 \(y\) 也生成出来、抽取出来、再送给验证器判 0/1；VeriFree 则在推理链结束处（</think>）把模型自己的答案直接换成数据集里的参考答案 \(y^\star\)，然后只做一次前向传播算出条件概率 \(\pi_\theta(y^\star|x,z)\)，这个连续值同时扮演两个角色——既是给推理链的奖励信号，又是对参考答案做加权监督学习的权重。

整个梯度可以从 RL 目标严格推出，并自然分解成两项：一项形如「以似然为奖励的 RLVR」（推理项），一项形如「在参考答案上做监督训练」（参考答案项）。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["问题 x + 参考答案 y*"] --> B["采样推理链 z<br/>策略 πθ 生成 CoT"]
    B --> C["验证器无关的目标推导<br/>解析积分掉 y，得 R=πθ(y*|x,z)"]
    C --> D["切分点 token 对齐<br/>在 &lt;answer 处停，避免 off-policy"]
    D --> E["方差缩减梯度估计<br/>RLOO 基线 + 长度归一化"]
    E -->|策略梯度更新| F["更新 πθ → 通用推理能力增强"]

关键设计¶

1. 验证器无关的目标推导：把判分换成一次概率计算

这一步直击「通用领域无法判分」的痛点。作者从标准 R1-Zero 目标 \(J_{\text{Verifier}}=\mathbb{E}_{z}\mathbb{E}_{y}[R_{\text{Verifier}}(y;y^\star)]\) 出发，在「答案唯一正确」即 \(R_{\text{Verifier}}=\mathbb{1}\{y=y^\star\}\)（精确匹配而非语义等价）的假设下做了一个关键观察：给定推理链 \(z\) 后，对答案 \(y\) 求期望奖励等价于把所有取值求和、只有 \(y=y^\star\) 那一项留下，于是

\[\mathbb{E}_{y\sim\pi_\theta(\cdot|x,z)}[\mathbb{1}\{y=y^\star\}]=\sum_y \pi_\theta(y|x,z)\,\mathbb{1}\{y=y^\star\}=\pi_\theta(y^\star|x,z).\]

也就是说，最终答案 \(y\) 被解析地积分掉了，期望奖励直接等于模型对参考答案打的概率 \(R_{\text{VeriFree}}(z;x,y^\star)=\pi_\theta(y^\star|x,z)\)。对应的梯度估计为

\[\nabla_\theta J_{\text{VeriFree}}=\mathbb{E}_{z}\big[\underbrace{R_{\text{VeriFree}}\,\nabla_\theta\log\pi_\theta(z|x)}_{\text{推理项}}+\underbrace{\nabla_\theta\log\pi_\theta(y^\star|x,z)}_{\text{参考答案项}}\big].\]

推理项是「以模型生成正确答案的概率为奖励」的策略梯度，参考答案项是「以该概率为权重」的监督学习。两项在期望意义下与带验证器的版本完全等价，但全程不需要任何验证器。

2. 概率加权的参考答案项：用推理质量给监督信号打折

这是 VeriFree 与同样把推理链当隐变量的前作 JEPO、LaTRO 的本质区别，也是它能赢的原因。JEPO/LaTRO 的参考答案项权重恒为 1——不管推理链好坏，都一律把 \(y^\star\) 的概率往上推。问题在于：如果模型胡乱推出「……减 2 个苹果，最后总共 7 个苹果」而正确答案是「6」，恒权重 1 会强行让这条错误推理也产出「6」，从而把「推理」和「答案」之间的错配给固化下来，鼓励了坏推理。

VeriFree 的参考答案项权重恰好是 \(\pi_\theta(y^\star|x,z)\) 本身：推理链越烂、模型在它下面给 \(y^\star\) 的概率越低，这条样本对监督的贡献就被自动下调。这等于在用「推理质量」给监督信号加权，从而避免奖励到「答案碰巧对、但推理是错的」这类样本。作者也指出，正因为 VeriFree 在单答案假设下精确还原了原始带验证器目标，而 JEPO/LaTRO 优化的是有微妙偏差的对数似然下界（JEPO 实际奖励是 \(\log\pi_\theta(y^\star|x,z)\)），所以前作一直跑不过验证器基线，而 VeriFree 能追平甚至反超。

3. 方差缩减：Rao-Blackwell 化 + RLOO 基线

把答案 \(y\) 解析积分掉不只省了验证器，还白赚了一个理论好处。定理 1 证明 VeriFree 单样本梯度估计的方差不大于带验证器版本：\(\text{Var}_z(\hat G_{\text{VeriFree}})\le\text{Var}_{z,y}(\hat G_{\text{Verifier}})\)。直觉是——带验证器版本的方差来自「采样 \(z\)」和「采样 \(y\)」两处随机，而 VeriFree 把 \(y\) 解析地 marginalize 掉，直接消除了一个随机源（即 Rao-Blackwell 化）。

这套估计器还能和现成方差缩减技巧叠加：作者对每个 prompt 采多条回复，给推理项套 RLOO 基线，并采用 Dr. GRPO 的修正版长度归一化。最终在线梯度为

\[\nabla_\theta J=\frac{1}{G}\sum_{i=1}^{G}\big[A_i\,\nabla_\theta\log\pi_\theta(z_i|x)+R_i\,\nabla_\theta\log\pi_\theta(y^\star|x,z_i)\big],\]

其中 \(R_i=\pi_\theta(y^\star|x,z_i)\)，\(A_i=\pi_\theta(y^\star|x,z_i)-\frac{1}{G-1}\sum_{j\ne i}\pi_\theta(y^\star|x,z_j)\) 是 leave-one-out 基线。更低的方差让训练更稳、收敛更快，这也解释了为什么 VeriFree 用更少步数就能达到更高精度。

4. 切分点的 token 对齐：在 <answer 处停而非 <answer>

这是个看似琐碎、却决定方法能否稳定的工程细节。要把答案换成 \(y^\star\)，必须先精确切出推理链 \(z\)。但 LLM 是在 token 序列上操作的，按文本 <answer> 来切会踩坑：> 这个字符在 \(y\) 和 \(y^\star\) 不同上下文里可能被切成不同的 token，造成采样与优化之间的 token 边界不一致（即引入 off-policy 数据，导致训练不稳）。引入特殊 token 虽能统一边界，但这些新 token 不在基座词表里、会损害性能。

作者的解法是把 \(z\) 的终点定义在对应 <answer（不含 >）的那个 token，利用「r> 这个模式不出现在标准分词器词表里」这一事实，保证采样和优化共享一致的 token 空间对齐。这在操作上等价于把 <answer 设为采样时的 stop word（vLLM 等推理引擎原生支持），于是可以直接采样推理链 \(z\)，而不必先生成完整 \((z,y)\) 再事后抽取。

损失函数 / 训练策略¶

采用 Qwen3 系列基座（1.7B / 4B / 8B），遵循 R1-Zero 的「Zero」设定跳过 SFT 直接 RL 微调。基于 Oat 框架实现，不使用 KL 正则或 KL 惩罚，因此训练时无需在显存里保留参考模型。每步对 16 个问题各采 8 条回复（组大小 8），rollout 用 temperature=1.0、top_p=1、max_tokens=3000；1.7B/4B 训约 4000 步、8B 训约 3000 步，单节点 8×H100。数据为对 WebInstruct 清洗后得到的 ~61k 条通用推理样本（WebData），只保留答案少于 7 个 token 的样本并用 Qwen2.5-72B-Instruct 过滤噪声。

实验关键数据¶

主实验¶

基准	模型	Base	带验证器	VeriFree（本文）
MMLU-Pro	Qwen3-4B	47.2	63.0	63.5
MMLU-Pro	Qwen3-8B	59.8	65.9	67.2
SuperGPQA	Qwen3-4B	24.7	34.3	35.1
SuperGPQA	Qwen3-8B	31.0	37.1	38.0

从基座出发，VeriFree 把平均精度拉高 12%–40%，且在 8B 上同时超过带验证器基线和 Qwen3 instruct（thinking 模式）——而它完全不依赖任何显式验证信号。微调后回复长度增加，说明模型学会探索更长的推理链，呼应了 R1-Zero 的现象。

消融实验¶

配置	现象	说明
Full（VeriFree）	基准	完整方法
w/o RLOO	最终精度低 >3%	去掉 RLOO 后过早收敛、达不到峰值，凸显方差缩减的重要性
w/o token split	收敛不稳	用文本切分引入 off-policy 数据，优化不稳定
w/ 等价类	略有提升	引入等价答案集合只带来小幅增益，是方法的一处小局限

关键发现¶

学习效率更高：在相同期望奖励下，VeriFree 的连续奖励 + RLOO 让梯度方差更低，因此用更少训练步就达到更高精度（MMLU-Pro 训练曲线全程压制验证器基线）。
模型置信度是推理能力的好代理：Qwen3-8B 上 MMLU-Pro 精度与训练中平均置信度 \(\pi_\theta(y^\star|x,z)\) 呈强正相关（\(\rho=0.82\)），说明模型对正确答案的自估概率能有效量化涌现的推理能力。
推理技能可迁移：只在去掉所有数学样本的数据上训练，模型不仅在通用基准上提升，还无数学监督地迁移到数学基准，表明 VeriFree 诱导出的是跨领域的通用推理能力。

亮点与洞察¶

「积分掉答案」这一步是全文的支点：一个纯数学的观察（唯一答案下期望奖励 = 参考答案概率）同时解决了三件事——不需要验证器、降低梯度方差、把判分换成一次廉价前向，堪称「一招拆三难」。
把工程细节上升为方法组件：<answer vs <answer> 的 token 对齐看似是 trick，但它直接关系到采样与优化是否 on-policy，作者把它讲透并消融，体现了对 RL 训练稳定性的深刻理解。
概率加权的监督项是赢过 JEPO/LaTRO 的关键：同样是「无验证器 + 隐变量推理链」，恒权重 1 会固化坏推理，而用 \(\pi_\theta(y^\star|x,z)\) 加权能自动给烂推理打折——这个洞察可迁移到任何「想用参考答案做弱监督却又怕奖励错样本」的场景。
置信度作为能力代理（\(\rho=0.82\)）提供了一个无需额外标注就能监控训练进展的廉价指标。

局限与展望¶

单答案假设：方法严格等价只在「答案唯一正确（精确匹配）」时成立；现实中常存在多个等价正确答案，作者用单一参考答案虽经验上够用，但等价类消融显示引入等价集合仍有提升空间，如何更好利用答案等价性是明确的 future work。
依赖参考答案质量：训练需要短答案（<7 token）且经过过滤的高质量参考答案，对答案冗长或开放式生成（如长文写作）的领域，「精确匹配 + 概率」框架是否适用存疑。
评测用选择题：为便于验证，通用推理基准评测仍以多选题形式进行，与真正开放式生成的差距未被完全检验。
改进思路：把单答案推导推广到「显式建模等价类」的目标，或将概率加权思想与语义等价奖励结合，可能进一步释放通用领域的潜力。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 从 RL 目标严格推出「无验证器」估计器，把判分换成概率计算，视角清新且有理论支撑
实验充分度: ⭐⭐⭐⭐ 覆盖三个模型规模、多个通用+数学基准、完整消融与迁移分析，但评测以多选题为主
写作质量: ⭐⭐⭐⭐⭐ 推导清晰、与前作对比到位、工程细节交代充分
价值: ⭐⭐⭐⭐⭐ 把 R1-Zero 范式真正解锁到无法验证的通用领域，简单、更快、更省显存且更稳