RESTRAIN: From Spurious Votes to Signals — Self-Training RL with Self-Penalization¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=87ySF7viys
代码: 待确认
领域: LLM推理 / 无监督强化学习
关键词: 自驱动RL, 自惩罚, 伪标签加权, GRPO, 无标签推理

一句话总结¶

RESTRAIN 把"没有金标签"这件坏事变成训练信号：在 GRPO 上叠加伪标签加权、负 rollout 惩罚、prompt 级加权三层自惩罚机制，让模型不再盲信多数投票，从而在无标签数据上把 Qwen3-4B 的平均 Pass@1 推到 51.0%，几乎追平用金标签训练的 GRPO 上界（51.4%）。

研究背景与动机¶

领域现状：用人工标注 + 可验证奖励的强化学习（RLVR）已经显著强化了大模型的长链式推理。但这条路依赖源源不断的高质量标注数据，成本高且在更难的任务上后劲不足。一个自然的下一步是经验驱动学习——让模型在无标注数据上自我改进。

现有痛点：无标签设定下，怎么让模型生成自己的学习信号是核心难题。一类是自奖励（模型给自己的 rollout 打分），但缺乏证据表明它能稳定提升复杂推理。另一类是利用模型自身一致性，最典型的是多数投票（TTRL 把多数答案当唯一伪标签去强化）。但多数投票有严重的可靠性问题：当自一致性低时，多数答案本身可能系统性错误；而在难题上，正确解往往藏在少数派 rollout 里，却因为被过度自信的"伪多数"压制而被忽略。在这种被扭曲的奖励信号上训练，会随任务难度增大而走向训练崩溃。

核心矛盾：作者用 Figure 2 实测了这个矛盾——在 DAPO-MATH 上，Pass@64（只要 64 个采样里有一个对就算对）和多数投票正确率之间存在巨大鸿沟，且当多数票规模（majority size）很小时，多数答案正确率急剧下降。也就是说，把全部概率质量塌缩到单一多数答案上，既丢掉了藏在少数派里的正确解，又在低共识区把噪声当成了监督。

本文目标 / 切入角度：与其押注"多数答案正确"，不如利用模型整个答案分布里的信号——既保留有希望的推理链，又主动惩罚过度自信的 rollout 和低一致性的样本。

核心 idea：用"自惩罚"代替"自奖励"——把缺少标签转化为 rollout 级和 prompt 级的负向学习信号，无缝嵌进 GRPO，就能在不用任何金标签的情况下持续自我提升。

方法详解¶

整体框架¶

RESTRAIN 建立在 GRPO 之上。标准 GRPO 对每个 prompt \(x\) 采 \(n\) 个 rollout，用金标签 \(y\) 算奖励 \(r_i\) 与组内基线归一化的优势 \(A_i\)，再用 PPO 式裁剪目标更新策略。RESTRAIN 的改动是：在没有金标签时，用模型自己的预测分布替代金标签，并对其施加三层自惩罚，让"伪标签"既被利用又不被盲信。

整条流程是：给定 prompt \(x\)，采 \(n\) 个 rollout → 收集所有去重答案 \(\{a_j\}\) 及票数 \(c_j\) → ① 把每个 \(a_j\) 当成一个伪标签，按频率给一个置信权重 \(w_j\) 加权求和损失（而不是只取多数票）；② 对多数票规模过低（\(M(x)<\kappa\)）的 prompt，判定为不可信，清零奖励并给所有 rollout 一个负优势偏移 \(\delta\)；③ 再用一个由冻结基座模型离线算出的 prompt 权重 \(u_x\) 缩放整条样本的更新幅度。三者相乘得到最终的 RESTRAIN 损失。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["Prompt x<br/>采 n 个 rollout"] --> B["伪标签加权<br/>按票频给每个答案<br/>置信权重 wj"]
    B -->|"多数票规模 M(x) ≥ κ"| D["prompt 级加权<br/>用冻结基座算 ux 缩放更新"]
    B -->|"M(x) < κ：低共识"| C["负 rollout 惩罚<br/>奖励清零 + 优势减 δ"]
    C --> D
    D --> E["RESTRAIN 损失<br/>= ux · Σ wj · 惩罚后 GRPO 损失"]

关键设计¶

1. 伪标签加权：用整个答案分布代替单一多数票

这一层直接针对"多数投票丢掉少数派正确解"的痛点。给定 prompt \(x\)，采 \(n\) 个 rollout，收集所有去重答案 \(\{a_j\}_{j=1}^m\) 及其票数 \(c_j\)，把每一个 \(a_j\) 都当成一个候选伪标签，最终损失是对所有候选的加权 GRPO 损失之和：

\[L_{\text{GRPO}}(x;\theta)=\sum_{j=1}^{m} w_j \cdot L_{\text{GRPO}}(x, a_j; \theta)\]

权重 \(w_j\) 由频率 \(f_j=c_j/n\) 经一个单调整形函数 \(g\) 归一化得到：\(w_j = g(f_j) / \sum_\ell g(f_\ell)\)，其中 \(g\) 取一个以 \(k\in[0,1]\) 为中心、偏置 \(\sigma>0\) 的高斯函数。这等价于在答案频率上做一次"软选择"：高频答案拿到成比例更大的权重，低频的虚假答案被压低，但又不会像多数投票那样把全部质量塌缩到一个答案。\(\sigma\) 控制分布的"偏度"——\(\sigma\) 太小近似 step 函数、退化回多数投票；\(\sigma\) 太大又会给噪声低频答案太多影响。消融显示这一层是防止训练崩溃最关键的组件，去掉它平均掉到 37.5%（崩溃）。

2. 负 rollout 惩罚：低共识 prompt 一律给负信号，逼模型另辟蹊径

伪标签加权依赖 Pass@n 的逻辑——只要有一个 rollout 正确就能提供有效正信号。但当多数票规模极低时，模型很可能一个正确 rollout 都没有，此时任何答案都不可信。这一层就处理这种情况：定义多数计数 \(M(x)=\max_j c_j\)，当 \(M(x)<\kappa\)（自一致性低于阈值）时，把所有候选答案的奖励清零，并对所有 rollout 的优势施加统一的负偏移 \(\delta\)：

\[\tilde{r}_{i,j}=\begin{cases} r_{i,j} & M(x)\ge\kappa\\ 0 & M(x)<\kappa\end{cases}\qquad \tilde{A}_{i,j}=\begin{cases} A_{i,j} & M(x)\ge\kappa\\ A_{i,j}-\delta & M(x)<\kappa\end{cases}\]

在 PPO/GRPO 目标里，这意味着 \(M(x)<\kappa\) 的 prompt 只贡献负更新——惩罚所有低自一致性的 rollout，从而阻止模型强化虚假多数票、引导它探索别的推理路径。去掉这一层平均从 51.0% 掉到 42.1%。

3. prompt 级加权：用冻结基座离线估每条样本的可靠度

前两层都在 rollout 层面操作，这一层补一个 prompt 层面的惩罚。不同 prompt 上模型的确定性差异很大：有的高度一致、有的极度不确定。RESTRAIN 据此按"模型对该 prompt 的置信度"缩放整条样本的更新——低置信 prompt 更新小、高置信 prompt 更新大。关键细节是：权重用冻结的基座模型离线算一次、之后训练全程固定，避免训练中置信度被自己抬高造成的虚假反馈回路。具体地，对每个 prompt 用参考策略 \(\pi_{\text{ref}}\) 采 \(n\) 个 rollout、得到多数计数 \(c_{\text{ref}}\)，再用同一个单调函数 \(g\) 算权重：\(u_x = g(c_{\text{ref}}/n)\)。论文（附录 E）指出离线预计算的权重优于训练中动态更新的在线变体。去掉这一层主要伤害科学类基准（MMLU STEM 从 80.9 掉到 63.8）。

损失函数 / 训练策略¶

把三层信号合在一起就是最终损失：prompt 权重 \(u_x\) 在最外层缩放，内部对每个伪标签 \(a_j\) 用置信权重 \(w_j\) 加权，单个候选的 GRPO 损失里把优势换成惩罚后的 \(\tilde{A}_{i,j}\)：

\[L_{\text{RESTRAIN}}(x;\theta)=u_x\sum_{j=1}^{m} w_j\,\tilde{L}_{\text{GRPO}}(x,a_j;\theta)\]

\[\tilde{L}_{\text{GRPO}}(x,a_j;\theta)=-\frac{1}{n}\sum_{i=1}^{n}\min\!\big(\rho_i(\theta)\tilde{A}_{i,j},\ \text{clip}(\rho_i(\theta),1-\epsilon,1+\epsilon)\tilde{A}_{i,j}\big)-\beta D_{\text{KL}}[\pi_\theta\Vert\pi_{\text{ref}}]\]

整个机制无缝嵌进 GRPO，不需要额外的奖励模型或外部监督，可直接在无标签数据上持续自训练。

实验关键数据¶

主实验¶

在 DAPO-14k-Math 上训练、6 个基准（4 数学 + 2 科学）的平均 Pass@1（16 seed 平均）：

设定	模型	aime25	mmlu	gpqa-d	Avg.↑
用金标签（上界）	Qwen3-4B GRPO	20.8	73.7	38.7	51.4
无标签	TTRL	8.3	59.4	33.6	42.2
无标签	SRT (offline majority)	12.0	59.4	34.5	43.1
无标签	RESTRAIN	17.9	80.9	40.2	51.0

RESTRAIN 在无标签下做到 51.0%，比 TTRL 高 8.8 pp，距金标签 GRPO 上界只差 0.4 pp，并在 MMLU STEM、GPQA-Diamond 上反超金标签设定。Octothinker Hybrid-8B 上同样全面超过 TTRL/SRT，AIME25 相对提升达 +140.7%。合成 S1k 数据上也保持最强无标签方法、平均超次优基线至少 7.7 pp。

消融实验¶

Qwen3-4B 上逐组件移除（平均 Pass@1）：

配置	aime25	mmlu	gpqa-d	说明
RESTRAIN（完整）	17.9	80.9	40.2	51.0
(-) 伪标签加权	6.0	59.3	33.7	37.5，训练快速崩溃，掉点最多
(-) 负 rollout 惩罚	9.6	56.4	33.0	42.1
(-) prompt 级加权	18.1	63.8	37.0	主要伤科学类基准

关键发现¶

伪标签加权是防崩溃的命门：去掉它平均掉 13.5 pp 且训练失稳；进一步实验显示"考虑所有候选"还不够——若给所有候选均匀权重反而崩得更早，说明低频伪标签多为噪声、必须靠频率软选择压低它们。
训练稳定性：在 MATH500 上，TTRL 约 50 步后迅速崩溃，RESTRAIN 没有突然崩溃、能保持稳定，因为自惩罚抑制了过度自信更新。
超参敏感性：\(\sigma\) 太小（如 0.1）因给噪声低频答案太多影响而表现差；prompt 权重离线算优于在线动态更新。

亮点与洞察¶

把"无标签"从负担翻译成信号：核心"啊哈"在于不再追求自奖励的"正信号"，而是系统地构造负信号——惩罚过度自信和低共识，这比盲信多数票稳健得多。
三层信号正交且各有分工：伪标签加权管"别塌缩到单一答案"、负 rollout 惩罚管"低共识时别瞎学"、prompt 加权管"按样本可靠度调更新"，消融显示三者掉点位置不同（崩溃 / 整体 / 科学类），说明互补。
可迁移 trick：用冻结基座离线算 prompt 可靠度权重、避免训练中自我强化的反馈回路，这一思路可迁移到任何自训练/自蒸馏场景防止置信度膨胀。

局限与展望¶

方法依赖一组阈值/形状超参（\(\kappa\)、\(\delta\)、\(\sigma\)、\(g\) 的中心 \(k\)），跨模型跨任务的稳健取值需要调，论文主要在数学+科学推理上验证。
"金标签上界"的对照是同一套 GRPO 配方，超越上界的部分（如 MMLU STEM）可能与具体基准的标注/分布特性有关，横向跨基准的提升幅度不宜直接比大小。
自惩罚本质是在模型当前分布内做软选择，若基座模型在某领域几乎从不产出正确 rollout（Pass@n 极低），负惩罚也难凭空造出正确推理，适用前提是基座有一定潜在能力。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 把自奖励范式翻转成"自惩罚"，三层信号设计干净且动机来自实测的多数票失效现象。
实验充分度: ⭐⭐⭐⭐ 两基座、两数据、六基准 + 逐组件消融 + 训练稳定性曲线 + 超参分析，较扎实。
写作质量: ⭐⭐⭐⭐ 公式清晰、Figure 2 的动机实证有说服力。
价值: ⭐⭐⭐⭐⭐ 无标签下逼近金标签 GRPO，给"超越监督上限"的推理自训练提供了可扩展路径。