跳转至

The Unlearnability Phenomenon in RLVR for Language Models

会议: ICML 2026
arXiv: 2605.16787
代码: https://github.com/yulinchen99/unlearnability-rlvr
领域: LLM推理 / RLVR / GRPO
关键词: RLVR, GRPO, 不可学习样本, 梯度相似度, 表征缺陷

一句话总结

作者发现在 RLVR(GRPO)训练中存在一类「不可学习样本」:即便采样到正确 rollout、奖励信号非零,模型在整个训练过程中也始终学不会,根因不是优化端的正样本稀缺或裁剪/KL 正则,而是这些样本在初始策略下就是「梯度离群点」,背后是模型表征缺陷,需要靠 mid-training 而非 RL 后训练来修复。

研究背景与动机

领域现状:以 GRPO 为代表的 RLVR(Reinforcement Learning with Verifiable Reward)已经成为提升 LLM 数学/代码/Agent 推理能力的主力手段。直觉上 GRPO 能 work 的前提是「同一 prompt 的 \(k\) 个 rollout 里既有正样本又有负样本」,因而最近大量工作(DAPO、curriculum、entropy 加权等)都在围绕「给极难样本造出正奖励信号」做文章。

现有痛点:作者发现一个反直觉现象——把训练样本按初始成功率切成「易/可学难/不可学难」三类后,不可学难样本即便在训练中已经持续观察到正确 rollout(即 outcome reward 已经非零),其训练 reward 仍然原地踏步、不会随训练上升;这部分样本在 Qwen2.5-0.5B/MATH-Easy 上占难样本的 30.2%,Llama-3.2-3B/MATH-Hard 上占 21.9%,绝非边缘现象。

核心矛盾:现有 RLVR 范式默认「只要有正样本,模型就能学会」,但本文实验直接证伪了这个隐含假设;而且优化端的常见干预(更多正 rollout、experience replay、clip-higher、去掉 KL 项)全部无效,说明根因不在优化端,需要换一个解释框架。

本文目标:(1) 严格定义并量化「不可学习样本」的存在;(2) 系统排查优化端的常见假设(正样本稀缺、裁剪、KL 正则);(3) 给出一个能解释现象的「表征侧」根因;(4) 检验数据增广与 mid-training 能否修复。

切入角度:作者从 cross-example gradient similarity 这个视角切入——把每个样本的正确 rollout 算成一个梯度向量,看不同样本之间的梯度余弦相似度,借此判断「在这个样本上学到的东西」能否迁移到其他样本。

核心 idea:用「梯度相似度」把可学/不可学样本的差异从「reward 曲线现象」上升到「优化空间几何性质」——不可学样本是优化空间里的孤立离群点,反映模型对它们的表征本身就有缺陷,单靠 outcome-based RL 无路可修。

方法详解

本文不是提一个新算法,而是一篇 diagnostic 论文:用一组精心设计的对照实验把「不可学习」这个现象量化、归因、定位到表征层面。整体研究框架可以看成「现象 → 排除假设 → 建立新假设 → 验证修复方案」四阶段。

整体框架

研究流程分四步: 1. 现象定义:在 GRPO + 动态采样下,跑三个独立的训练 run,把 initial pass@1 < 0.1 的难样本根据「最终 pass@1 是否仍 < \(\tau=0.1\)\(N=32\) rollout 估计)」分成 \(\mathcal{D}_l\)(可学)与 \(\mathcal{D}_u\)(不可学),同时排除「整个训练从未出现过正样本」的样本,取三次 run 的交集以降噪; 2. 优化端假设排除:针对「正 rollout 稀缺」做 oversampling-with-replay,针对「梯度正则化」做 clip-higher / 去 KL 项,全部失败; 3. 表征侧归因:用 cross-example gradient similarity 与 GPT-5-mini 打分的 reasoning-quality 两个独立信号,证明 \(\mathcal{D}_u\) 是梯度离群点 + 推理链质量低; 4. 修复方案对照:数据增广(相似题 + 子问题)与 mid-training(OctoThinker)二选一,前者失败、后者有效。

关键设计

  1. 不可学样本的工作定义与三组切分

    • 功能:把「学不会」这个直观感觉变成可复现的样本子集,让后续梯度/推理质量分析有明确分析对象。
    • 核心思路:先用 GRPO + dynamic sampling 做完整训练,再以 initial success rate \(\geq 0.1\) 切出 easy;对剩余 hard 样本估计 final pass@1(\(N=32\) 个 rollout),最终 pass@1 \(<\tau=0.1\) 的归入 \(\mathcal{D}_u\),否则归入 \(\mathcal{D}_l\);并显式排除「整个训练过程一次正样本都没有」的样本,保证「有正奖励信号但模型仍学不会」这一研究问题是 well-defined 的。为降噪做三次独立 run,对 \(\mathcal{D}_u/\mathcal{D}_l\) 取交集、对「无正奖励」样本取并集。
    • 设计动机:以往讨论难样本时往往把「没有正样本」和「有正样本但学不会」混为一谈,本文要分离出后者作为研究对象,否则任何「加正样本」类干预都会显得有效。
  2. Oversampling-with-Replay 反证「正样本稀缺」假设

    • 功能:在保证「每个 prompt 每个 batch 内固定 \(k_{\text{pos}}=1\) 个正样本 + \(k-k_{\text{pos}}=7\) 个负样本」的前提下重训,观察 \(\mathcal{D}_u\) 是否会变得可学。
    • 核心思路:每个 prompt 先采样 \(4k\) 个 rollout 再下采样到 \(k=8\);若当前 batch 的正样本数量不足,从经验回放 buffer 里复用此前采到的正 rollout(每条最多回放两次),并在回放/下采样后再计算 advantage \(\hat{A}_i = \frac{\mathbb{1}[y_i=y^*] - \text{mean}}{\text{std}}\)。reward 曲线表明:这种方法显著拖慢了 \(\mathcal{D}_l\) 的学习速度(说明 intervention 是真的生效了),但 \(\mathcal{D}_u\) 的 reward 曲线和 baseline 几乎重合。附录里进一步用「只在 \(\mathcal{D}_u\) 上做 SFT 蒸馏正确答案」和「\(k=64\) 大规模 rollout」两个更激进的干预交叉验证,差距同样不变。
    • 设计动机:要排除「正样本太少所以梯度被淹没」这一最自然的解释;如果在两个独立维度(每 batch 强行配 1 正 7 负、把 \(k\) 提到 64)上都填不平 gap,那 gap 的成因就不在「正样本数量」上。
  3. Cross-Example Gradient Similarity 直击表征缺陷

    • 功能:把「不可学」从 reward 曲线层面提升到优化空间几何层面的论断——\(\mathcal{D}_u\) 的样本梯度方向与其余样本不一致,所以其它样本上学到的更新不会迁移过来。
    • 核心思路:每组采 100 个样本,每个样本在 初始策略 下采 1000 个 rollout,过滤出正确 rollout,按公式 (1) 算 GRPO loss 的梯度——先在 response 内部对 token 平均,再在 response 之间平均,得到每个样本一个梯度向量;为算力可控,挂一个固定随机初始化的 LoRA adapter,只对 LoRA 参数求梯度(在 0.5B 模型上验证 LoRA-based 与全参数 gradient similarity 高度相关);最后计算样本间的 cosine similarity \(\cos(g_i, g_j)\)。结果(图 1c / 图 6)显示:easy 样本之间梯度高度对齐,learnable 居中,unlearnable 与所有组都低相似度,即每个不可学样本都是优化空间里的离群点;step 50 时也是同样格局,说明这不是初始化偶然。配套的 reasoning-quality 分析(用 GPT-5-mini 给正确 rollout 的推理链打 0–5 分)则在「正确答案」之外揭示 \(\mathcal{D}_u\) 的推理链多半靠 shortcut/启发式拼凑出答案——典型反例是「\(|x+y+z|+|x+y-z|\leq 8\) 体积题」里模型推理过程明显错乱却凑对最终答案,正好印证「outcome reward 会把 fake reasoning 也奖励掉,让训练信号噪声很大」。
    • 设计动机:要从「现象」过渡到「机制」必须给出一个可观测的、与训练动力学直接挂钩的量——梯度相似度同时解释了「为什么其他样本上的学习不迁移到 \(\mathcal{D}_u\)」和「为什么 oversampling 也救不了」。

损失函数 / 训练策略

沿用标准 GRPO + dynamic sampling。GRPO 目标如下(裁剪 \(\varepsilon\)、KL 系数 \(\beta\)): \(\mathcal{L}_{\text{GRPO}}(\theta,(x,y^*)) = -\frac{1}{k}\sum_i\frac{1}{|y_i|}\sum_t \min(r_{i,t}\hat{A}_i, \text{clip}(r_{i,t},1-\varepsilon,1+\varepsilon)\hat{A}_i) - \beta\,\text{KL}(\pi_\theta\|\pi_{\text{ref}})\),其中 \(r_{i,t}=\pi_\theta(y_{i,t}|x,y_{i,<t})/\pi_{\theta_{\text{old}}}(y_{i,t}|x,y_{i,<t})\)。dynamic sampling 把当前 batch 中 \(\text{std}(\{\mathbb{1}[y_i=y^*]\})=0\) 的 prompt 过滤掉以提高效率。消融时使用 clip-higher 和去掉 KL 项两种变体;mid-training 实验则换用 OctoThinker-3B-Hybrid/Long-Base 作为初始策略。

实验关键数据

主实验

Table 1 — 不可学样本在三个 setup 中的占比(百分比相对于初始 pass@1 \(<0.1\) 的难样本总数):

模型 / 数据 \(\mathcal{D}_u\) (%) \(\mathcal{D}_l\) (%) 无正奖励 (%)
Qwen2.5-0.5B / MATH-Easy 30.2 25.6 23.5
Llama-3.2-3B-Instruct / MATH-Hard 21.9 31.6 37.7
Qwen2.5-3B / DeepScaleR 16.7 14.2 47.2

不可学样本在所有 setup 下都不是边缘情形,与「无正奖励样本」并列占据难样本的大头。

消融实验

优化端干预 vs 表征端 / 数据端干预的对比

干预手段 目标假设 \(\mathcal{D}_u\) 是否有效 关键观察
Oversampling + replay(每 batch 强配 1 正 7 负) 正样本稀缺 \(\mathcal{D}_l\) 被拖慢但 \(\mathcal{D}_u\) reward 曲线不变
\(\mathcal{D}_u\) 上做 SFT 蒸馏正确答案 缺监督信号 gap 不消失
仅在 \(\mathcal{D}_u\) 上 RL + \(k=64\) 大组 rollout 探索不足 gap 不消失
Clip-higher 裁剪压抑梯度 三组 clipping ratio 几乎重合
去掉 KL 项 KL 约束限制更新 reward 动力学不变
相似题 \(\mathcal{D}_u^{sim}\) 数据增广 缺同类训练信号 增广题易学,原 \(\mathcal{D}_u\) 仍学不会
子问题 \(\mathcal{D}_u^{sub}\) 数据增广 技能未分解 子问题学得比 \(\mathcal{D}_l\) 还快,原题仍不会
Mid-training(OctoThinker-3B-Hybrid/Long) 表征本身有缺陷 难样本与训练分布的梯度相似度被显著拉高

关键发现

  • 不可学性源于表征而非优化:五种优化/数据端干预全部失败,唯一有效的是改 base model 表征(mid-training),强证据指向「问题在 RL 之前」。
  • 梯度相似度是 learnability 的强 proxy\(\mathcal{D}_u\) 是孤立梯度离群点,\(\mathcal{D}_l\) 居中、easy 高度对齐;这与 reward 曲线分组完全一致,且在 step 50 仍保持,说明这不是初始化偶然。
  • 正确答案 ≠ 正确推理:GPT-5-mini 评分显示 \(\mathcal{D}_u\) 的正确 rollout 多半靠 shortcut / 启发式,case study(绝对值不等式体积题)里模型甚至凭明显错误的推导凑出正确答案,揭示 outcome-only reward 的 reward-hacking 风险。
  • 语义相似 ≠ 优化相似:GPT-5 生成的「同策略相似题」与原题在结构上几乎一样,但梯度相似度并不会随之提高,且 \(\mathcal{D}_u\) 与原训练分布、与增广数据的相似度高度相关——说明这些样本在优化空间里就是「独立的山头」,靠语义增广搬不动。
  • 训练越深差距越大:reasoning-quality 在 step 50→120 上 \(\mathcal{D}_l\) 持续改善,\(\mathcal{D}_u\) 基本停滞;curriculum learning(先学 easy + learnable)也无法把改善迁移过去。

亮点与洞察

  • 把「学不会」从 reward 曲线层面降到优化空间几何层面:梯度相似度这个量同时解释了「为什么其它样本上的更新不迁移」和「为什么 oversampling 也救不了」,是把现象-机制串起来的关键 trick,且 LoRA-only 梯度的相关性近似让分析可在 0.5B-3B 规模上跑通。
  • 「正确答案不代表正确推理」的实证:用 GPT-5-mini 打分把 outcome reward 与 process reward 的差距具象化,给「process supervision / RLVR + verifier 中间步骤」类工作提供了直接动机——光看最终 answer,相当于把 reward-hacked 的 rollout 也当作监督信号。
  • negative results 写法值得借鉴:作者把「oversampling、SFT 蒸馏、大 \(k\)、clip-higher、去 KL、相似题增广、子问题增广」按假设逐个排除,最后才指向 mid-training,这种「排除法 + 反例库」的诊断范式可以直接迁移到其它训练动力学研究(如 SFT 的 forgetting、RLHF 的 reward over-optimization)。
  • 可迁移 trick:用「梯度相似度 / 推理质量 / pass@k」三件套刻画训练数据的「优化属性」,并不限于 RLVR,可以用来在 SFT 之前给样本打 trainability 标签,做更聪明的 curriculum / 数据筛选。

局限与展望

  • 实验局限于 0.5B–3B 规模的数学推理模型与 MATH/DeepScaleR 数据;更大规模(30B+)或 code/agent 域是否仍存在同样比例的不可学样本未验证。
  • 「不可学」依赖一个硬阈值 \(\tau=0.1\)\(N=32\) 的 pass@1 估计,边界样本的判定具有一定随机性;作者用三次 run 取交集缓解了这个问题,但没有给出对 \(\tau\) 的连续 sensitivity 分析。
  • 没有给出可执行的「修不可学样本」算法——mid-training 的「什么数据、什么算法最有效」被作为开放问题留下;如果能根据样本的梯度方向反推「需要什么类型的预训练/中训练数据」,本文价值会再上一档。
  • 「相似题增广无效」结论依赖 GPT-5 + Gemini-2.5-pro 的合成质量;如果增广数据本身就有正确性漂移,可能高估了「语义相似但优化不相似」的强度。
  • 梯度相似度的几何解释仍较粗糙——是否存在一个低秩子空间能解释 \(\mathcal{D}_u\) 的离群性、能否据此设计「表征对齐损失」直接缩小 gap,是顺势可做的下一步。

相关工作与启发

  • vs Sun et al. 2025b(极难样本下的 fine-grained reward assignment):他们假设「只要 reward 设计得足够细就能学」,本文直接反证「即便已经有 outcome positive reward,也存在一类样本学不会」,把限制从 reward 端拉到表征端。
  • vs Yue et al. 2025 / Wu et al. 2026(RL 不能让 LLM 学到 base model 中没有的新技能):本文沿着同一条「RL 的能力天花板」线,但给了一个微观、可量化的视角——具体是哪类样本被挡在外面,以及挡住它们的具体几何特征。
  • vs DAPO(Yu et al. 2025)/ clip-higher / 无 KL:DAPO 的核心干预(高 clip、去 KL)在本文里被直接 ablate 并证明对 \(\mathcal{D}_u\) 无效,提示这类「探索增强」技巧主要受益的是 \(\mathcal{D}_l\) 而非 \(\mathcal{D}_u\)
  • vs OctoThinker / mid-training 类工作(Wang et al. 2025):本文为 mid-training 提供了一个全新动机——不是「让 base 更强」,而是「让难样本与训练分布的梯度对齐」,把 mid-training 重新定位为「表征对齐预处理」。
  • vs Nikankin et al.「bag of heuristics」:reasoning-quality 分析延续了「LLM 推理多为启发式拼接」这一观点,但本文把它精确化为「outcome reward 下不可学样本的典型行为模式」。

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 首次系统刻画 RLVR 中的「有正奖励却学不会」现象,并给出梯度几何层面的机制解释。
  • 实验充分度: ⭐⭐⭐⭐ 三个模型 × 两个数据规模,假设排除链条完整,但规模受限于 ≤3B。
  • 写作质量: ⭐⭐⭐⭐⭐ 用「排除法」组织 negative results 极清晰,case study 与图表配合好。
  • 价值: ⭐⭐⭐⭐⭐ 直接挑战「正奖励 ⇒ 可学」的隐含假设,给 RLVR 数据筛选 / mid-training / process reward 三条路线都提供了硬证据。