The Unlearnability Phenomenon in RLVR for Language Models¶

会议: ICML 2026
arXiv: 2605.16787
代码: https://github.com/yulinchen99/unlearnability-rlvr
领域: LLM推理 / RLVR / GRPO
关键词: RLVR, GRPO, 不可学习样本, 梯度相似度, 表征缺陷

一句话总结¶

作者发现在 RLVR（GRPO）训练中存在一类「不可学习样本」：即便采样到正确 rollout、奖励信号非零，模型在整个训练过程中也始终学不会，根因不是优化端的正样本稀缺或裁剪/KL 正则，而是这些样本在初始策略下就是「梯度离群点」，背后是模型表征缺陷，需要靠 mid-training 而非 RL 后训练来修复。

研究背景与动机¶

领域现状：以 GRPO 为代表的 RLVR（Reinforcement Learning with Verifiable Reward）已经成为提升 LLM 数学/代码/Agent 推理能力的主力手段。直觉上 GRPO 能 work 的前提是「同一 prompt 的 \(k\) 个 rollout 里既有正样本又有负样本」，因而最近大量工作（DAPO、curriculum、entropy 加权等）都在围绕「给极难样本造出正奖励信号」做文章。

现有痛点：作者发现一个反直觉现象——把训练样本按初始成功率切成「易/可学难/不可学难」三类后，不可学难样本即便在训练中已经持续观察到正确 rollout（即 outcome reward 已经非零），其训练 reward 仍然原地踏步、不会随训练上升；这部分样本在 Qwen2.5-0.5B/MATH-Easy 上占难样本的 30.2%，Llama-3.2-3B/MATH-Hard 上占 21.9%，绝非边缘现象。

核心矛盾：现有 RLVR 范式默认「只要有正样本，模型就能学会」，但本文实验直接证伪了这个隐含假设；而且优化端的常见干预（更多正 rollout、experience replay、clip-higher、去掉 KL 项）全部无效，说明根因不在优化端，需要换一个解释框架。

本文目标：(1) 严格定义并量化「不可学习样本」的存在；(2) 系统排查优化端的常见假设（正样本稀缺、裁剪、KL 正则）；(3) 给出一个能解释现象的「表征侧」根因；(4) 检验数据增广与 mid-training 能否修复。

切入角度：作者从 cross-example gradient similarity 这个视角切入——把每个样本的正确 rollout 算成一个梯度向量，看不同样本之间的梯度余弦相似度，借此判断「在这个样本上学到的东西」能否迁移到其他样本。

核心 idea：用「梯度相似度」把可学/不可学样本的差异从「reward 曲线现象」上升到「优化空间几何性质」——不可学样本是优化空间里的孤立离群点，反映模型对它们的表征本身就有缺陷，单靠 outcome-based RL 无路可修。

方法详解¶

本文不是提一个新算法，而是一篇 diagnostic 论文：用一组精心设计的对照实验把「不可学习」这个现象量化、归因、定位到表征层面。整体研究框架可以看成「现象 → 排除假设 → 建立新假设 → 验证修复方案」四阶段。

整体框架¶

研究流程分四步： 1. 现象定义：在 GRPO + 动态采样下，跑三个独立的训练 run，把 initial pass@1 < 0.1 的难样本根据「最终 pass@1 是否仍 < \(\tau=0.1\)（\(N=32\) rollout 估计）」分成 \(\mathcal{D}_l\)（可学）与 \(\mathcal{D}_u\)（不可学），同时排除「整个训练从未出现过正样本」的样本，取三次 run 的交集以降噪； 2. 优化端假设排除：针对「正 rollout 稀缺」做 oversampling-with-replay，针对「梯度正则化」做 clip-higher / 去 KL 项，全部失败； 3. 表征侧归因：用 cross-example gradient similarity 与 GPT-5-mini 打分的 reasoning-quality 两个独立信号，证明 \(\mathcal{D}_u\) 是梯度离群点 + 推理链质量低； 4. 修复方案对照：数据增广（相似题 + 子问题）与 mid-training（OctoThinker）二选一，前者失败、后者有效。

关键设计¶

不可学样本的工作定义与三组切分：
- 功能：把「学不会」这个直观感觉变成可复现的样本子集，让后续梯度/推理质量分析有明确分析对象。
- 核心思路：先用 GRPO + dynamic sampling 做完整训练，再以 initial success rate \(\geq 0.1\) 切出 easy；对剩余 hard 样本估计 final pass@1（\(N=32\) 个 rollout），最终 pass@1 \(<\tau=0.1\) 的归入 \(\mathcal{D}_u\)，否则归入 \(\mathcal{D}_l\)；并显式排除「整个训练过程一次正样本都没有」的样本，保证「有正奖励信号但模型仍学不会」这一研究问题是 well-defined 的。为降噪做三次独立 run，对 \(\mathcal{D}_u/\mathcal{D}_l\) 取交集、对「无正奖励」样本取并集。
- 设计动机：以往讨论难样本时往往把「没有正样本」和「有正样本但学不会」混为一谈，本文要分离出后者作为研究对象，否则任何「加正样本」类干预都会显得有效。
Oversampling-with-Replay 反证「正样本稀缺」假设：
- 功能：在保证「每个 prompt 每个 batch 内固定 \(k_{\text{pos}}=1\) 个正样本 + \(k-k_{\text{pos}}=7\) 个负样本」的前提下重训，观察 \(\mathcal{D}_u\) 是否会变得可学。
- 核心思路：每个 prompt 先采样 \(4k\) 个 rollout 再下采样到 \(k=8\)；若当前 batch 的正样本数量不足，从经验回放 buffer 里复用此前采到的正 rollout（每条最多回放两次），并在回放/下采样后再计算 advantage \(\hat{A}_i = \frac{\mathbb{1}[y_i=y^*] - \text{mean}}{\text{std}}\)。reward 曲线表明：这种方法显著拖慢了 \(\mathcal{D}_l\) 的学习速度（说明 intervention 是真的生效了），但 \(\mathcal{D}_u\) 的 reward 曲线和 baseline 几乎重合。附录里进一步用「只在 \(\mathcal{D}_u\) 上做 SFT 蒸馏正确答案」和「\(k=64\) 大规模 rollout」两个更激进的干预交叉验证，差距同样不变。
- 设计动机：要排除「正样本太少所以梯度被淹没」这一最自然的解释；如果在两个独立维度（每 batch 强行配 1 正 7 负、把 \(k\) 提到 64）上都填不平 gap，那 gap 的成因就不在「正样本数量」上。
Cross-Example Gradient Similarity 直击表征缺陷：
- 功能：把「不可学」从 reward 曲线层面提升到优化空间几何层面的论断——\(\mathcal{D}_u\) 的样本梯度方向与其余样本不一致，所以其它样本上学到的更新不会迁移过来。
- 核心思路：每组采 100 个样本，每个样本在 初始策略 下采 1000 个 rollout，过滤出正确 rollout，按公式 (1) 算 GRPO loss 的梯度——先在 response 内部对 token 平均，再在 response 之间平均，得到每个样本一个梯度向量；为算力可控，挂一个固定随机初始化的 LoRA adapter，只对 LoRA 参数求梯度（在 0.5B 模型上验证 LoRA-based 与全参数 gradient similarity 高度相关）；最后计算样本间的 cosine similarity \(\cos(g_i, g_j)\)。结果（图 1c / 图 6）显示：easy 样本之间梯度高度对齐，learnable 居中，unlearnable 与所有组都低相似度，即每个不可学样本都是优化空间里的离群点；step 50 时也是同样格局，说明这不是初始化偶然。配套的 reasoning-quality 分析（用 GPT-5-mini 给正确 rollout 的推理链打 0–5 分）则在「正确答案」之外揭示 \(\mathcal{D}_u\) 的推理链多半靠 shortcut/启发式拼凑出答案——典型反例是「\(|x+y+z|+|x+y-z|\leq 8\) 体积题」里模型推理过程明显错乱却凑对最终答案，正好印证「outcome reward 会把 fake reasoning 也奖励掉，让训练信号噪声很大」。
- 设计动机：要从「现象」过渡到「机制」必须给出一个可观测的、与训练动力学直接挂钩的量——梯度相似度同时解释了「为什么其他样本上的学习不迁移到 \(\mathcal{D}_u\)」和「为什么 oversampling 也救不了」。

损失函数 / 训练策略¶

沿用标准 GRPO + dynamic sampling。GRPO 目标如下（裁剪 \(\varepsilon\)、KL 系数 \(\beta\)）： \(\mathcal{L}_{\text{GRPO}}(\theta,(x,y^*)) = -\frac{1}{k}\sum_i\frac{1}{|y_i|}\sum_t \min(r_{i,t}\hat{A}_i, \text{clip}(r_{i,t},1-\varepsilon,1+\varepsilon)\hat{A}_i) - \beta\,\text{KL}(\pi_\theta\|\pi_{\text{ref}})\)，其中 \(r_{i,t}=\pi_\theta(y_{i,t}|x,y_{i,<t})/\pi_{\theta_{\text{old}}}(y_{i,t}|x,y_{i,<t})\)。dynamic sampling 把当前 batch 中 \(\text{std}(\{\mathbb{1}[y_i=y^*]\})=0\) 的 prompt 过滤掉以提高效率。消融时使用 clip-higher 和去掉 KL 项两种变体；mid-training 实验则换用 OctoThinker-3B-Hybrid/Long-Base 作为初始策略。

实验关键数据¶

主实验¶

Table 1 — 不可学样本在三个 setup 中的占比（百分比相对于初始 pass@1 \(<0.1\) 的难样本总数）：

模型 / 数据	\(\mathcal{D}_u\) (%)	\(\mathcal{D}_l\) (%)	无正奖励 (%)
Qwen2.5-0.5B / MATH-Easy	30.2	25.6	23.5
Llama-3.2-3B-Instruct / MATH-Hard	21.9	31.6	37.7
Qwen2.5-3B / DeepScaleR	16.7	14.2	47.2

不可学样本在所有 setup 下都不是边缘情形，与「无正奖励样本」并列占据难样本的大头。

消融实验¶

优化端干预 vs 表征端 / 数据端干预的对比：

干预手段	目标假设	对 \(\mathcal{D}_u\) 是否有效	关键观察
Oversampling + replay（每 batch 强配 1 正 7 负）	正样本稀缺	✗	\(\mathcal{D}_l\) 被拖慢但 \(\mathcal{D}_u\) reward 曲线不变
在 \(\mathcal{D}_u\) 上做 SFT 蒸馏正确答案	缺监督信号	✗	gap 不消失
仅在 \(\mathcal{D}_u\) 上 RL + \(k=64\) 大组 rollout	探索不足	✗	gap 不消失
Clip-higher	裁剪压抑梯度	✗	三组 clipping ratio 几乎重合
去掉 KL 项	KL 约束限制更新	✗	reward 动力学不变
相似题 \(\mathcal{D}_u^{sim}\) 数据增广	缺同类训练信号	✗	增广题易学，原 \(\mathcal{D}_u\) 仍学不会
子问题 \(\mathcal{D}_u^{sub}\) 数据增广	技能未分解	✗	子问题学得比 \(\mathcal{D}_l\) 还快，原题仍不会
Mid-training（OctoThinker-3B-Hybrid/Long）	表征本身有缺陷	✓	难样本与训练分布的梯度相似度被显著拉高

关键发现¶

不可学性源于表征而非优化：五种优化/数据端干预全部失败，唯一有效的是改 base model 表征（mid-training），强证据指向「问题在 RL 之前」。
梯度相似度是 learnability 的强 proxy：\(\mathcal{D}_u\) 是孤立梯度离群点，\(\mathcal{D}_l\) 居中、easy 高度对齐；这与 reward 曲线分组完全一致，且在 step 50 仍保持，说明这不是初始化偶然。
正确答案 ≠ 正确推理：GPT-5-mini 评分显示 \(\mathcal{D}_u\) 的正确 rollout 多半靠 shortcut / 启发式，case study（绝对值不等式体积题）里模型甚至凭明显错误的推导凑出正确答案，揭示 outcome-only reward 的 reward-hacking 风险。
语义相似 ≠ 优化相似：GPT-5 生成的「同策略相似题」与原题在结构上几乎一样，但梯度相似度并不会随之提高，且 \(\mathcal{D}_u\) 与原训练分布、与增广数据的相似度高度相关——说明这些样本在优化空间里就是「独立的山头」，靠语义增广搬不动。
训练越深差距越大：reasoning-quality 在 step 50→120 上 \(\mathcal{D}_l\) 持续改善，\(\mathcal{D}_u\) 基本停滞；curriculum learning（先学 easy + learnable）也无法把改善迁移过去。

亮点与洞察¶

把「学不会」从 reward 曲线层面降到优化空间几何层面：梯度相似度这个量同时解释了「为什么其它样本上的更新不迁移」和「为什么 oversampling 也救不了」，是把现象-机制串起来的关键 trick，且 LoRA-only 梯度的相关性近似让分析可在 0.5B-3B 规模上跑通。
「正确答案不代表正确推理」的实证：用 GPT-5-mini 打分把 outcome reward 与 process reward 的差距具象化，给「process supervision / RLVR + verifier 中间步骤」类工作提供了直接动机——光看最终 answer，相当于把 reward-hacked 的 rollout 也当作监督信号。
negative results 写法值得借鉴：作者把「oversampling、SFT 蒸馏、大 \(k\)、clip-higher、去 KL、相似题增广、子问题增广」按假设逐个排除，最后才指向 mid-training，这种「排除法 + 反例库」的诊断范式可以直接迁移到其它训练动力学研究（如 SFT 的 forgetting、RLHF 的 reward over-optimization）。
可迁移 trick：用「梯度相似度 / 推理质量 / pass@k」三件套刻画训练数据的「优化属性」，并不限于 RLVR，可以用来在 SFT 之前给样本打 trainability 标签，做更聪明的 curriculum / 数据筛选。

局限与展望¶

实验局限于 0.5B–3B 规模的数学推理模型与 MATH/DeepScaleR 数据；更大规模（30B+）或 code/agent 域是否仍存在同样比例的不可学样本未验证。
「不可学」依赖一个硬阈值 \(\tau=0.1\) 与 \(N=32\) 的 pass@1 估计，边界样本的判定具有一定随机性；作者用三次 run 取交集缓解了这个问题，但没有给出对 \(\tau\) 的连续 sensitivity 分析。
没有给出可执行的「修不可学样本」算法——mid-training 的「什么数据、什么算法最有效」被作为开放问题留下；如果能根据样本的梯度方向反推「需要什么类型的预训练/中训练数据」，本文价值会再上一档。
「相似题增广无效」结论依赖 GPT-5 + Gemini-2.5-pro 的合成质量；如果增广数据本身就有正确性漂移，可能高估了「语义相似但优化不相似」的强度。
梯度相似度的几何解释仍较粗糙——是否存在一个低秩子空间能解释 \(\mathcal{D}_u\) 的离群性、能否据此设计「表征对齐损失」直接缩小 gap，是顺势可做的下一步。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次系统刻画 RLVR 中的「有正奖励却学不会」现象，并给出梯度几何层面的机制解释。
实验充分度: ⭐⭐⭐⭐ 三个模型 × 两个数据规模，假设排除链条完整，但规模受限于 ≤3B。
写作质量: ⭐⭐⭐⭐⭐ 用「排除法」组织 negative results 极清晰，case study 与图表配合好。
价值: ⭐⭐⭐⭐⭐ 直接挑战「正奖励 ⇒ 可学」的隐含假设，给 RLVR 数据筛选 / mid-training / process reward 三条路线都提供了硬证据。