Beyond the 80/20 Rule: High-Entropy Minority Tokens Drive Effective Reinforcement Learning for LLM Reasoning¶

基本信息¶

arXiv: 2506.01939
会议: NeurIPS 2025
作者: Shenzhi Wang, Le Yu, Chang Gao, Chujie Zheng, Shixuan Liu, Rui Lu, et al.
机构: Tsinghua University, Alibaba
代码: 未开源

一句话总结¶

从 token 熵模式的全新视角分析 RLVR，发现 CoT 推理中仅约 20% 的高熵"分叉 token"决定推理方向，仅在这些 token 上做梯度更新即可匹配甚至大幅超越全量更新（Qwen3-32B 上 AIME'25 +11.04），揭示 RLVR 本质是优化推理决策点。

背景与动机¶

RLVR (Reinforcement Learning with Verifiable Rewards, 如 DeepSeek-R1 的 GRPO) 已被证明能显著提升 LLM 推理能力，但其机制仍不清楚： - RL 到底改变了模型的什么？ - 是所有 token 都同等重要，还是某些关键 token 起主导作用？ - 能否利用这一理解来改进 RLVR？

核心问题¶

RLVR 在 token 层面到底在优化什么？能否只优化最关键的 token 来提升效率和效果？

方法详解¶

1. Token 熵模式分析¶

对 CoT 推理过程中每个 token 位置计算策略熵 \(H(p_\theta(\cdot | x, y_{<t}))\)： - 关键发现 1：绝大多数 token（~80%）的熵极低（模型很自信怎么继续） - 关键发现 2：仅少数 token（~20%）有高熵——这些是"分叉 token"(forking tokens)，模型在这些位置面临推理方向的选择 - 关键发现 3：高熵 token 对应推理链中的决策点（如选择解题策略、决定论证方向）

2. RLVR 训练动态分析¶

观察 RLVR 训练过程中 token 熵的变化： - RLVR 基本保持基础模型的熵分布模式 - 主要调整的是高熵 token 的熵值（向正确推理方向降低熵） - 低熵 token 几乎不受影响 - 这说明 RLVR 的本质作用是在推理"分叉口"引导模型做出更好的选择

3. Forking Token Gradient（核心方法）¶

基于上述洞察，提出仅在高熵 forking token 上计算梯度更新： - 对每个生成 token，计算策略熵 - 选择熵最高的 top-20% token - 仅在这些 token 上应用 policy gradient - 其余 80% token 不参与梯度计算

4. 实验结果惊人¶

20% token 更新 ≈ 100% token 更新（Qwen3-8B 上性能相当）
20% token 更新 >> 100% token 更新：
- Qwen3-32B: AIME'25 +11.04, AIME'24 +7.71
- Qwen3-14B: AIME'25 +4.79, AIME'24 +5.21
反证：仅在 80% 低熵 token 上训练 → 性能显著下降
展示了强劲的 scaling trend——模型越大，forking token 优化的优势越明显

实验关键数据¶

AIME 基准¶

模型	方法	AIME'25	AIME'24
Qwen3-32B	全量梯度 RLVR	baseline	baseline
Qwen3-32B	Forking token (20%)	+11.04	+7.71
Qwen3-14B	全量梯度 RLVR	baseline	baseline
Qwen3-14B	Forking token (20%)	+4.79	+5.21

Token 类型消融¶

训练 token	比例	效果
全量 (100%)	100%	baseline
高熵 top-20%	20%	≥ baseline（大模型上大幅超越）
低熵 bottom-80%	80%	显著下降

亮点¶

全新视角：从 token 熵模式理解 RLVR，简洁而深刻
违反直觉的 80/20 规律：20% token 足以（甚至更好地）驱动 RL 训练
强 scaling trend：模型越大优势越大，暗示 forking token 优化是通往 AGI 推理的正确方向
实践价值：减少 80% 梯度计算，显著降低 RLVR 训练成本
理论洞察：RLVR 本质是优化推理决策点，而非全面改写生成模式

局限性¶

高熵 token 的阈值选择（top-20%）是经验性的
分析主要在数学推理任务，对代码/自然语言推理的泛化性待验证
熵计算需要额外前向传播，引入一定开销
对基础模型的 token 熵分布质量有依赖

与相关工作的对比¶

vs. Does Thinking More Help? (本批之前写的)：后者发现 overthinking 增加方差，本文发现 RLVR 的关键是优化高熵（高方差）token——两者互补，共同说明方差/熵是推理的核心信号
vs. DAPO/GRPO：标准 RLVR 对所有 token 均匀更新，forking token 方法更高效精准
vs. Token-level reward 方法：过程奖励模型 (PRM) 希望在 step 级给反馈，本文直接在 token 级识别关键位置
vs. ThinkPrune/Thinkless：这些方法减少无用 thinking token，本文从 RL 训练端识别关键 token

启发与关联¶

与 Overthinking 研究的联系：高熵 token 是推理"十字路口"，overthinking 可能在这些位置引入过多分叉 → 组合使用可能更有效
稀疏 RL 更新的前景：如果只需 20% token 的梯度，RLVR 的计算和内存成本都可大幅降低
对 RL scaling 的启示：scaling up RL 时，应该关注如何在更大模型上利用 forking token 信号，而非简单增加 sample 数

评分¶

新颖性：★★★★★ — token 熵视角理解 RLVR 是开创性洞察
技术深度：★★★★☆ — 分析深入，方法简洁但有效
实验完整度：★★★★★ — 3 个模型规模 × 多 benchmark × 消融 × scaling analysis
写作质量：★★★★★ — 叙事层层递进，从观察到解释到方法环环相扣