Nudging the Boundaries of LLM Reasoning¶
会议: ICLR 2026
arXiv: 2509.25666
代码: GitHub
领域: LLM推理
关键词: 强化学习推理, GRPO改进, 自生成Hint, 能力上界突破, 近侧发展区
一句话总结¶
指出GRPO无法从模型完全无法解决的难题(pass rate=0%)中学习的根本局限,提出NuRL方法在训练时对难题注入自生成的抽象hint(不泄露答案)使其变为可学习样本,跨3个模型6个benchmark一致超越GRPO并真正提升pass@k能力上界。
研究背景与动机¶
- 核心限制: 在线RL(GRPO)对完全无法解出的难题(所有rollout都错)产生零梯度,模型无法从中学习
- 分布锐化假说: 越来越多证据表明RL后训练主要做"分布锐化"——提高已知解法概率,而非发现新推理能力
- pass@k不变: 大k下的pass@k在RL训练后往往不变,说明能力上界未被突破
- Zone of Proximal Development: 类比Vygotsky的近侧发展区——难题在"学习区"但无指导就无法进入
- 难题的价值: 这些"不可解"问题蕴含丰富学习信号——暴露模型的弱点
- 自给自足需求: 需要无需外部强模型即可突破能力边界的方法
方法详解¶
整体框架¶
NuRL = 离线Hint收集 + 在线Rollout增强(两阶段训练)
关键设计¶
-
离线Hint收集:
- 输入: (问题q, 正确答案a)
- Step 1: 让模型生成"为什么答案正确"的CoT: \(y = \pi_{old}(q, a; p_y)\)
- Step 2: 从CoT抽象出高层hint(核心知识线索): \(h = \pi_\theta(q, a, y; p_h)\)
- 关键约束: hint必须抽象且高层,不包含具体答案或解题步骤
-
在线Rollout增强:
- GRPO训练中对每个问题生成 \(\mathcal{G}\) 个rollout
- 若全部失败(pass rate=0%): 将hint拼接到问题末尾
- 重新生成 \(\mathcal{G}-1\) 个带hint的rollout + 1个不带hint的rollout(避免全部正确导致零方差)
- 推理时不用hint——训练时的hint帮助模型内化推理模式
-
Hint类型探索:
- 抽象线索(最佳) > 部分步骤 > 解释 > 直接答案(最差)
- 核心发现: 暴露越多答案信息,性能越差——与人类学习规律一致
训练策略¶
- Stage 1: 标准GRPO训练至训练奖励和验证准确率收敛
- Stage 2: NuRL继续训练——过滤掉Stage 1中全部正确的简单题
实验关键数据¶
主实验¶
| 模型 | 方法 | MATH500 | MATH Hard | AIME | GPQA | Date | 平均 |
|---|---|---|---|---|---|---|---|
| Llama-3B | GRPO | 56.92 | 30.11 | 8.33 | 27.98 | 57.10 | 35.87 |
| Llama-3B | NuRL(Self) | 58.04 | 31.62 | 9.17 | 28.28 | 61.65 | 37.49 |
| OctoThinker-3B | GRPO | 68.81 | 41.29 | 8.33 | 23.26 | 69.85 | 42.63 |
| OctoThinker-3B | NuRL(Self) | 70.13 | 42.07 | 9.66 | 27.15 | 71.75 | 44.38 |
消融实验¶
| 配置 | MATH500 | GPQA | 说明 |
|---|---|---|---|
| Hint从头训练 + 无触发器 | 53.41 | 24.84 | 最差 |
| Hint从头训练 + 仅全失败触发 | 56.06 | 27.63 | 触发器有帮助 |
| 两阶段 + 无触发器 | 53.09 | 26.62 | 两阶段也有帮助 |
| 两阶段 + 仅全失败触发(NuRL) | 58.04 | 28.28 | 最佳 |
关键发现¶
- NuRL提升pass@1024: GPQA从63.6%→69.7%,Date从86.4%→94.0%,而GRPO保持不变——能力上界被突破
- 教师hint(GPT-o4-mini)进一步提升至+3.44%,自生成hint即可有效
- NuRL+Self-Consistency提升9.4% vs GRPO+SC仅7.8%——互补性更强
- 可学习问题比例随训练从66%上升至70%,而标准GRPO维持在66%
亮点与洞察¶
- 清晰且深刻地揭示GRPO无法学习不可解问题的根本限制
- Vygotsky近侧发展区类比准确贴切,动机极具启发性
- "越抽象的hint越好"反直觉但有力——直接给答案反而最差(reward hacking)
- 自生成hint无需外部模型,避免分布偏移,自给自足
- 两阶段策略(先GRPO收敛再NuRL)简洁实用
局限与展望¶
- 改进幅度相对温和(+1-2%平均),在强模型(Qwen3-4B)上提升有限(+0.79%)
- 自生成hint质量受限于模型本身能力——极难问题可能生成不了有用hint
- 二值判断(全失败/部分成功)决定是否注入hint,缺乏更细粒度策略
- 离线hint收集需要gold answer,限制无答案场景适用性
- 未探索hint的质量评估和动态更新机制
相关工作与启发¶
- vs GRPO/DAPO/Dr.GRPO: 它们改进advantage估计/KL/采样,NuRL正交地解决"不可解样本"问题
- vs STaR: STaR用answer-conditioned reasoning,NuRL进一步抽象为不泄露答案的hint
- vs TBA: TBA用多搜索节点生成多样轨迹,NuRL用hint降低问题难度
评分¶
- 新颖性: ⭐⭐⭐⭐ GRPO上界限制的insight + 自生成hint方案
- 实验充分度: ⭐⭐⭐⭐ 3模型6benchmark + 多hint类型 + pass@k分析
- 写作质量: ⭐⭐⭐⭐⭐ ZPD类比优美,动机→方法→实验逻辑流畅
- 价值: ⭐⭐⭐⭐ 解决RL推理训练的实际瓶颈,方法简洁可落地