Nudging the Boundaries of LLM Reasoning¶

vs GRPO/DAPO/Dr.GRPO: 它们改进advantage估计/KL/采样，NuRL正交地解决"不可解样本"问题
vs STaR: STaR用answer-conditioned reasoning，NuRL进一步抽象为不泄露答案的hint
vs TBA: TBA用多搜索节点生成多样轨迹，NuRL用hint降低问题难度

会议: ICLR 2026
arXiv: 2509.25666
代码: GitHub
领域: LLM推理
关键词: 强化学习推理, GRPO改进, 自生成Hint, 能力上界突破, 近侧发展区

一句话总结¶

指出GRPO无法从模型完全无法解决的难题(pass rate=0%)中学习的根本局限，提出NuRL方法在训练时对难题注入自生成的抽象hint(不泄露答案)使其变为可学习样本，跨3个模型6个benchmark一致超越GRPO并真正提升pass@k能力上界。

NuRL = 离线Hint收集 + 在线Rollout增强(两阶段训练)

离线Hint收集:
- 输入: (问题q, 正确答案a)
- Step 1: 让模型生成"为什么答案正确"的CoT: \(y = \pi_{old}(q, a; p_y)\)
- Step 2: 从CoT抽象出高层hint(核心知识线索): \(h = \pi_\theta(q, a, y; p_h)\)
- 关键约束: hint必须抽象且高层，不包含具体答案或解题步骤
在线Rollout增强:
- GRPO训练中对每个问题生成 \(\mathcal{G}\) 个rollout
- 若全部失败(pass rate=0%): 将hint拼接到问题末尾
- 重新生成 \(\mathcal{G}-1\) 个带hint的rollout + 1个不带hint的rollout(避免全部正确导致零方差)
- 推理时不用hint——训练时的hint帮助模型内化推理模式
Hint类型探索:
- 抽象线索(最佳) > 部分步骤 > 解释 > 直接答案(最差)
- 核心发现: 暴露越多答案信息，性能越差——与人类学习规律一致

模型	方法	MATH500	MATH Hard	AIME	GPQA	Date	平均
Llama-3B	GRPO	56.92	30.11	8.33	27.98	57.10	35.87
Llama-3B	NuRL(Self)	58.04	31.62	9.17	28.28	61.65	37.49
OctoThinker-3B	GRPO	68.81	41.29	8.33	23.26	69.85	42.63
OctoThinker-3B	NuRL(Self)	70.13	42.07	9.66	27.15	71.75	44.38

配置	MATH500	GPQA	说明
Hint从头训练 + 无触发器	53.41	24.84	最差
Hint从头训练 + 仅全失败触发	56.06	27.63	触发器有帮助
两阶段 + 无触发器	53.09	26.62	两阶段也有帮助
两阶段 + 仅全失败触发(NuRL)	58.04	28.28	最佳