Scaf-GRPO: Scaffolded Group Relative Policy Optimization for Enhancing LLM Reasoning¶

会议: ICLR 2026
arXiv: 2510.19807
代码: 无
领域: 优化 / LLM推理增强
关键词: GRPO, 强化学习, 学习悬崖, 渐进式引导, 脚手架教学

一句话总结¶

提出 Scaf-GRPO 框架，通过分层级的 in-prompt hint 注入（知识→规划→解题步骤）来克服 GRPO 训练中"学习悬崖"(zero-reward)问题，在 Qwen2.5-Math-7B 上将 AIME24 的 pass@1 相对提升 44.3%，同时保持 on-policy 训练一致性。

研究背景与动机¶

领域现状：基于可验证奖励的强化学习（RLVR）已成为提升 LLM 推理能力的主流范式，GRPO 等算法通过组内相对奖励计算优势信号来更新策略。

现有痛点：当模型面对远超当前能力的难题时，所有探索性尝试都失败，产生持续的零奖励信号。在 GRPO 中，同组全零奖励导致 advantage \(\hat{A}_i = \frac{R(o_i) - \mu_\mathcal{G}}{\sigma_\mathcal{G}} = 0\)，梯度消失，形成"学习悬崖"(learning cliff)。

核心矛盾：现有解决方案（如 LUFFY）采用 prefix-continuation 策略——给模型提供正确解的前缀——但这造成 teacher 和 student 策略的分布不匹配，且强迫模型沿预定路径走，抑制了探索。

本文目标 在不引入 off-policy 分布不匹配的前提下，帮助模型克服学习悬崖，从无法解决的难题中学到推理能力。

切入角度：受教育学"脚手架理论"(Scaffolding) 启发，提供最小化的、渐进式的 in-prompt 提示，而非强制的解题路径前缀。

核心 idea：不给"铁轨"(prefix)而给"路标"(hint)——在 prompt 中注入分层提示使模型用自己的策略生成正确解，避免 off-policy 问题并保留探索自由度。

方法详解¶

整体框架¶

训练分两个阶段：Phase 1 (引导豁免期，前15%步数) 让模型自主探索区分"伪难题"和"真难题"；Phase 2 对真难题激活分层 hint 引导探索。当某 batch 内所有 rollout 零奖励时，Scaf-GRPO 按 Knowledge→Planning→Solution 层级注入提示直到模型生成正确解，用该成功轨迹替换一条失败轨迹重新计算 advantage，然后用标准 GRPO 损失更新。

关键设计¶

引导豁免期与真难题诊断:
- 做什么：训练初期（前15%步数）不提供任何 hint，让模型完全自主探索
- 核心思路：监控 zero-reward 问题的解决速率，速率停滞后将剩余未解决问题标记为"真难题"。训练初期的快速下降对应"伪难题"（格式不熟悉、初级推理技巧）
- 设计动机：避免过早提供 hint 导致模型依赖提示，确保 hint 仅用于真正的能力缺口。消融实验表明去掉豁免期导致 9.2% 性能下降
分层级 Hint 引导探索 (K→P→S):
- 做什么：为真难题注入三级渐进式 in-prompt 提示，从抽象到具体
- 核心思路：\(H_{\text{knowledge}}\)（关键概念/公式） → \(H_{\text{planning}}\)（高层策略框架）→ \(H_{\text{solution}}\)（具体计算步骤）。每级内递增提供，一旦模型成功即停止，记录最小有效提示级别
- 设计动机：最小化干预保留模型自主性——奖励使用最抽象 hint 就能解题的情况，鼓励内化推理技能而非记忆解法。去掉任一层级都降低性能（去 Solution 层降 5.7%）
On-Policy Batch 增强与统一损失:
- 做什么：将成功的 hint-guided 轨迹替换一条失败轨迹，恢复 advantage 信号
- 核心思路：\(\mathcal{G}_{\text{final}} = (\mathcal{G} \setminus \{o_j\}) \cup \{o_h^*\}\)，其中 \(o_h^* \sim \pi_\theta(\cdot | q \oplus h^*)\)。概率比 \(r_{i,t}'(\theta) = \frac{\pi_\theta(o_{i,t}'|o_{i,<t}', q \oplus h^*)}{\pi_{\theta_{\text{old}}}(o_{i,t}'|o_{i,<t}', q \oplus h^*)}\) 是标准 on-policy 比率
- 设计动机：区别于 prefix-based 方法使用 \(\frac{\pi_\theta(\cdot|q)}{\pi_{\theta_{\text{old}}}(\cdot|q \oplus h^*)}\) 这种 off-policy 比率，本方法对 hint-augmented prompt 的两个策略使用相同条件，保证 on-policy 一致性

损失函数 / 训练策略¶

损失函数与标准 GRPO 完全相同（clipped surrogate objective），区别仅在数据层面：\(J_{\text{Scaf-GRPO}}(\theta) = \hat{\mathbb{E}}_{i,t}[\min(r_{i,t}'(\theta)\hat{A}_i', \text{clip}(r_{i,t}'(\theta), 1-\epsilon, 1+\epsilon)\hat{A}_i')]\)。KL 散度惩罚设为 0 以最大化探索。训练 10 epochs，最大响应长度 2048 tokens。

实验关键数据¶

主实验¶

模型 / 基准	指标	Scaf-GRPO	Vanilla GRPO	LUFFY	相对提升
Qwen2.5-Math-7B / AIME24	pass@1	43.3	30.0	33.3	+44.3% vs GRPO
Qwen2.5-Math-7B / AIME25	pass@1	20.0	13.3	16.7	+50.4% vs GRPO
Qwen2.5-Math-7B / AMC	pass@1	70.0	60.0	62.5	+16.7% vs GRPO
Qwen2.5-Math-7B / 7基准平均	pass@1	50.9	45.2	46.6	+12.6% vs GRPO
Qwen2.5-Math-1.5B / 平均	pass@1	41.5	37.6	—	+10.4%
DeepSeek-R1-Distill-1.5B / 平均	pass@1	53.6	50.6	—	+5.9%

消融实验¶

配置	7基准平均	说明
Full K→P→S	50.9	完整三层级
w/o Progressive (Solution-Only)	48.4	直接给最具体 hint
w/o Knowledge Hint	49.2	去掉概念层
w/o Solution Hint	48.0	去掉具体步骤层，降幅最大
w/o Incremental Chunking	47.7	一次性给完整 hint
No Guidance (Vanilla GRPO)	45.2	无引导基线

关键发现¶

渐进式引导比直接给 Solution hint 好 2.5 分——抽象 hint 强迫模型自主推理，培养更泛化的技能
去掉任何一个 hint 层级都导致性能下降，三层互补而非冗余
增量式提供（逐步展示 hint 内容）比一次性提供好 3.2 分——最小干预原则有效
模型能展现从"模仿 hint"到"自主解题"的演化过程

亮点与洞察¶

"路标 vs 铁轨"的比喻非常精准：in-prompt hint 允许模型自由选择推理路径，而 prefix-continuation 强制走预定路线
分层引导豁免期设计巧妙——先让模型自己挣扎一段时间才介入，类似好老师的做法
保持了 GRPO 损失函数的完整性，仅在数据层面干预，工程上简洁优雅

局限与展望¶

三级 hint 需要外部强模型（DeepSeek-R1）预先生成，增加了数据准备成本
目前仅在数学推理任务上验证，代码/逻辑推理等领域的迁移性未知
hint 质量影响显著（用 DeepSeek-R1 vs Qwen-72B 差 4%），对 hint 生成的依赖是潜在瓶颈
引导豁免期百分比（15%）虽在 10%-40% 范围内稳定，但最优值可能因模型而异

评分¶

新颖性: ⭐⭐⭐⭐ 脚手架教学法在 RL 中的应用新颖，in-prompt hint 区别于 prefix-continuation 是关键创新
实验充分度: ⭐⭐⭐⭐ 多模型(Qwen/Llama/DeepSeek)多规模(1.5B~7B)，消融设计精细
写作质量: ⭐⭐⭐⭐ 动机阐述清晰，Figure 2 的训练动态可视化尤其直观
价值: ⭐⭐⭐⭐ 为 RLVR 的学习悬崖问题提供了实用且有理论支撑的解决方案