FastGRPO: Accelerating Policy Optimization via Concurrency-aware Speculative Decoding and Online Draft Learning¶
会议: ICLR 2026
arXiv: 2509.21792
代码: GitHub
领域: LLM推理
关键词: GRPO加速, 投机解码, 并发感知, 在线Draft学习, 强化学习训练
一句话总结¶
针对GRPO训练中生成阶段占91%-98%时间的严重瓶颈,提出并发感知的投机解码策略(动态调整draft树参数以适配从高到低的实时并发度变化)和在线draft模型学习(利用目标模型生成的hidden states持续适配分布漂移),整体实现2.35x-2.72x端到端训练加速,且不损害推理质量。
研究背景与动机¶
- 领域现状: GRPO是提升LLM推理能力的主流RL框架(DeepSeek-R1/DAPO等),但相比SFT训练吞吐量极低,严重阻碍了实验迭代速度
- 瓶颈量化分析: 生成阶段(rollout采样)占GRPO总训练时间的91%-98%。更关键的是,随着模型能力增长输出变长,生成与更新的时间比从6x增长到20x以上,问题持续恶化
- 投机解码的高并发困境: 标准投机解码在低并发(B=1)下有效,但在GRPO的高并发(大batch)场景下几乎无加速甚至减速(speedup<1.0x)。原因是额外的计算开销使系统从memory-bound跨越到compute-bound
- GRPO独有的动态并发特性: 生成过程中有效并发度动态变化——初始为高batch,但不同序列在不同时间结束(长度差异达3-5倍),导致有效并发度逐渐从高降至接近1
- 分布漂移问题: 训练过程中目标模型持续更新,与固定draft模型的分布差距逐渐增大,导致投机接受率下降、加速效果随训练步数递减
- 已有方法不足: EAGLE-2/HASS/EAGLE-3在GRPO框架中仅获得1.1x-1.3x加速,远低于标准推理场景
方法详解¶
整体框架¶
FastGRPO = 并发感知投机解码(生成阶段加速) + 在线Draft学习(参数更新阶段维护draft模型)。两者协同作用:前者最大化不同并发度下的硬件利用率,后者保证加速效果不随训练衰减。
关键设计¶
1. 并发感知投机解码: - 核心思想: 让验证阶段的有效batch size始终维持在硬件最优并发度 \(C_{\text{peak}}\)(GPU从memory-bound到compute-bound的转折点) - 验证token数: \(N_{\text{verify}} = C_{\text{peak}} / B\),B为当前有效batch size - Draft树宽度: \(K_{\text{draft}} = \min(N_{\text{verify}}-1, K^{\max})\) - Draft树深度: \(L_{\text{draft}} = \min(\lfloor\log_2(N_{\text{verify}}/\alpha)\rfloor, L^{\max})\),\(\alpha\)编码draft模型质量 - 运行时效果: 训练初期高并发→保守投机(小树)避免计算瓶颈;后期序列完成、并发降低→激进投机(大树)充分利用空闲计算资源 - 理论基础: 通过operational intensity分析将GEMM特性与投机解码超参优雅连接:\(I_{\text{GEMM}} \approx 2B/s\)
2. 在线Draft学习: - 在GRPO每轮迭代中,用目标模型当前生成的hidden states作为监督信号更新draft模型 - 额外计算开销仅2%-3%——因为hidden states在生成阶段已自然产生并可缓存,本质上是"免费"的监督信号 - 效果: 接受长度(accepted length)随训练持续上升,vs 固定draft模型持续下降 - 即使完全跳过预训练,在线学习也能在1-2 epoch内从零收敛到同等接受率水平
训练策略¶
- 交替冻结: Draft训练阶段冻结目标模型,GRPO更新阶段冻结draft模型
- Draft模型采用EAGLE架构,用ShareGPT-68K预训练10 epoch,学习率1e-4(AdamW)
- 零reward的rollout数据虽不能用于目标模型更新,但仍可作为draft模型的有效训练信号,减少数据浪费
实验关键数据¶
主实验表¶
| 模型 | 方法 | GSM8K E2E SR | SimpleRL E2E SR | DAPO E2E SR | 平均 |
|---|---|---|---|---|---|
| Qwen2.5-7B-I | EAGLE-3 | 1.26x | 1.20x | 1.13x | 1.20x |
| Qwen2.5-7B-I | FastGRPO | 2.43x | 2.52x | 2.53x | 2.49x |
| Llama3.1-8B-I | EAGLE-3 | 1.31x | 1.28x | 1.23x | 1.27x |
| Llama3.1-8B-I | FastGRPO | 2.51x | 2.69x | 2.67x | 2.62x |
| DS-R1-Qwen-7B | FastGRPO | 2.69x | — | — | — |
消融实验表¶
| 配置 | 生成SR | 端到端SR | 说明 |
|---|---|---|---|
| FastGRPO (完整) | 2.91 | 2.52 | 最优配置 |
| w/o 在线Draft学习 | 2.16 | 2.01 | 在线学习贡献0.5x加速 |
| w/o 并发感知 | 2.59 | 2.30 | 并发感知贡献0.2x加速 |
| vanilla + early termination | 1.68 | 1.61 | 基线对比 |
关键发现¶
- 5个模型(Qwen2.5-7B/1.5B-I, Llama3.1-8B-I, DS-R1-Qwen-7B, Qwen2.5-Math-7B) × 3个数据集全面验证,FastGRPO一致超越所有基线2x以上
- 训练后的数学推理准确率与标准GRPO基本一致,甚至略高——加速不损害质量
- 在GRPO变体(DAPO/GPG)上同样有效,端到端加速比>2x
- 在线Draft学习的贡献(0.5x)大于并发感知(0.2x),说明分布漂移是更大的瓶颈
亮点与洞察¶
- 发现GRPO独有的并发度动态变化特性: 这是GRPO与标准推理场景的根本差异,且被所有此前工作忽视
- 理论分析的优雅性: 通过operational intensity分析将硬件特性与投机解码超参连接,使策略设计有理论支撑
- 在线Draft学习的巧妙之处: 复用已有hidden states作为监督信号,额外开销仅2-3%,属于"几乎免费的午餐"
- 快速部署能力: 即使不预训练draft模型,在线学习1-2 epoch即可达到满效果
局限与展望¶
- \(C_{\text{peak}}\) 需要针对每种GPU/模型组合做empirical profiling,自动化profiling工具可提升易用性
- 仅在数学推理数据集上验证,代码生成/通用推理/对话等场景的效果未知
- Draft模型架构固定为EAGLE系列,未探索Medusa等其他架构的适配
- 多节点分布式训练场景下的通信开销与并发感知策略的交互未讨论
- \(\alpha\)超参编码draft模型质量,不同训练阶段的动态调整可能进一步提升
相关工作与启发¶
- vs EAGLE-2/HASS/EAGLE-3: 这些方法在GRPO的高并发场景下加速有限,FastGRPO的核心创新是动态适配并发度变化
- vs 标准推理加速: 投机解码传统上针对低并发推理部署,FastGRPO首次将其适配到高并发的RL训练场景
- 启发: RL训练与推理部署有本质区别(动态并发、分布漂移),为这些特性设计专门的加速策略可获得显著收益
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ (并发感知+在线Draft学习的组合极具洞察力)
- 实验充分度: ⭐⭐⭐⭐⭐ (5模型3数据集+消融+变体验证)
- 写作质量: ⭐⭐⭐⭐ (理论分析清晰,实验布局合理)
- 价值: ⭐⭐⭐⭐⭐ (GRPO训练加速的即插即用方案,工程价值极高)
评分¶
- 新颖性: ⭐⭐⭐⭐ 并发感知+在线学习的组合方案针对性强
- 实验充分度: ⭐⭐⭐⭐⭐ 5模型3数据集+GRPO变体迁移+充分消融
- 写作质量: ⭐⭐⭐⭐ 动机→观察→方法逻辑清晰
- 价值: ⭐⭐⭐⭐⭐ 直接降低GRPO训练成本2-3倍,工程价值极高