FastGRPO: Accelerating Policy Optimization via Concurrency-aware Speculative Decoding and Online Draft Learning¶

会议: ICLR 2026
arXiv: 2509.21792
代码: GitHub
领域: LLM推理
关键词: GRPO加速, 投机解码, 并发感知, 在线Draft学习, 强化学习训练

一句话总结¶

针对GRPO训练中生成阶段占91%-98%时间的严重瓶颈，提出并发感知的投机解码策略（动态调整draft树参数以适配从高到低的实时并发度变化）和在线draft模型学习（利用目标模型生成的hidden states持续适配分布漂移），整体实现2.35x-2.72x端到端训练加速，且不损害推理质量。

研究背景与动机¶

领域现状: GRPO是提升LLM推理能力的主流RL框架(DeepSeek-R1/DAPO等)，但相比SFT训练吞吐量极低，严重阻碍了实验迭代速度
瓶颈量化分析: 生成阶段(rollout采样)占GRPO总训练时间的91%-98%。更关键的是，随着模型能力增长输出变长，生成与更新的时间比从6x增长到20x以上，问题持续恶化
投机解码的高并发困境: 标准投机解码在低并发(B=1)下有效，但在GRPO的高并发(大batch)场景下几乎无加速甚至减速(speedup<1.0x)。原因是额外的计算开销使系统从memory-bound跨越到compute-bound
GRPO独有的动态并发特性: 生成过程中有效并发度动态变化——初始为高batch，但不同序列在不同时间结束(长度差异达3-5倍)，导致有效并发度逐渐从高降至接近1
分布漂移问题: 训练过程中目标模型持续更新，与固定draft模型的分布差距逐渐增大，导致投机接受率下降、加速效果随训练步数递减
已有方法不足: EAGLE-2/HASS/EAGLE-3在GRPO框架中仅获得1.1x-1.3x加速，远低于标准推理场景

方法详解¶

整体框架¶

FastGRPO = 并发感知投机解码(生成阶段加速) + 在线Draft学习(参数更新阶段维护draft模型)。两者协同作用：前者最大化不同并发度下的硬件利用率，后者保证加速效果不随训练衰减。

关键设计¶

1. 并发感知投机解码: - 核心思想: 让验证阶段的有效batch size始终维持在硬件最优并发度 \(C_{\text{peak}}\)（GPU从memory-bound到compute-bound的转折点） - 验证token数: \(N_{\text{verify}} = C_{\text{peak}} / B\)，B为当前有效batch size - Draft树宽度: \(K_{\text{draft}} = \min(N_{\text{verify}}-1, K^{\max})\) - Draft树深度: \(L_{\text{draft}} = \min(\lfloor\log_2(N_{\text{verify}}/\alpha)\rfloor, L^{\max})\)，\(\alpha\)编码draft模型质量 - 运行时效果: 训练初期高并发→保守投机(小树)避免计算瓶颈；后期序列完成、并发降低→激进投机(大树)充分利用空闲计算资源 - 理论基础: 通过operational intensity分析将GEMM特性与投机解码超参优雅连接：\(I_{\text{GEMM}} \approx 2B/s\)

2. 在线Draft学习: - 在GRPO每轮迭代中，用目标模型当前生成的hidden states作为监督信号更新draft模型 - 额外计算开销仅2%-3%——因为hidden states在生成阶段已自然产生并可缓存，本质上是"免费"的监督信号 - 效果: 接受长度(accepted length)随训练持续上升，vs 固定draft模型持续下降 - 即使完全跳过预训练，在线学习也能在1-2 epoch内从零收敛到同等接受率水平

训练策略¶

交替冻结: Draft训练阶段冻结目标模型，GRPO更新阶段冻结draft模型
Draft模型采用EAGLE架构，用ShareGPT-68K预训练10 epoch，学习率1e-4（AdamW）
零reward的rollout数据虽不能用于目标模型更新，但仍可作为draft模型的有效训练信号，减少数据浪费

实验关键数据¶

主实验表¶

模型	方法	GSM8K E2E SR	SimpleRL E2E SR	DAPO E2E SR	平均
Qwen2.5-7B-I	EAGLE-3	1.26x	1.20x	1.13x	1.20x
Qwen2.5-7B-I	FastGRPO	2.43x	2.52x	2.53x	2.49x
Llama3.1-8B-I	EAGLE-3	1.31x	1.28x	1.23x	1.27x
Llama3.1-8B-I	FastGRPO	2.51x	2.69x	2.67x	2.62x
DS-R1-Qwen-7B	FastGRPO	2.69x	—	—	—

消融实验表¶

配置	生成SR	端到端SR	说明
FastGRPO (完整)	2.91	2.52	最优配置
w/o 在线Draft学习	2.16	2.01	在线学习贡献0.5x加速
w/o 并发感知	2.59	2.30	并发感知贡献0.2x加速
vanilla + early termination	1.68	1.61	基线对比

关键发现¶

5个模型(Qwen2.5-7B/1.5B-I, Llama3.1-8B-I, DS-R1-Qwen-7B, Qwen2.5-Math-7B) × 3个数据集全面验证，FastGRPO一致超越所有基线2x以上
训练后的数学推理准确率与标准GRPO基本一致，甚至略高——加速不损害质量
在GRPO变体(DAPO/GPG)上同样有效，端到端加速比>2x
在线Draft学习的贡献(0.5x)大于并发感知(0.2x)，说明分布漂移是更大的瓶颈

亮点与洞察¶

发现GRPO独有的并发度动态变化特性: 这是GRPO与标准推理场景的根本差异，且被所有此前工作忽视
理论分析的优雅性: 通过operational intensity分析将硬件特性与投机解码超参连接，使策略设计有理论支撑
在线Draft学习的巧妙之处: 复用已有hidden states作为监督信号，额外开销仅2-3%，属于"几乎免费的午餐"
快速部署能力: 即使不预训练draft模型，在线学习1-2 epoch即可达到满效果

局限与展望¶

\(C_{\text{peak}}\) 需要针对每种GPU/模型组合做empirical profiling，自动化profiling工具可提升易用性
仅在数学推理数据集上验证，代码生成/通用推理/对话等场景的效果未知
Draft模型架构固定为EAGLE系列，未探索Medusa等其他架构的适配
多节点分布式训练场景下的通信开销与并发感知策略的交互未讨论
\(\alpha\)超参编码draft模型质量，不同训练阶段的动态调整可能进一步提升

评分¶

新颖性: ⭐⭐⭐⭐⭐ (并发感知+在线Draft学习的组合极具洞察力)
实验充分度: ⭐⭐⭐⭐⭐ (5模型3数据集+消融+变体验证)
写作质量: ⭐⭐⭐⭐ (理论分析清晰，实验布局合理)
价值: ⭐⭐⭐⭐⭐ (GRPO训练加速的即插即用方案，工程价值极高)

评分¶

新颖性: ⭐⭐⭐⭐ 并发感知+在线学习的组合方案针对性强
实验充分度: ⭐⭐⭐⭐⭐ 5模型3数据集+GRPO变体迁移+充分消融
写作质量: ⭐⭐⭐⭐ 动机→观察→方法逻辑清晰
价值: ⭐⭐⭐⭐⭐ 直接降低GRPO训练成本2-3倍，工程价值极高