The Impact of Quantization on Large Reasoning Model Reinforcement Learning¶
会议: NeurIPS 2025 (Workshop: Efficient Reasoning)
arXiv: 2511.15694
代码: https://github.com/d-matrix-ai/rlquant
领域: LLM推理
关键词: 量化, 推理模型, 强化学习, GRPO, QLoRA
一句话总结¶
系统实验发现在大推理模型的 RL 训练中,量化感知训练(QAFT/STE)会损害推理能力,而训练后量化(PTQ)和 QLoRA 即使在 4-bit 精度下也能很好地保持推理性能,为实践者提供了"先全精度 RL、再 PTQ 量化"的推荐路线。
研究背景与动机¶
领域现状:大推理模型(LRM)如 DeepSeek-R1 通过 RL(特别是 GRPO 算法)在数学等可验证任务上训练,获得强大推理能力。量化是部署 LLM 的标准技术,但 PTQ 和 QAT 主要在 SFT 场景下研究。
现有痛点:RL 训练与 SFT 本质不同——RL 依赖从模型采样的离散奖励信号来更新策略,量化引入的噪声对这个过程的影响完全未知。实践中,大量 LRM agent 将从同一基础模型派生、通过 RL 特化到不同任务、最终需要量化部署。
核心矛盾:什么时候做量化最好?是在 RL 训练过程中(QAFT/QLoRA),还是训练完后再做(PTQ)?两者的推理性能-内存效率权衡如何?
本文目标:系统评估不同量化策略(QAFT-STE、QLoRA、PTQ-AWQ、PTQ-BnB)在不同精度(4/8-bit)、不同模型规模(0.6B-8B)下对 LRM RL 训练效果的影响。
切入角度:用 Qwen3 系列(0.6B/1.7B/4B/8B)在 MATH 数据集上做 GRPO/drGRPO 训练,比较各种量化组合方案。
核心 idea:RL 过程中的"量化冲击"(sudden quantization shock)会损害策略学习,延后量化(PTQ 或 QLoRA 冻结基模型权重)才是更好的选择。
方法详解¶
整体框架¶
基础模型 → RL 训练(GRPO/drGRPO)→ 可选量化 → 数学推理评估。量化可以在三个时机介入:(1) 训练中全程量化感知(QAFT-STE),(2) 训练中使用 QLoRA(冻结量化基模型,只训练低秩适配器),(3) 训练后量化(PTQ)。
关键设计¶
-
QAFT with 8-bit STE:
- 功能:在 RL 训练的每次前向中,对 attention 层的线性权重做 INT8 RTN 量化,用直通估计器(STE)近似反向梯度
- 核心思路:最简单的量化感知训练方式,权重始终在量化精度下参与计算
- 问题:量化噪声贯穿整个 RL 过程,产生更差的策略 → 采样出更差的 rollout → 奖励信号质量下降 → 恶性循环
-
QLoRA 训练:
- 功能:基模型用 NF4 量化冻结,只训练低秩适配器矩阵(rank=8, α=16),训练完后 merge 回基模型
- 核心思路:量化权重不参与梯度更新,只有全精度的适配器参数被优化
- 关键超参:需要更高学习率(\(10^{-4}\) vs GRPO 的 \(10^{-6}\))来克服量化噪声
-
PTQ via AWQ 和 BitsAndBytes:
- 功能:RL 训练完全在全精度下完成,之后用 AWQ(数据校准型)或 BnB(无数据型)量化到 4/8-bit
- 核心思路:保证 RL 阶段的策略学习不受任何量化干扰,只在推理部署时承受量化误差
训练策略¶
- 基础模型:Qwen3-0.6B/1.7B/4B/8B
- RL 算法:GRPO 和 drGRPO
- 训练数据:MATH Level 3-5,10000 样本,1 epoch,学习率 \(10^{-6}\)
- 奖励:正确答案 1.0 + 正确格式 0.1
- 评估:AIME2024, AMC, MATH500, Minerva Math, OlympiadBench
实验关键数据¶
主实验(Mean Evaluation Reward)¶
| 方法 | 0.6B | 1.7B | 4B | 8B |
|---|---|---|---|---|
| Base(全精度) | 0.164 | 0.212 | 0.451 | 0.473 |
| GRPO(全精度) | 0.307 | 0.418 | 0.555 | 0.594 |
| QAFT STE 8-bit | 0.242 | 0.325 | 0.443 | 0.496 |
| PTQ BnB 8-bit | 0.222 | 0.366 | 0.528 | 0.579 |
| PTQ AWQ 8-bit | 0.220 | 0.364 | 0.526 | 0.583 |
| QLoRA 4-bit | 0.240 | 0.382 | 0.554 | 0.556 |
| PTQ BnB 4-bit | 0.223 | 0.369 | 0.527 | 0.581 |
| PTQ AWQ 4-bit | 0.225 | 0.366 | 0.533 | 0.574 |
关键对比¶
| 量化策略 | vs 全精度 GRPO | 说明 |
|---|---|---|
| QAFT STE 8-bit | 大幅下降(8B: 0.496 vs 0.594) | 甚至不如未经 RL 的 Base 模型(4B) |
| PTQ 4-bit | 仅略微下降(8B: 0.574-0.581 vs 0.594) | 即使 4-bit 也保持约 97% 性能 |
| QLoRA 4-bit | 4B 几乎无损;8B 有些下降 | 在中等规模性价比最高 |
关键发现¶
- QAFT 是最差选择:在>0.6B 的所有模型上,STE 8-bit 的性能甚至低于全精度 GRPO 之后再做 4-bit PTQ,说明 RL 过程中的量化噪声比推理时的量化误差破坏性大得多
- PTQ 4-bit ≈ PTQ 8-bit:在大模型上(4B/8B),4-bit 和 8-bit PTQ 的性能差距极小(<1%),说明全精度 RL 训练后的模型对 PTQ 有很强的鲁棒性
- 生成长度很重要:4B/8B 模型在 512 token 限制下学不好,1024 token 后显著提升(4B: 0.487→0.555),说明推理模型需要足够的"思考空间"
- 量化优于小模型:量化后的大模型在 Pareto 前沿上优于全精度小模型(如 4-bit 8B > 全精度 4B)
亮点与洞察¶
- 填补空白:首次系统研究量化对 LRM RL 训练的影响,此前这个交叉领域完全空白
- 实践指导清晰:给出了明确建议——全精度做 RL,然后用 PTQ 或 QLoRA 量化,避免 QAFT
- "量化冲击"假说:RL 对量化噪声比 SFT 更敏感,因为 RL 依赖采样质量,量化导致的策略退化会通过 rollout 质量传导到奖励信号
局限与展望¶
- Workshop paper,实验规模有限:只用了一个模型系列(Qwen3)、一个任务(数学推理),泛化性未验证
- 未探索"先 QAT 再 RL":如果在预训练阶段就引入量化感知,再做 RL 可能效果不同
- QLoRA 在 8B 上异常:QLoRA 4-bit 在 8B 上性能(0.556)反而低于 PTQ 4-bit(0.581),原因未深入分析
- 缺少 perplexity 等中间诊断:只看最终 reward,不清楚量化在哪个阶段/哪种 token 上影响最大
- 未测试更激进的量化:如 2-bit 或 mixed-precision 策略
相关工作与启发¶
- vs 传统 QAT/PTQ 研究: 传统研究在 SFT 场景下 QAT 通常优于 PTQ;本文发现在 RL 场景下规律反转,说明 RL 的采样-奖励循环对量化噪声有独特的脆弱性
- vs QLoRA (Dettmers et al.): 原始 QLoRA 设计用于 SFT,本文验证了其在 RL 场景下的有效性,且低秩适配器的"隔离"效应(量化权重冻结)恰好保护了 RL 的学习过程
评分¶
- 新颖性: ⭐⭐⭐ 问题新颖(量化+RL LRM 的首次研究),但方法只是组合现有技术做实验,无新方法提出
- 实验充分度: ⭐⭐⭐ 4个模型规模×多种量化方案的矩阵实验设计合理,但只有数学推理一个领域
- 写作质量: ⭐⭐⭐⭐ Workshop paper 写得简洁清晰,结论明确
- 价值: ⭐⭐⭐⭐ 对 LRM 部署实践具有直接指导意义,结论意外且重要(QAFT 反而最差)