The Impact of Quantization on Large Reasoning Model Reinforcement Learning¶

会议: NeurIPS 2025 (Workshop: Efficient Reasoning)
arXiv: 2511.15694
代码: https://github.com/d-matrix-ai/rlquant
领域: LLM推理
关键词: 量化, 推理模型, 强化学习, GRPO, QLoRA

一句话总结¶

系统实验发现在大推理模型的 RL 训练中，量化感知训练（QAFT/STE）会损害推理能力，而训练后量化（PTQ）和 QLoRA 即使在 4-bit 精度下也能很好地保持推理性能，为实践者提供了"先全精度 RL、再 PTQ 量化"的推荐路线。

研究背景与动机¶

领域现状：大推理模型（LRM）如 DeepSeek-R1 通过 RL（特别是 GRPO 算法）在数学等可验证任务上训练，获得强大推理能力。量化是部署 LLM 的标准技术，但 PTQ 和 QAT 主要在 SFT 场景下研究。

现有痛点：RL 训练与 SFT 本质不同——RL 依赖从模型采样的离散奖励信号来更新策略，量化引入的噪声对这个过程的影响完全未知。实践中，大量 LRM agent 将从同一基础模型派生、通过 RL 特化到不同任务、最终需要量化部署。

核心矛盾：什么时候做量化最好？是在 RL 训练过程中（QAFT/QLoRA），还是训练完后再做（PTQ）？两者的推理性能-内存效率权衡如何？

本文目标：系统评估不同量化策略（QAFT-STE、QLoRA、PTQ-AWQ、PTQ-BnB）在不同精度（4/8-bit）、不同模型规模（0.6B-8B）下对 LRM RL 训练效果的影响。

切入角度：用 Qwen3 系列（0.6B/1.7B/4B/8B）在 MATH 数据集上做 GRPO/drGRPO 训练，比较各种量化组合方案。

核心 idea：RL 过程中的"量化冲击"（sudden quantization shock）会损害策略学习，延后量化（PTQ 或 QLoRA 冻结基模型权重）才是更好的选择。

方法详解¶

整体框架¶

基础模型 → RL 训练（GRPO/drGRPO）→ 可选量化 → 数学推理评估。量化可以在三个时机介入：(1) 训练中全程量化感知（QAFT-STE），(2) 训练中使用 QLoRA（冻结量化基模型，只训练低秩适配器），(3) 训练后量化（PTQ）。

关键设计¶

QAFT with 8-bit STE:
- 功能：在 RL 训练的每次前向中，对 attention 层的线性权重做 INT8 RTN 量化，用直通估计器（STE）近似反向梯度
- 核心思路：最简单的量化感知训练方式，权重始终在量化精度下参与计算
- 问题：量化噪声贯穿整个 RL 过程，产生更差的策略 → 采样出更差的 rollout → 奖励信号质量下降 → 恶性循环
QLoRA 训练:
- 功能：基模型用 NF4 量化冻结，只训练低秩适配器矩阵（rank=8, α=16），训练完后 merge 回基模型
- 核心思路：量化权重不参与梯度更新，只有全精度的适配器参数被优化
- 关键超参：需要更高学习率（\(10^{-4}\) vs GRPO 的 \(10^{-6}\)）来克服量化噪声
PTQ via AWQ 和 BitsAndBytes:
- 功能：RL 训练完全在全精度下完成，之后用 AWQ（数据校准型）或 BnB（无数据型）量化到 4/8-bit
- 核心思路：保证 RL 阶段的策略学习不受任何量化干扰，只在推理部署时承受量化误差

训练策略¶

基础模型：Qwen3-0.6B/1.7B/4B/8B
RL 算法：GRPO 和 drGRPO
训练数据：MATH Level 3-5，10000 样本，1 epoch，学习率 \(10^{-6}\)
奖励：正确答案 1.0 + 正确格式 0.1
评估：AIME2024, AMC, MATH500, Minerva Math, OlympiadBench

实验关键数据¶

主实验（Mean Evaluation Reward）¶

方法	0.6B	1.7B	4B	8B
Base（全精度）	0.164	0.212	0.451	0.473
GRPO（全精度）	0.307	0.418	0.555	0.594
QAFT STE 8-bit	0.242	0.325	0.443	0.496
PTQ BnB 8-bit	0.222	0.366	0.528	0.579
PTQ AWQ 8-bit	0.220	0.364	0.526	0.583
QLoRA 4-bit	0.240	0.382	0.554	0.556
PTQ BnB 4-bit	0.223	0.369	0.527	0.581
PTQ AWQ 4-bit	0.225	0.366	0.533	0.574

关键对比¶

量化策略	vs 全精度 GRPO	说明
QAFT STE 8-bit	大幅下降（8B: 0.496 vs 0.594）	甚至不如未经 RL 的 Base 模型（4B）
PTQ 4-bit	仅略微下降（8B: 0.574-0.581 vs 0.594）	即使 4-bit 也保持约 97% 性能
QLoRA 4-bit	4B 几乎无损；8B 有些下降	在中等规模性价比最高

关键发现¶

QAFT 是最差选择：在>0.6B 的所有模型上，STE 8-bit 的性能甚至低于全精度 GRPO 之后再做 4-bit PTQ，说明 RL 过程中的量化噪声比推理时的量化误差破坏性大得多
PTQ 4-bit ≈ PTQ 8-bit：在大模型上（4B/8B），4-bit 和 8-bit PTQ 的性能差距极小（<1%），说明全精度 RL 训练后的模型对 PTQ 有很强的鲁棒性
生成长度很重要：4B/8B 模型在 512 token 限制下学不好，1024 token 后显著提升（4B: 0.487→0.555），说明推理模型需要足够的"思考空间"
量化优于小模型：量化后的大模型在 Pareto 前沿上优于全精度小模型（如 4-bit 8B > 全精度 4B）

亮点与洞察¶

填补空白：首次系统研究量化对 LRM RL 训练的影响，此前这个交叉领域完全空白
实践指导清晰：给出了明确建议——全精度做 RL，然后用 PTQ 或 QLoRA 量化，避免 QAFT
"量化冲击"假说：RL 对量化噪声比 SFT 更敏感，因为 RL 依赖采样质量，量化导致的策略退化会通过 rollout 质量传导到奖励信号

局限与展望¶

Workshop paper，实验规模有限：只用了一个模型系列（Qwen3）、一个任务（数学推理），泛化性未验证
未探索"先 QAT 再 RL"：如果在预训练阶段就引入量化感知，再做 RL 可能效果不同
QLoRA 在 8B 上异常：QLoRA 4-bit 在 8B 上性能(0.556)反而低于 PTQ 4-bit(0.581)，原因未深入分析
缺少 perplexity 等中间诊断：只看最终 reward，不清楚量化在哪个阶段/哪种 token 上影响最大
未测试更激进的量化：如 2-bit 或 mixed-precision 策略

评分¶

新颖性: ⭐⭐⭐ 问题新颖（量化+RL LRM 的首次研究），但方法只是组合现有技术做实验，无新方法提出
实验充分度: ⭐⭐⭐ 4个模型规模×多种量化方案的矩阵实验设计合理，但只有数学推理一个领域
写作质量: ⭐⭐⭐⭐ Workshop paper 写得简洁清晰，结论明确
价值: ⭐⭐⭐⭐ 对 LRM 部署实践具有直接指导意义，结论意外且重要（QAFT 反而最差）