跳转至

The Impact of Quantization on Large Reasoning Model Reinforcement Learning

会议: NeurIPS 2025 (Workshop: Efficient Reasoning)
arXiv: 2511.15694
代码: https://github.com/d-matrix-ai/rlquant
领域: LLM推理
关键词: 量化, 推理模型, 强化学习, GRPO, QLoRA

一句话总结

系统实验发现在大推理模型的 RL 训练中,量化感知训练(QAFT/STE)会损害推理能力,而训练后量化(PTQ)和 QLoRA 即使在 4-bit 精度下也能很好地保持推理性能,为实践者提供了"先全精度 RL、再 PTQ 量化"的推荐路线。

研究背景与动机

领域现状:大推理模型(LRM)如 DeepSeek-R1 通过 RL(特别是 GRPO 算法)在数学等可验证任务上训练,获得强大推理能力。量化是部署 LLM 的标准技术,但 PTQ 和 QAT 主要在 SFT 场景下研究。

现有痛点:RL 训练与 SFT 本质不同——RL 依赖从模型采样的离散奖励信号来更新策略,量化引入的噪声对这个过程的影响完全未知。实践中,大量 LRM agent 将从同一基础模型派生、通过 RL 特化到不同任务、最终需要量化部署。

核心矛盾:什么时候做量化最好?是在 RL 训练过程中(QAFT/QLoRA),还是训练完后再做(PTQ)?两者的推理性能-内存效率权衡如何?

本文目标:系统评估不同量化策略(QAFT-STE、QLoRA、PTQ-AWQ、PTQ-BnB)在不同精度(4/8-bit)、不同模型规模(0.6B-8B)下对 LRM RL 训练效果的影响。

切入角度:用 Qwen3 系列(0.6B/1.7B/4B/8B)在 MATH 数据集上做 GRPO/drGRPO 训练,比较各种量化组合方案。

核心 idea:RL 过程中的"量化冲击"(sudden quantization shock)会损害策略学习,延后量化(PTQ 或 QLoRA 冻结基模型权重)才是更好的选择。

方法详解

整体框架

基础模型 → RL 训练(GRPO/drGRPO)→ 可选量化 → 数学推理评估。量化可以在三个时机介入:(1) 训练中全程量化感知(QAFT-STE),(2) 训练中使用 QLoRA(冻结量化基模型,只训练低秩适配器),(3) 训练后量化(PTQ)。

关键设计

  1. QAFT with 8-bit STE:

    • 功能:在 RL 训练的每次前向中,对 attention 层的线性权重做 INT8 RTN 量化,用直通估计器(STE)近似反向梯度
    • 核心思路:最简单的量化感知训练方式,权重始终在量化精度下参与计算
    • 问题:量化噪声贯穿整个 RL 过程,产生更差的策略 → 采样出更差的 rollout → 奖励信号质量下降 → 恶性循环
  2. QLoRA 训练:

    • 功能:基模型用 NF4 量化冻结,只训练低秩适配器矩阵(rank=8, α=16),训练完后 merge 回基模型
    • 核心思路:量化权重不参与梯度更新,只有全精度的适配器参数被优化
    • 关键超参:需要更高学习率(\(10^{-4}\) vs GRPO 的 \(10^{-6}\))来克服量化噪声
  3. PTQ via AWQ 和 BitsAndBytes:

    • 功能:RL 训练完全在全精度下完成,之后用 AWQ(数据校准型)或 BnB(无数据型)量化到 4/8-bit
    • 核心思路:保证 RL 阶段的策略学习不受任何量化干扰,只在推理部署时承受量化误差

训练策略

  • 基础模型:Qwen3-0.6B/1.7B/4B/8B
  • RL 算法:GRPO 和 drGRPO
  • 训练数据:MATH Level 3-5,10000 样本,1 epoch,学习率 \(10^{-6}\)
  • 奖励:正确答案 1.0 + 正确格式 0.1
  • 评估:AIME2024, AMC, MATH500, Minerva Math, OlympiadBench

实验关键数据

主实验(Mean Evaluation Reward)

方法 0.6B 1.7B 4B 8B
Base(全精度) 0.164 0.212 0.451 0.473
GRPO(全精度) 0.307 0.418 0.555 0.594
QAFT STE 8-bit 0.242 0.325 0.443 0.496
PTQ BnB 8-bit 0.222 0.366 0.528 0.579
PTQ AWQ 8-bit 0.220 0.364 0.526 0.583
QLoRA 4-bit 0.240 0.382 0.554 0.556
PTQ BnB 4-bit 0.223 0.369 0.527 0.581
PTQ AWQ 4-bit 0.225 0.366 0.533 0.574

关键对比

量化策略 vs 全精度 GRPO 说明
QAFT STE 8-bit 大幅下降(8B: 0.496 vs 0.594) 甚至不如未经 RL 的 Base 模型(4B)
PTQ 4-bit 仅略微下降(8B: 0.574-0.581 vs 0.594) 即使 4-bit 也保持约 97% 性能
QLoRA 4-bit 4B 几乎无损;8B 有些下降 在中等规模性价比最高

关键发现

  • QAFT 是最差选择:在>0.6B 的所有模型上,STE 8-bit 的性能甚至低于全精度 GRPO 之后再做 4-bit PTQ,说明 RL 过程中的量化噪声比推理时的量化误差破坏性大得多
  • PTQ 4-bit ≈ PTQ 8-bit:在大模型上(4B/8B),4-bit 和 8-bit PTQ 的性能差距极小(<1%),说明全精度 RL 训练后的模型对 PTQ 有很强的鲁棒性
  • 生成长度很重要:4B/8B 模型在 512 token 限制下学不好,1024 token 后显著提升(4B: 0.487→0.555),说明推理模型需要足够的"思考空间"
  • 量化优于小模型:量化后的大模型在 Pareto 前沿上优于全精度小模型(如 4-bit 8B > 全精度 4B)

亮点与洞察

  • 填补空白:首次系统研究量化对 LRM RL 训练的影响,此前这个交叉领域完全空白
  • 实践指导清晰:给出了明确建议——全精度做 RL,然后用 PTQ 或 QLoRA 量化,避免 QAFT
  • "量化冲击"假说:RL 对量化噪声比 SFT 更敏感,因为 RL 依赖采样质量,量化导致的策略退化会通过 rollout 质量传导到奖励信号

局限与展望

  • Workshop paper,实验规模有限:只用了一个模型系列(Qwen3)、一个任务(数学推理),泛化性未验证
  • 未探索"先 QAT 再 RL":如果在预训练阶段就引入量化感知,再做 RL 可能效果不同
  • QLoRA 在 8B 上异常:QLoRA 4-bit 在 8B 上性能(0.556)反而低于 PTQ 4-bit(0.581),原因未深入分析
  • 缺少 perplexity 等中间诊断:只看最终 reward,不清楚量化在哪个阶段/哪种 token 上影响最大
  • 未测试更激进的量化:如 2-bit 或 mixed-precision 策略

相关工作与启发

  • vs 传统 QAT/PTQ 研究: 传统研究在 SFT 场景下 QAT 通常优于 PTQ;本文发现在 RL 场景下规律反转,说明 RL 的采样-奖励循环对量化噪声有独特的脆弱性
  • vs QLoRA (Dettmers et al.): 原始 QLoRA 设计用于 SFT,本文验证了其在 RL 场景下的有效性,且低秩适配器的"隔离"效应(量化权重冻结)恰好保护了 RL 的学习过程

评分

  • 新颖性: ⭐⭐⭐ 问题新颖(量化+RL LRM 的首次研究),但方法只是组合现有技术做实验,无新方法提出
  • 实验充分度: ⭐⭐⭐ 4个模型规模×多种量化方案的矩阵实验设计合理,但只有数学推理一个领域
  • 写作质量: ⭐⭐⭐⭐ Workshop paper 写得简洁清晰,结论明确
  • 价值: ⭐⭐⭐⭐ 对 LRM 部署实践具有直接指导意义,结论意外且重要(QAFT 反而最差)