When Reasoning Meets Compression: Understanding the Effects of LLMs Compression on Large Reasoning Models¶
会议: ICLR 2026
arXiv: 2504.02010
代码: psunlpgroup/Compression-Effects
领域: LLM推理
关键词: 模型压缩, 大推理模型, 量化, 蒸馏, 剪枝, 机制可解释性
一句话总结¶
系统性基准测试与机制解释压缩(量化/蒸馏/剪枝)对大推理模型的影响,发现三大核心结论:参数数量对知识记忆影响大于推理能力;蒸馏模型最后一层 MLP up_proj 是最关键权重;保护仅 2% 的被过度压缩权重即可提升平均准确率 6.57%。
研究背景与动机¶
LRM 的部署瓶颈:DeepSeek-R1 等大推理模型在复杂推理任务上表现优异,但 671B 参数规模使部署成本极高,压缩是 AI 民主化的关键。
现有研究的三大不足: - 缺乏在推理密集型数据集上对量化、蒸馏、剪枝的全面对比 - 未深入分析压缩如何影响模型的知识记忆与推理能力 - 缺乏压缩效果的可解释性分析——哪些权重对推理最重要?这是压缩研究的根本问题
核心研究问题:大推理模型的推理能力在压缩过程中是如何被损害的?
方法详解¶
整体框架¶
本文采用双视角研究:性能基准测试 + 机制解释。
- 基准测试:对 DeepSeek-R1 及其压缩变体进行全面评测,覆盖动态量化(Unsloth)、AWQ、GPTQ、GPTAQ、ANY4/3、SFT 蒸馏、SparseGPT、AlphaPruning
- 机制解释:适配 difference of means 和 attribution patching 技术,量化每个线性模块对四种推理行为(回溯、不确定性估计、示例测试、添加知识)的因果贡献
关键设计¶
权重重要性量化:对模型每一层的每个线性模块(q_proj, k_proj, v_proj, o_proj, gate_proj, up_proj, down_proj),通过两步计算其对特定推理行为的重要性分数:
- Difference of Means:提取每个线性模块在特定推理行为 token 上的引导向量 u,表达该行为在激活空间中的数值表示
- Attribution Patching:计算引导向量与模块激活梯度的点积,得到重要性分数 I_mℓ^c,值越高说明该模块与推理行为的因果关系越强
压缩效果解码:计算相对重要性 RI(归一化后的 I),追踪压缩前后的重要性偏移。理想情况下偏移应最小——偏移越大说明压缩对该模块的破坏越严重。
评测设计¶
- 4 个推理数据集:AIME 2024(数学)、FOLIO(逻辑)、Temporal Sequences(时序)、MuSiQue(多跳+知识,closed-book)
- 120 个实例用于可解释性分析(每个数据集 30 个)
- 每个模型运行 3 次取平均(除 R1 和动态量化版本)
实验关键数据¶
主实验¶
DeepSeek-R1 及其压缩变体在 4 个推理基准上的表现:
| 模型/压缩方式 | AIME 2024 | FOLIO | Temporal | 平均 | MuSiQue EM |
|---|---|---|---|---|---|
| R1 (671B, 原始) | 73.3 | 76.4 | 99.6 | 83.1 | 17.0 |
| R1 (2.51-bit) | 76.7 | 77.8 | 100.0 | 84.8 | 17.0 |
| R1 (1.58-bit) | 66.7 | 75.4 | 94.0 | 78.7 | 14.0 |
| R1-Distill-Llama-70B | 65.6 | 79.8 | 99.9 | 81.8 | 13.3 |
| R1-Distill-Llama-70B + 50% SparseGPT | 23.3 | 71.6 | 97.6 | 64.2 | 6.7 |
| R1-Distill-Llama-8B | 42.2 | 71.9 | 81.5 | 65.2 | 0.0 |
| R1-Distill-Llama-8B + 4-bit AWQ | 47.8 | 68.0 | 84.0 | 66.6 | 0.3 |
| R1-Distill-Llama-8B + 3-bit GPTQ | 11.1 | 65.0 | 67.3 | 47.8 | 0.0 |
消融实验¶
选择性量化验证权重重要性(R1-Distill-Llama-8B,仅量化单个模块至 3-bit):
| 被量化模块 | 重要性排名 | AIME 2024 | FOLIO | Temporal | 平均 |
|---|---|---|---|---|---|
| 未量化参考 | - | 42.2 | 71.9 | 81.5 | 65.2 |
| 32_up(最后层 up_proj) | 第1 | 20.0 | 63.1 | 63.6 | 48.9 |
| 32_gate | 第2(同层) | 33.3 | 62.1 | 67.2 | 54.2 |
| 32_v | 最末(同层) | 43.3 | 68.0 | 79.6 | 63.6 |
| 31_up | 第2(同行) | 33.3 | 70.0 | 64.4 | 55.9 |
选择性保护实验:3-bit AWQ + 保护最后层 MLP(仅 2% 权重保持 16-bit):
| 配置 | AIME 2024 | FOLIO | Temporal | 平均 | 提升 |
|---|---|---|---|---|---|
| 3-bit AWQ | 10.0 | 59.6 | 68.4 | 46.0 | - |
| 3-bit AWQ + 保护最后层 MLP | 16.7 | 67.0 | 74.0 | 52.57 | +6.57 |
关键发现¶
- 2.51-bit 动态量化是最优压缩策略:在所有压缩方案中表现最接近原始 R1,甚至在部分指标上超越
- 4-bit 量化普遍安全,3-bit 出现崩溃:所有 4-bit 方法(AWQ/GPTQ/GPTAQ/ANY4)与未量化模型接近,但 3-bit 开始显著退化
- 剪枝对知识记忆伤害最大:50% SparseGPT 使 AIME 从 65.6 暴跌至 23.3,MuSiQue 上的崩溃点(30-40%)比推理任务更早
- 最后一层 MLP up_proj 是最关键模块:仅量化该矩阵(0.7% 权重)导致平均准确率下降 16.3%
- 现有量化方法过度压缩最后层和 gate_proj:保护 2% 权重即可带来 6.57% 提升,最高超越 SOTA 23.17%
亮点与洞察¶
- 机制可解释性首次深入压缩效果:不仅测性能,更揭示"为什么掉点"——是哪些具体权重被破坏
- "参数数量影响知识 > 推理"这一发现有重要实践意义:知识密集型任务应优先选量化而非剪枝/蒸馏
- 仅 2% 权重保护带来 6.57% 提升:这个简单的混合精度解法验证了分析的有效性,为未来自适应量化指明方向
局限与展望¶
- 可解释性分析规模有限:仅 120 个实例用于 attribution patching,统计显著性存疑
- 仅分析线性层:未覆盖 LayerNorm、Embedding 等其他模块
- 保护策略简单:直接将关键权重保持 16-bit,未探索更优的混合精度或自适应量化方案
- 蒸馏仅考虑 SFT:未涉及 RL-based 蒸馏或 on-policy 蒸馏
相关工作与启发¶
- 与 AlphaPruning 的对比有趣:AlphaPruning 的剪枝效果在重要性热图上与量化相似,说明两者共享底层瓶颈
- 发现 Qwen 推理能力 > Llama,但 Llama 知识记忆更好——模型架构选择应考虑任务类型
- 启发:未来模型压缩应采用重要性感知的自适应精度分配,而非一刀切的均匀量化
评分¶
- 新颖性: ⭐⭐⭐⭐ 首次系统性结合基准测试与机制解释分析压缩对 LRM 的影响
- 实验充分度: ⭐⭐⭐⭐⭐ 覆盖 3 类压缩方法 × 4 个模型族 × 4 个数据集,含验证实验
- 写作质量: ⭐⭐⭐⭐ 结构清晰,发现明确可操作
- 价值: ⭐⭐⭐⭐⭐ 三大发现对 LRM 压缩研究有直接指导意义