When Reasoning Meets Compression: Understanding the Effects of LLMs Compression on Large Reasoning Models¶
会议: ICLR2026
arXiv: 2504.02010
代码: github.com/psunlpgroup/Compression-Effects
领域: LLM推理
关键词: 模型压缩, 推理模型, 量化, 蒸馏, 剪枝, 可解释性, DeepSeek-R1
一句话总结¶
系统研究量化、蒸馏、剪枝三种压缩方法对大型推理模型 (LRM) 的影响,通过性能基准测试和机制可解释性分析,揭示权重数量对知识记忆影响大于推理、最后一层 MLP up_proj 是最关键组件、以及当前量化方法过度压缩最后层等核心发现。
背景与动机¶
- DeepSeek-R1 等大型推理模型在复杂推理任务上表现优异,但部署成本高昂
- 已有压缩研究存在两个瓶颈:
- 评估瓶颈:现有量化/剪枝评估主要使用困惑度和简单任务,未在复杂推理基准上充分测试
- 分析瓶颈:缺乏对压缩效果的深入可解释性分析
- 核心问题:LRM 的推理能力在压缩过程中如何受损?哪些权重对推理最重要?
方法详解¶
1. 评估框架¶
- 模型选择:DeepSeek-R1 (671B) 及其压缩变体
- 量化:Unsloth 动态量化(2.51/1.73/1.58-bit)、AWQ、GPTQ、GPTAQ、ANY4/ANY3
- 蒸馏:R1-Distill-Llama (70B/8B)、R1-Distill-Qwen (32B/7B)
- 剪枝:SparseGPT、AlphaPruning(多种稀疏度)
- 评估数据集(难度递增):
- AIME 2024(数学推理)
- FOLIO(逻辑推理)
- Temporal Sequences(时序推理,来自 BIG-Bench Hard)
- MuSiQue(多跳推理,closed-book 设置测试知识+推理)
2. 机制可解释性分析¶
针对四种核心推理行为:回溯 (backtracking)、不确定性估计 (uncertainty estimation)、示例测试 (example testing)、添加知识 (adding knowledge)。
差异均值法提取方向向量: 对每个线性模块 \(m\) 在层 \(\ell\) 处提取行为 \(c\) 的方向向量:
\[\mathbf{u}_{m\ell}^c = \frac{1}{|\mathcal{D}_+|} \sum_{s_i^c \in \mathcal{D}_+} \bar{\mathbf{a}}_{m\ell}^c(s_i^c) - \frac{1}{|\mathcal{D}_-|} \sum_{s_j \in \mathcal{D}_-} \bar{\mathbf{a}}_{m\ell}(s_j)\]
其中 \(\bar{\mathbf{a}}_{m\ell}^c(s_i^c)\) 是行为 token 序列上的平均激活值。
归因修补法计算重要性得分:
\[\mathbf{I}_{m\ell}^c \approx \frac{1}{|\mathcal{D}_+|} \left| \sum_{s_i^c \in \mathcal{D}_+} (\tilde{\mathbf{u}}_{m\ell}^c)^\top \frac{\partial}{\partial \mathbf{a}_{m\ell}} \mathcal{L}(s_i^c) \right|\]
\(\mathbf{I}_{m\ell}^c\) 越高表示该模块与推理行为 \(c\) 的因果关系越强。
压缩效果解码:通过计算相对重要性 \(\mathbf{RI}_{m\ell}^c\) 的变化(重要性偏移)来追踪压缩影响。
实验关键数据¶
总体性能对比¶
| 模型 | 参数量 | 压缩方式 | AIME 2024 | FOLIO | Temporal | Avg | MuSiQue (EM, F1) |
|---|---|---|---|---|---|---|---|
| DeepSeek-R1 | 671B | 无 | 73.3 | 76.4 | 99.6 | 83.1 | (17.0, 27.51) |
| DeepSeek-R1 | 671B | 2.51-bit | 76.7 | 77.8 | 100.0 | 84.8 | (17.0, 24.43) |
| DeepSeek-R1 | 671B | 1.58-bit | 66.7 | 75.4 | 94.0 | 78.7 | (14.0, 22.34) |
| R1-Distill-Llama | 70B | 蒸馏 | 65.6 | 79.8 | 99.9 | 81.8 | (13.3, 21.57) |
| R1-Distill-Qwen | 32B | 蒸馏 | 64.4 | 82.3 | 99.9 | 82.2 | (2.7, 10.95) |
| R1-Distill-Llama | 8B | 蒸馏 | 42.2 | 71.9 | 81.5 | 65.2 | (0.0, 4.43) |
| R1-Distill-Llama | 70B | 50% SparseGPT | 23.3 | 71.6 | 97.6 | 64.2 | (6.7, 13.49) |
选择性量化验证重要性¶
| 量化组件 | 排名 | AIME 2024 | FOLIO | Temporal | Avg |
|---|---|---|---|---|---|
| 32_up (最后层up_proj) | 全局第1 | 20.0 | 63.1 | 63.6 | 48.9 |
| 32_gate | 列第2 | 33.3 | 62.1 | 67.2 | 54.2 |
| 32_v | 列最后 | 43.3 | 68.0 | 79.6 | 63.6 |
| 未量化基线 | - | 42.2 | 71.9 | 81.5 | 65.2 |
仅量化 32_up(占总权重 0.7%)即导致平均准确率下降 16.3%!
保护关键权重的效果¶
| 压缩方式 | 是否保护 | AIME 2024 | FOLIO | Temporal | Avg |
|---|---|---|---|---|---|
| 3-bit AWQ | 否 | 10.0 | 59.6 | 68.4 | 46.0 |
| 3-bit AWQ | 保护最后层 MLP | 16.7 | 67.0 | 74.0 | 52.57 |
仅保护约 2% 的权重为全精度,平均准确率提升 6.57%,最高超越 SOTA 量化方法 23.17%。
崩溃点分析(SparseGPT 不同稀疏度)¶
| 稀疏度 | R1-Distill-Llama-70B AIME | R1-Distill-Llama-70B FOLIO |
|---|---|---|
| 0% | 63.3 | 78.8 |
| 30% | 63.3 | 79.3 |
| 40% | 56.7 | 73.9 |
| 50% | 26.7 | 70.9 |
| 60% | 0.0 | 65.0 |
| 70% | 0.0 | 49.8 |
崩溃点与任务难度负相关:AIME 在 40-50% 崩溃,FOLIO 在 60-70% 崩溃。
三大核心发现¶
Finding 1: 权重数量对知识记忆影响大于推理¶
- Qwen 推理能力强于 Llama,但 MuSiQue (知识密集型) 得分远低于 Llama-70B
- 剪枝导致知识记忆崩溃比推理更早(MuSiQue 在 30-40% 稀疏即崩溃)
- 结论:知识密集型任务应优先选择量化(保持参数数量)而非剪枝/蒸馏
Finding 2: 最后一层 MLP up_proj 是最关键组件¶
- 在 R1-Distill-Llama-8B 和 R1-Distill-Qwen-7B 上均观察到该规律
- 蒸馏是造成该组件重要性突出的原因(原始 Llama 不具有此特征)
- 补充了已有研究声称 o_proj 最重要的结论
Finding 3: 当前量化方法过度压缩最后层和 gate_proj¶
- AWQ 和 GPTQ 都过度压缩最后层模块和中间层的 gate_proj
- 保护最后层 MLP 模块即可显著提升性能(+6.57% 平均)
- 该发现同样适用于剪枝方法
亮点¶
- 首次系统性比较三种压缩方法对 LRM 的影响:填补了 LRM 压缩研究的空白
- 细粒度可解释性分析:逐线性模块分析重要性,超越已有的逐层分析
- 实用价值极高:仅保护 2% 权重即获得显著提升,为未来压缩方法提供明确指导
- 发现可泛化:核心发现在 R1 和非 R1 模型家族均成立
- 理论与实践结合:每个发现都有验证实验支撑
局限性 / 可改进方向¶
- 可解释性分析仅用 120 个实例,样本量较小
- 未探索混合精度量化的最优策略(仅做了简单的最后层保护验证)
- 剪枝分析较量化和蒸馏少,因为高稀疏度模型不可用
- 蒸馏效果分析仅限于 SFT 方式,未涉及 RL 阶段蒸馏
- 未讨论推理时间和部署效率的具体数据
与相关工作的对比¶
- 相比已有压缩基准(EleutherAI harness 等):本文使用更具挑战的推理数据集
- 相比 Venhoff et al. 的层级分析:本文提供模块级细粒度分析
- 相比 Shao & Wu 认为 o_proj 最重要:本文发现 up_proj 在蒸馏模型中更关键
- 相比 Liu et al. 和 Feng et al. 的 survey:本文提供独到的可解释性视角
启发与关联¶
- 最后一层 MLP up_proj 的重要性发现可直接指导未来量化/剪枝算法设计
- 混合精度保护策略可推广到更多压缩场景
- 知识vs推理的分离视角为选择合适的压缩方法提供理论依据
- 崩溃点与任务难度的关联可用于预估压缩后的能力边界
评分¶
- 新颖性: ⭐⭐⭐⭐ (系统性研究+可解释性分析的结合新颖,但基础方法非原创)
- 实验充分度: ⭐⭐⭐⭐⭐ (覆盖量化/蒸馏/剪枝、多模型、多基准、多验证实验)
- 写作质量: ⭐⭐⭐⭐ (结构清晰,发现表述精练,但表格较多读起来略繁)
- 价值: ⭐⭐⭐⭐⭐ (三个核心发现直接可用于改进压缩方法,保护2%权重提升6.57%极具实用性)