跳转至

When Reasoning Meets Compression: Understanding the Effects of LLMs Compression on Large Reasoning Models

会议: ICLR2026
arXiv: 2504.02010
代码: github.com/psunlpgroup/Compression-Effects
领域: LLM推理
关键词: 模型压缩, 推理模型, 量化, 蒸馏, 剪枝, 可解释性, DeepSeek-R1

一句话总结

系统研究量化、蒸馏、剪枝三种压缩方法对大型推理模型 (LRM) 的影响,通过性能基准测试和机制可解释性分析,揭示权重数量对知识记忆影响大于推理、最后一层 MLP up_proj 是最关键组件、以及当前量化方法过度压缩最后层等核心发现。

背景与动机

  • DeepSeek-R1 等大型推理模型在复杂推理任务上表现优异,但部署成本高昂
  • 已有压缩研究存在两个瓶颈:
    • 评估瓶颈:现有量化/剪枝评估主要使用困惑度和简单任务,未在复杂推理基准上充分测试
    • 分析瓶颈:缺乏对压缩效果的深入可解释性分析
  • 核心问题:LRM 的推理能力在压缩过程中如何受损?哪些权重对推理最重要?

方法详解

1. 评估框架

  • 模型选择:DeepSeek-R1 (671B) 及其压缩变体
    • 量化:Unsloth 动态量化(2.51/1.73/1.58-bit)、AWQ、GPTQ、GPTAQ、ANY4/ANY3
    • 蒸馏:R1-Distill-Llama (70B/8B)、R1-Distill-Qwen (32B/7B)
    • 剪枝:SparseGPT、AlphaPruning(多种稀疏度)
  • 评估数据集(难度递增):
    • AIME 2024(数学推理)
    • FOLIO(逻辑推理)
    • Temporal Sequences(时序推理,来自 BIG-Bench Hard)
    • MuSiQue(多跳推理,closed-book 设置测试知识+推理)

2. 机制可解释性分析

针对四种核心推理行为:回溯 (backtracking)、不确定性估计 (uncertainty estimation)、示例测试 (example testing)、添加知识 (adding knowledge)。

差异均值法提取方向向量: 对每个线性模块 \(m\) 在层 \(\ell\) 处提取行为 \(c\) 的方向向量:

\[\mathbf{u}_{m\ell}^c = \frac{1}{|\mathcal{D}_+|} \sum_{s_i^c \in \mathcal{D}_+} \bar{\mathbf{a}}_{m\ell}^c(s_i^c) - \frac{1}{|\mathcal{D}_-|} \sum_{s_j \in \mathcal{D}_-} \bar{\mathbf{a}}_{m\ell}(s_j)\]

其中 \(\bar{\mathbf{a}}_{m\ell}^c(s_i^c)\) 是行为 token 序列上的平均激活值。

归因修补法计算重要性得分

\[\mathbf{I}_{m\ell}^c \approx \frac{1}{|\mathcal{D}_+|} \left| \sum_{s_i^c \in \mathcal{D}_+} (\tilde{\mathbf{u}}_{m\ell}^c)^\top \frac{\partial}{\partial \mathbf{a}_{m\ell}} \mathcal{L}(s_i^c) \right|\]

\(\mathbf{I}_{m\ell}^c\) 越高表示该模块与推理行为 \(c\) 的因果关系越强。

压缩效果解码:通过计算相对重要性 \(\mathbf{RI}_{m\ell}^c\) 的变化(重要性偏移)来追踪压缩影响。

实验关键数据

总体性能对比

模型 参数量 压缩方式 AIME 2024 FOLIO Temporal Avg MuSiQue (EM, F1)
DeepSeek-R1 671B 73.3 76.4 99.6 83.1 (17.0, 27.51)
DeepSeek-R1 671B 2.51-bit 76.7 77.8 100.0 84.8 (17.0, 24.43)
DeepSeek-R1 671B 1.58-bit 66.7 75.4 94.0 78.7 (14.0, 22.34)
R1-Distill-Llama 70B 蒸馏 65.6 79.8 99.9 81.8 (13.3, 21.57)
R1-Distill-Qwen 32B 蒸馏 64.4 82.3 99.9 82.2 (2.7, 10.95)
R1-Distill-Llama 8B 蒸馏 42.2 71.9 81.5 65.2 (0.0, 4.43)
R1-Distill-Llama 70B 50% SparseGPT 23.3 71.6 97.6 64.2 (6.7, 13.49)

选择性量化验证重要性

量化组件 排名 AIME 2024 FOLIO Temporal Avg
32_up (最后层up_proj) 全局第1 20.0 63.1 63.6 48.9
32_gate 列第2 33.3 62.1 67.2 54.2
32_v 列最后 43.3 68.0 79.6 63.6
未量化基线 - 42.2 71.9 81.5 65.2

仅量化 32_up(占总权重 0.7%)即导致平均准确率下降 16.3%

保护关键权重的效果

压缩方式 是否保护 AIME 2024 FOLIO Temporal Avg
3-bit AWQ 10.0 59.6 68.4 46.0
3-bit AWQ 保护最后层 MLP 16.7 67.0 74.0 52.57

仅保护约 2% 的权重为全精度,平均准确率提升 6.57%,最高超越 SOTA 量化方法 23.17%

崩溃点分析(SparseGPT 不同稀疏度)

稀疏度 R1-Distill-Llama-70B AIME R1-Distill-Llama-70B FOLIO
0% 63.3 78.8
30% 63.3 79.3
40% 56.7 73.9
50% 26.7 70.9
60% 0.0 65.0
70% 0.0 49.8

崩溃点与任务难度负相关:AIME 在 40-50% 崩溃,FOLIO 在 60-70% 崩溃。

三大核心发现

Finding 1: 权重数量对知识记忆影响大于推理

  • Qwen 推理能力强于 Llama,但 MuSiQue (知识密集型) 得分远低于 Llama-70B
  • 剪枝导致知识记忆崩溃比推理更早(MuSiQue 在 30-40% 稀疏即崩溃)
  • 结论:知识密集型任务应优先选择量化(保持参数数量)而非剪枝/蒸馏

Finding 2: 最后一层 MLP up_proj 是最关键组件

  • 在 R1-Distill-Llama-8B 和 R1-Distill-Qwen-7B 上均观察到该规律
  • 蒸馏是造成该组件重要性突出的原因(原始 Llama 不具有此特征)
  • 补充了已有研究声称 o_proj 最重要的结论

Finding 3: 当前量化方法过度压缩最后层和 gate_proj

  • AWQ 和 GPTQ 都过度压缩最后层模块和中间层的 gate_proj
  • 保护最后层 MLP 模块即可显著提升性能(+6.57% 平均)
  • 该发现同样适用于剪枝方法

亮点

  1. 首次系统性比较三种压缩方法对 LRM 的影响:填补了 LRM 压缩研究的空白
  2. 细粒度可解释性分析:逐线性模块分析重要性,超越已有的逐层分析
  3. 实用价值极高:仅保护 2% 权重即获得显著提升,为未来压缩方法提供明确指导
  4. 发现可泛化:核心发现在 R1 和非 R1 模型家族均成立
  5. 理论与实践结合:每个发现都有验证实验支撑

局限性 / 可改进方向

  • 可解释性分析仅用 120 个实例,样本量较小
  • 未探索混合精度量化的最优策略(仅做了简单的最后层保护验证)
  • 剪枝分析较量化和蒸馏少,因为高稀疏度模型不可用
  • 蒸馏效果分析仅限于 SFT 方式,未涉及 RL 阶段蒸馏
  • 未讨论推理时间和部署效率的具体数据

与相关工作的对比

  • 相比已有压缩基准(EleutherAI harness 等):本文使用更具挑战的推理数据集
  • 相比 Venhoff et al. 的层级分析:本文提供模块级细粒度分析
  • 相比 Shao & Wu 认为 o_proj 最重要:本文发现 up_proj 在蒸馏模型中更关键
  • 相比 Liu et al. 和 Feng et al. 的 survey:本文提供独到的可解释性视角

启发与关联

  • 最后一层 MLP up_proj 的重要性发现可直接指导未来量化/剪枝算法设计
  • 混合精度保护策略可推广到更多压缩场景
  • 知识vs推理的分离视角为选择合适的压缩方法提供理论依据
  • 崩溃点与任务难度的关联可用于预估压缩后的能力边界

评分

  • 新颖性: ⭐⭐⭐⭐ (系统性研究+可解释性分析的结合新颖,但基础方法非原创)
  • 实验充分度: ⭐⭐⭐⭐⭐ (覆盖量化/蒸馏/剪枝、多模型、多基准、多验证实验)
  • 写作质量: ⭐⭐⭐⭐ (结构清晰,发现表述精练,但表格较多读起来略繁)
  • 价值: ⭐⭐⭐⭐⭐ (三个核心发现直接可用于改进压缩方法,保护2%权重提升6.57%极具实用性)