When Reasoning Meets Compression: Understanding the Effects of LLMs Compression on Large Reasoning Models¶

会议: ICLR 2026
arXiv: 2504.02010
代码: psunlpgroup/Compression-Effects
领域: LLM推理
关键词: 模型压缩, 大推理模型, 量化, 蒸馏, 剪枝, 机制可解释性

一句话总结¶

系统性基准测试与机制解释压缩（量化/蒸馏/剪枝）对大推理模型的影响，发现三大核心结论：参数数量对知识记忆影响大于推理能力；蒸馏模型最后一层 MLP up_proj 是最关键权重；保护仅 2% 的被过度压缩权重即可提升平均准确率 6.57%。

研究背景与动机¶

LRM 的部署瓶颈：DeepSeek-R1 等大推理模型在复杂推理任务上表现优异，但 671B 参数规模使部署成本极高，压缩是 AI 民主化的关键。

现有研究的三大不足： - 缺乏在推理密集型数据集上对量化、蒸馏、剪枝的全面对比 - 未深入分析压缩如何影响模型的知识记忆与推理能力 - 缺乏压缩效果的可解释性分析——哪些权重对推理最重要？这是压缩研究的根本问题

核心研究问题：大推理模型的推理能力在压缩过程中是如何被损害的？

方法详解¶

整体框架¶

本文采用双视角研究：性能基准测试 + 机制解释。

基准测试：对 DeepSeek-R1 及其压缩变体进行全面评测，覆盖动态量化（Unsloth）、AWQ、GPTQ、GPTAQ、ANY4/3、SFT 蒸馏、SparseGPT、AlphaPruning
机制解释：适配 difference of means 和 attribution patching 技术，量化每个线性模块对四种推理行为（回溯、不确定性估计、示例测试、添加知识）的因果贡献

关键设计¶

权重重要性量化：对模型每一层的每个线性模块（q_proj, k_proj, v_proj, o_proj, gate_proj, up_proj, down_proj），通过两步计算其对特定推理行为的重要性分数：

Difference of Means：提取每个线性模块在特定推理行为 token 上的引导向量 u，表达该行为在激活空间中的数值表示
Attribution Patching：计算引导向量与模块激活梯度的点积，得到重要性分数 I_mℓ^c，值越高说明该模块与推理行为的因果关系越强

压缩效果解码：计算相对重要性 RI（归一化后的 I），追踪压缩前后的重要性偏移。理想情况下偏移应最小——偏移越大说明压缩对该模块的破坏越严重。

评测设计¶

4 个推理数据集：AIME 2024（数学）、FOLIO（逻辑）、Temporal Sequences（时序）、MuSiQue（多跳+知识，closed-book）
120 个实例用于可解释性分析（每个数据集 30 个）
每个模型运行 3 次取平均（除 R1 和动态量化版本）

实验关键数据¶

主实验¶

DeepSeek-R1 及其压缩变体在 4 个推理基准上的表现：

模型/压缩方式	AIME 2024	FOLIO	Temporal	平均	MuSiQue EM
R1 (671B, 原始)	73.3	76.4	99.6	83.1	17.0
R1 (2.51-bit)	76.7	77.8	100.0	84.8	17.0
R1 (1.58-bit)	66.7	75.4	94.0	78.7	14.0
R1-Distill-Llama-70B	65.6	79.8	99.9	81.8	13.3
R1-Distill-Llama-70B + 50% SparseGPT	23.3	71.6	97.6	64.2	6.7
R1-Distill-Llama-8B	42.2	71.9	81.5	65.2	0.0
R1-Distill-Llama-8B + 4-bit AWQ	47.8	68.0	84.0	66.6	0.3
R1-Distill-Llama-8B + 3-bit GPTQ	11.1	65.0	67.3	47.8	0.0

消融实验¶

选择性量化验证权重重要性（R1-Distill-Llama-8B，仅量化单个模块至 3-bit）：

被量化模块	重要性排名	AIME 2024	FOLIO	Temporal	平均
未量化参考	-	42.2	71.9	81.5	65.2
32_up（最后层 up_proj）	第1	20.0	63.1	63.6	48.9
32_gate	第2（同层）	33.3	62.1	67.2	54.2
32_v	最末（同层）	43.3	68.0	79.6	63.6
31_up	第2（同行）	33.3	70.0	64.4	55.9

选择性保护实验：3-bit AWQ + 保护最后层 MLP（仅 2% 权重保持 16-bit）：

配置	AIME 2024	FOLIO	Temporal	平均	提升
3-bit AWQ	10.0	59.6	68.4	46.0	-
3-bit AWQ + 保护最后层 MLP	16.7	67.0	74.0	52.57	+6.57

关键发现¶

2.51-bit 动态量化是最优压缩策略：在所有压缩方案中表现最接近原始 R1，甚至在部分指标上超越
4-bit 量化普遍安全，3-bit 出现崩溃：所有 4-bit 方法（AWQ/GPTQ/GPTAQ/ANY4）与未量化模型接近，但 3-bit 开始显著退化
剪枝对知识记忆伤害最大：50% SparseGPT 使 AIME 从 65.6 暴跌至 23.3，MuSiQue 上的崩溃点（30-40%）比推理任务更早
最后一层 MLP up_proj 是最关键模块：仅量化该矩阵（0.7% 权重）导致平均准确率下降 16.3%
现有量化方法过度压缩最后层和 gate_proj：保护 2% 权重即可带来 6.57% 提升，最高超越 SOTA 23.17%

亮点与洞察¶

机制可解释性首次深入压缩效果：不仅测性能，更揭示"为什么掉点"——是哪些具体权重被破坏
"参数数量影响知识 > 推理"这一发现有重要实践意义：知识密集型任务应优先选量化而非剪枝/蒸馏
仅 2% 权重保护带来 6.57% 提升：这个简单的混合精度解法验证了分析的有效性，为未来自适应量化指明方向

局限与展望¶

可解释性分析规模有限：仅 120 个实例用于 attribution patching，统计显著性存疑
仅分析线性层：未覆盖 LayerNorm、Embedding 等其他模块
保护策略简单：直接将关键权重保持 16-bit，未探索更优的混合精度或自适应量化方案
蒸馏仅考虑 SFT：未涉及 RL-based 蒸馏或 on-policy 蒸馏

评分¶

新颖性: ⭐⭐⭐⭐ 首次系统性结合基准测试与机制解释分析压缩对 LRM 的影响
实验充分度: ⭐⭐⭐⭐⭐ 覆盖 3 类压缩方法 × 4 个模型族 × 4 个数据集，含验证实验
写作质量: ⭐⭐⭐⭐ 结构清晰，发现明确可操作
价值: ⭐⭐⭐⭐⭐ 三大发现对 LRM 压缩研究有直接指导意义