Prune-then-Quantize or Quantize-then-Prune? Understanding the Impact of Compression Order in Joint Model Compression¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=KWtOTMMvKU
代码: https://github.com/snudatalab/PQQP
领域: 模型压缩
关键词: 联合压缩、压缩顺序、剪枝、量化、渐进强度假设

一句话总结¶

当把剪枝和量化拼在一条流水线上时，先做哪个后做哪个会显著影响最终精度；本文把"压缩顺序优化"这个长期被忽视的问题形式化，提出"渐进强度假设"（弱扰动先做、强扰动后做），并给出理论证明与跨语言/视觉模型的大量实证支持。

研究背景与动机¶

领域现状：把模型部署到边缘设备需要压缩，单一手段（剪枝、量化、知识蒸馏、参数共享、低秩分解）各有上限，于是"联合压缩"——把多种方法叠加使用——成为压榨压缩比的主流策略，公认能在"压缩比 vs 性能"上取得比单用更好的折中。

现有痛点：联合压缩里有一个被普遍回避的变量——压缩顺序。由于大多数压缩技术不能同时施加、必须串行执行（先剪后量，还是先量后剪），不同顺序得到的模型精度可能差很多。但绝大多数已有工作直接假设两种技术"正交"、互不干扰，因而认为顺序无所谓；少数注意到顺序问题的工作也只给出了某些特定设置下的零散经验结论。

核心矛盾：唯一一篇较系统的理论工作（Harma et al., 2025）虽然证明了剪枝和量化并非正交，却把范围限死在"幅值剪枝 + max-scale 量化"上，并直接下结论"先剪后量永远更好"。这个结论太窄也不够实用——它没有刻画"什么时候、为什么"某个顺序更优，无法推广到现代的旋转量化、结构化/非结构化剪枝、混合精度等真实场景。

本文目标：(1) 把"找最优压缩顺序"形式化成一个可优化问题；(2) 找出一个跨方法、跨模型都成立的普适规律，回答"先做哪个、为什么"。

切入角度：作者不去逐对方法做工程实验，而是先用统一语言刻画每种压缩方法的两个属性——粒度（作用在多细的结构单元上）和强度（对性能的破坏有多大），再从"强度差"这个角度推导顺序优势如何变化。

核心 idea：提出渐进强度假设（Progressive Intensity Hypothesis）——把扰动更弱的压缩放前面、扰动更强的放后面，能得到更好的模型，且这种"顺序优势"随两种方法的性能差单调增大。

方法详解¶

本文是一篇分析型工作，"方法"指的是一套刻画压缩顺序的概念框架 + 理论证明，而非一个新的压缩算法。整体逻辑是：先把问题写成排列优化，再定义一组能跨方法比较"强弱"的度量，然后在"不相交选择性"假设下证明顺序优势的来源与单调性，最后用"干扰"项处理假设不成立的真实情形。

整体框架¶

给定一个预训练模型 \(\phi\)、一组压缩方法 \(F=\{f_1,\dots,f_n\}\) 和一个性能度量 \(\mathcal{M}(\cdot)\)（越大越好，如分类精度或 \(-\text{perplexity}\)），目标是从所有排列 \(\Pi\) 中找到最优顺序 \(\pi^* = \arg\max_{\pi\in\Pi}\mathcal{M}(\pi(\phi))\)。

为了能跨方法比较，作者先抽象出压缩的两个属性：粒度（granularity） \(t_f\) 是方法 \(f\) 能作用的最小结构单元（层、子层、注意力头等），强度（intensity） 则用方法对性能的破坏程度来衡量。围绕强度，作者定义了三件度量工具——性能差 \(G\)、压缩等效比 CER、压缩顺序优势 \(A\)——把"哪个更强、强多少、换顺序赚多少"量化出来。随后通过"不相交选择性"判断两种方法是否会互相干扰：若每个单元最终只被一种方法处理，则可证明顺序优势完全来自"换顺序后归属改变的单元"，并据此证明渐进强度假设（强者后做更优）成立；若不满足（量化粒度比剪枝粗，剪枝把量化单元切了一半），则引入干扰项 \(\Delta\) 描述这部分额外误差，并说明它只依赖剪枝比、单调进入顺序优势、不破坏整体单调趋势。

关键设计¶

1. 压缩顺序优化的形式化 + 渐进强度假设

针对"顺序问题被当成正交而回避"这一痛点，作者先把它写成一个清晰的排列优化问题（Problem 1）：在所有方法的全排列里找让压缩后性能最高的那个顺序。在此基础上提出核心命题——渐进强度假设（Hypothesis 1）：对两种方法 \(f_1(\cdot;C_1)\)、\(f_2(\cdot;C_2)\)，定义"先 \(f_1\) 后 \(f_2\)"记为 \(f_2\circ f_1\)，则把更强的方法放后面能得到更好的模型。这不是一句口号，而是被进一步精化为可证伪的定量陈述：顺序优势 \(A(f_1\to f_2)\) 随两方法的性能差 \(G(f_1,f_2)\)（等价地随 CER 差 \(C^*_{f_2}-C^*_{f_1}\)）单调增大。直观理解：两种方法强弱越悬殊，把弱的先做、强的后做带来的收益越大；强弱接近时换不换顺序几乎无所谓。

2. 跨方法的强度度量：性能差 \(G\)、压缩等效比 CER、顺序优势 \(A\)

不同方法即使在相同压缩比下对性能的破坏也不一样，没法直接比"谁更强"。作者用三个量把强度统一到可比尺度上。性能差 \(G(f_1,f_2)=\mathcal{M}(f_1(\phi;C_1))-\mathcal{M}(f_2(\phi;C_2))\) 直接度量两方法施加各自压缩比后的相对强弱，\(G>0\) 就说 \(f_2\) 更强。但 \(G\) 的数值随压缩比涨得很快、不好解读，于是引入压缩等效比（CER） \(C^*_f\)：把方法 \(f\) 在某比例下的效果，换算成"达到同样性能所需的量化比例"——选量化做基准是因为它在各模型上性能曲线最平、可比范围最广（量化自身的 CER 等于其压缩比 \(C^*_Q=C_Q\)）。例如某方法做到 65% 精度，而量化 2× 给 70%、4× 给 60%，线性插值后该方法 CER 记作 \(C^*_f=3\)。最后定义压缩顺序优势 \(A(f_1\to f_2)=\mathcal{M}((f_2\circ f_1)(\phi))-\mathcal{M}((f_1\circ f_2)(\phi))\)，即"弱先强后"减去"强先弱后"的性能，\(A>0\) 就说明渐进顺序更优。这三件套是后面所有理论和实验的共同语言。

3. 不相交选择性下的来源刻画与单调性证明

要解释"为什么"顺序有优势，作者引入不相交选择性（Disjoint Selectivity，Definition 5）：若在最小公共粒度上，每个单元最终都只被一种方法处理（哪怕归属随顺序变化，但不会被两种方法同时改），则称该假设成立。在层间独立 + 误差-性能成正比（Assumption 1）下，Theorem 1 证明：顺序优势 \(A(f_1\to f_2)\) 只由"换顺序后归属发生改变的单元"决定，\(A=\beta\cdot\big(\sum_{u\in G_2}g(u)-\sum_{u\in G_1}g(u)\big)\)，其中 \(g(u)=\|\delta_{f_1}(u)\|_F^2-\|\delta_{f_2}(u)\|_F^2\) 是该单元在两种方法下的误差差，\(G_1,G_2\) 是两组顺序相关单元；归属不变的单元误差两边抵消、对优势无贡献。在此基础上，对"良设计"的剪枝（性能损失受限）和量化（误差对称零均值、Assumption 2），Theorem 2 证明 \(A(Q\to P)\) 随 CER 差 \(C^*_P-C_Q\) 单调增大——这正是把渐进强度假设落到剪枝-量化这一对方法上的严格版本。

4. 干扰项 \(\Delta\)：粒度决定不相交选择性是否被破坏

真实场景里不相交选择性并不总成立。剪枝因为是"整块留或整块删"，永远满足该条件；量化只有当其粒度细于或等于剪枝粒度时才满足。当剪枝粒度比量化更细（\(t_P<t_Q\)）时，剪枝会把一个量化单元切掉一部分，使两种方法在同一区域互相影响，作者把这部分额外误差定义为干扰 \(\Delta(\phi;f_1\to f_2)=\sum_{u\in X}\big(\delta_{f_2\circ f_1}(u)-\delta_{f_2}(u)\big)\)（\(X\) 是被 \(f_2\) 修改、且属于 \(t_{f_2}\) 粒度的单元集合）。关键洞察是：干扰大小只由剪枝比 \(p\) 决定——\(p\) 越大，被剪掉的权重越多，量化作用在被扰动后的分布上偏差越大，但这部分误差只依赖剪枝、加性地进入顺序优势、与量化强度无关，因此 \(A(f_1\to f_2)\) 仍是 \(C^*_P-C_Q\) 的单调函数。结论是：无论不相交还是有干扰，渐进强度假设都成立。一个特例是混合精度量化——把每个比特宽度当作一种独立方法时天然满足不相交选择性、不产生干扰。

一个例子：三个单元如何决定顺序优势¶

设有单元 \(u_1,u_2,u_3\) 和方法 \(f_1,f_2\)。若 \(u_1\) 无论顺序怎么排都由 \(f_1\) 处理，而 \(u_2,u_3\) 的归属随顺序变化，则由 Theorem 1，顺序优势 \(A(f_1\to f_2)\) 只正比于 \(u_2,u_3\) 的误差差 \(g(u_2)+g(u_3)\)，\(u_1\) 因两边相同被抵消。这把"为什么换顺序会有收益"具象成了"只有那些被换了执行者的单元才贡献差异"——也解释了为何结构化剪枝（SLEB，子层级）在某些区间能做到顺序优势精确为 0（没有层在两种顺序下归属不同），而非结构化剪枝（SparseGPT）会在低比特区间出现干扰。

实验关键数据¶

主实验¶

语言模型用 LLaMA 2/3 系列（WikiText-2 上的 \(-\text{perplexity}\)），视觉模型用 ResNet-18（CNN）和 DeiT-Base（ViT）在 ImageNet 上测精度。剪枝基线含 SparseGPT、Wanda、SLEB；量化基线含 RTN、OPTQ、QuaRot、QuaRot+OPTQ。核心验证指标是顺序优势 \(A(Q\to P)\) 是否随 CER 差 \(C^*_P-C_Q\) 单调上升。

场景	模型	现象	结论
剪枝×量化	LLaMA 2 7B/13B、LLaMA 3 8B	\(A(Q\to P)\) 随 \(C^*_P-C_Q\) 单调增	假设在不同规模/架构语言模型上成立
多方法组合	LLaMA 3 8B	3 种剪枝 × 4 种量化均满足	与旋转、权重更新等设计无关
剪枝×量化	ResNet-18、DeiT-Base	单调趋势同样成立，且优势幅度明显大于语言模型	视觉模型上效应更强

干扰与粒度（5% 剪枝 + QuaRot，LLaMA 3 8B）¶

\(C_Q\)（比特 \(B_Q\)）	SparseGPT（非结构化）	SLEB（结构化）
1.78 (9-bit)	0.002	0
2.00 (8-bit)	0.001	0
2.68 (6-bit)	-0.013	0
3.20 (5-bit)	-0.017	-0.057
4.00 (4-bit)	-49.899	-9.379

SLEB 在较高比特区间顺序优势精确为 0（结构化剪枝整层归属不随顺序变化，无干扰），SparseGPT 在低比特区间出现明显的非零项（非结构化剪枝产生干扰），且干扰本身也随 \(C_Q\) 单调变化。

关键发现¶

粒度决定干扰：结构化剪枝在早期区间无干扰、顺序优势可为 0；非结构化剪枝则呈现单调的干扰（Finding 4）。
旋转会放大剪枝效应：在旋转量化（QuaRot 的 Hadamard 旋转）之后再剪枝会导致 perplexity 急剧上升，剪枝比越大、旋转/非旋转差距越大——因为剪枝没有考虑旋转引入的矩阵级和元素级误差。这提示需要设计"旋转感知"的剪枝（Finding 3）。
普适性强：假设进一步推广到多阶段压缩（\(P\to Q\to P\)，\(p_1+p_2=0.3\) 时仍正优势）、PEFT（量化后接 LoRA 起到类似旋转的纠错作用）、参数共享（Basis Sharing + 幅值剪枝）以及混合精度量化（progressive 8→2bit 优于 regressive 2→8bit），全部符合"强者后做"（Findings 6-9）。

亮点与洞察¶

把"顺序"变成可优化、可证明的量：用 CER 把不同压缩方法的"强度"统一到量化比例这一可比尺度上，是整套理论能成立的关键 trick——它让"先做哪个更好"从工程经验变成关于 \(C^*_P-C_Q\) 的单调函数。
"误差只来自归属改变的单元"这个洞察很干净：Theorem 1 把顺序优势的来源剥离得很清楚，归属不变的单元两边抵消，从根上解释了为什么结构化剪枝能做到零顺序优势。
干扰被归因到单一变量（剪枝比）：把违反不相交选择性的额外误差只挂到剪枝比上、并证明它加性进入、不破坏单调性，让"有干扰也成立"的结论站得住。
"旋转放大剪枝"是个可迁移的实践警示：现代量化普遍用旋转，这条发现直接告诉从业者别在旋转后盲目剪枝，要设计旋转感知的剪枝顺序。

局限与展望¶

理论建立在若干理想化假设上（层间独立、误差与性能成正比、量化误差对称零均值、剪枝"良设计"），真实方法未必严格满足，作者也承认这些是近似。
强度由 CER 经线性插值估计，依赖以量化为基准的标定；当方法性能曲线非单调或基准范围不足时，CER 的可靠性会下降。
假设给的是"哪个顺序更好"的定性/单调结论，并未给出可直接预测最优顺序或最优压缩比配比的显式公式——作者把"显式预测规则 + 自动选顺序"列为未来工作。
复杂流水线（>2 方法、多种技术混合）下干扰如何叠加仍未充分刻画。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次在一般设置下同时从理论和实验系统刻画压缩顺序，提出可证伪的渐进强度假设
实验充分度: ⭐⭐⭐⭐⭐ 跨语言/视觉、多剪枝×多量化、多阶段/PEFT/参数共享/混合精度全面验证
写作质量: ⭐⭐⭐⭐ 概念定义层层递进、逻辑清晰，但符号较密、理论部分需要细读
价值: ⭐⭐⭐⭐⭐ 给出"弱先强后"这条简单可用的实践规则，几乎零成本提升联合压缩效果