跳转至

Effective Model Pruning: Measure the Redundancy of Model Components

会议: ICML 2026
arXiv: 2509.25606
代码: https://github.com/noMushroomw/Effective-model-pruning
领域: 模型压缩
关键词: 模型剪枝、有效样本量、逆 Simpson 指数、自适应稀疏度、通用阈值

一句话总结

本文借鉴粒子滤波中的「有效样本量」概念,把任意打分向量直接映射到一个自适应保留个数 \(N_{\text{eff}} = \lfloor 1/\sum_i \omega_i^2 \rfloor\),作为剪枝阈值,避免人工设定稀疏度并给出剪枝前后损失变化的理论上界。

研究背景与动机

领域现状:神经网络剪枝已经形成丰富的方法谱系,可按「剪什么(非结构化权重 / 结构化通道 / 注意力头)」「何时剪(训练前 / 训练中 / 训练后)」与「按什么打分(幅值、敏感度、数据驱动指标)」三维分类,但绝大多数方法在拿到一个打分向量 \(s\) 之后,仍需要人工决定该保留多少个分量。

现有痛点:稀疏度的选择极为敏感——过激进会让模型直接掉点,过保守又浪费效率收益。当前做法要么走代价高昂的迭代剪枝(如 Lottery Ticket 重训),要么手工设置每层预算,要么把稀疏度调成一个需要细致调优的超参数(SparseGPT / Wanda 等都需要事先指定全局稀疏率)。在大模型规模下,这种调参成本变得难以承受。

核心矛盾:剪枝的「打分」与「定量」两件事被绑死在一起讨论,但其实它们是两个独立的问题。已有方法不断卷新的打分指标,却几乎默认「定多少」由用户拍脑袋决定;而打分分布本身已经携带了「有多少元素是真正显著」的信息,没有被利用起来。

本文目标:设计一个与打分准则无关、与网络架构无关的通用阈值规则,把「该保留多少分量」从超参数中剥离出来,直接由打分分布本身决定,并能给出可证明的损失变化上界。

切入角度:作者注意到粒子滤波领域有一个类似问题——给定一组带权粒子,如何判断「有多少粒子是统计上有效的」。答案就是有效样本量 \(N_{\text{eff}} = 1/\sum_i \omega_i^2\),在生态学里它叫逆 Simpson 多样性指数,与 Rényi 熵直接相连。如果把打分向量归一化为概率分布,这个量就天然反映了「打分集中度」:越集中说明少数分量主导,可剪得越多;越均匀说明每个分量都贡献相当,几乎不能剪。

核心 idea:把任意打分向量 \(s\) 归一化为 \(\omega_i = |s_i|/\|s\|_1\),直接保留前 \(N_{\text{eff}} = \lfloor 1/\sum_i \omega_i^2 \rfloor\) 个分量,剩下的全部剪掉——一个统一的、无需调参的、跨架构跨准则通用的剪枝阈值。

方法详解

整体框架

EMP(Effective Model Pruning)是一个三步式的通用规则,输入任意已经训练好的网络与一个打分向量 \(s \in \mathbb{R}^N\),输出一个二值掩码 \(M \in \{0,1\}^N\)。整条流水线只依赖打分分布本身的形状:(1) 把绝对值打分按 \(\ell_1\) 范数归一化得到概率向量 \(\omega\);(2) 计算有效样本量 \(N_{\text{eff}}\) 并截断到 \([1, N]\);(3) 按 \(|s|\) 取 top-\(N_{\text{eff}}\) 索引置 1,其余置 0。算法复杂度 \(O(N \log N)\),主要来自一次排序。同时引入一个可选的部署旋钮 \(\beta \in [0.5, 2]\),把真正保留的个数改为 \(\beta N_{\text{eff}}\),仅用于硬件硬性要求特定稀疏率时的微调。

关键设计

  1. 有效样本量 \(N_{\text{eff}}\) 作为通用阈值:

    • 功能:把任意非负打分分布 \(\omega \in \Delta\)(标准 \((N-1)\) 单纯形)映射为一个整数保留个数。
    • 核心思路:定义 \(N_{\text{eff}} \triangleq \lfloor 1/\sum_i \omega_i^2 \rfloor\),几何上对应于 \(\omega\) 与单纯形重心 \(\zeta_{[N]}\) 的距离平方的倒数。当 \(\omega\) 完全均匀时 \(N_{\text{eff}} = N\)(什么都不能剪),当 \(\omega\) 退化为单点时 \(N_{\text{eff}} = 1\)(只保留一个最大值)。作者证明 \(A_\nu = \tilde{\Delta} \cap (B_\nu - B_{\nu+1})\),把整个 \(\tilde{\Delta}\) 切成若干球壳,每个壳对应一个 \(N_{\text{eff}}\) 值。
    • 设计动机:这个量同时具备三个性质——只依赖打分分布、与维度 \(N\) 自适应、对坐标排列不变。粒子滤波与生态学领域早就证明它是「分布集中度」的最佳代理,搬到剪枝上意味着分布越尖锐就可以剪得越狠,无需人为指定稀疏率。
  2. 有效质量 \(s_{\text{eff}}\) 的紧下界:

    • 功能:给出保留的归一化质量 \(s_{\text{eff}} = \sum_{i=1}^{N_{\text{eff}}} \omega_{(i)}\) 关于 \(N_{\text{eff}}\) 的可证明下界,从而控制「剪掉的部分到底有多重」。
    • 核心思路:在 \(\tilde{\Delta}\) 上求 \(\varphi_\nu(\omega) = \sum_{i=1}^{\nu} \omega_i\)\(A_\nu\) 上的下确界。直接松弛到 \(\tilde{\Delta}\) 只能得到平凡界 \(s_{\text{eff}} \geq N_{\text{eff}}/N\)。作者构造点 \(p_\nu = \zeta_{[N]} + \frac{r_{\nu+1}}{r_1}(\zeta_{[1]} - \zeta_{[N]})\),证明它就是 \(A_\nu\)\(\varphi_\nu\) 的最小值点,得到紧界 \(1 - s_{\text{eff}} \leq \frac{N-N_{\text{eff}}}{N}\left(1 - \sqrt{\frac{N-N_{\text{eff}}-1}{(N_{\text{eff}}+1)(N-1)}}\right)\),渐近近似于 \(\frac{N-N_{\text{eff}}}{N}\left(1 - \sqrt{\frac{N-N_{\text{eff}}}{N N_{\text{eff}}}}\right)\)
    • 设计动机:剪枝问题最关心的是「丢掉的那部分有多重要」,而 \(1 - s_{\text{eff}}\) 正是这个量。紧界让我们能从打分分布形状直接推出剪枝代价的理论上限,而不必跑实验。
  3. 损失变化 \(\epsilon\) 的上界传导:

    • 功能:当打分准则就是参数幅值时,把 \(s_{\text{eff}}\) 下界翻译成稠密模型与剪枝模型之间损失差 \(\epsilon = |L(\theta^*) - L(\theta^k)|\) 的上界。
    • 核心思路:从 Zhang et al. 2023 的引理 \(\rho \leq 1 - 2\epsilon N / (\|\theta^* - \theta^k\|_2^2 \mathrm{Tr}(H) + 2\epsilon N)\) 出发,反解得 \(\epsilon \leq \frac{1-\rho}{2N\rho}\mathrm{Tr}(H)\|\theta^* - \theta^{N_{\text{eff}}}\|_2^2\),再用 \(\|\theta^* - \theta^{N_{\text{eff}}}\|^2 \leq \|\theta^*\|_1^2 (1-s_{\text{eff}})^2 (N - N_{\text{eff}})\) 把右侧改写成只与 \(\rho\)\(N\) 有关的解析式,得到渐近上界 \(\epsilon \lesssim \|\theta^*\|_1^2 \mathrm{Tr}(H) \frac{(1-\rho)^4}{2\rho} \left(1 - \sqrt{\frac{1-\rho}{N\rho}}\right)^2\)
    • 设计动机:这是把「分布几何 → 剪枝代价」的因果链彻底打通。实验显示当 \(N = 1000\)\(\rho > 0.2\) 时该上界已接近 0,说明只要 \(N_{\text{eff}}\) 阈值落在合理范围,损失增量在理论上就被压得很小。这条链对幅值准则严格成立,对其他可微准则也可类推。

损失函数 / 训练策略

EMP 是一个纯后训练剪枝规则,不修改训练目标,也不要求剪后微调。在实验中作者刻意不做任何 fine-tune,以隔离 EMP 阈值本身的效果。可选的 \(\beta\) 系数仅用于硬件部署:当目标硬件要求的稀疏率低于 \(N_{\text{eff}}/N\) 时,把保留数缩到 \(\beta N_{\text{eff}}\),但 \(\beta = 1\) 始终是「分水岭」。

实验关键数据

主实验

作者在 FC、CNN、Transformer、KAN、LLM 五大类架构上测试 EMP 与幅值剪枝的组合,所有实验均不做任何 fine-tune。

数据集 模型 稀疏率 (%) Dense Loss EMP Loss \(\epsilon\)
CIFAR10 FC12 42.89 1.5123 1.4454 0.0669
CIFAR10 AlexNet 62.22 0.4664 0.4286 0.0378
CIFAR10 VGG16 59.47 0.4234 0.3184 0.1050
CIFAR100 ResNet18 56.20 0.8740 0.9287 0.0547
CIFAR100 ResNet50 54.74 0.8586 0.8387 0.0199
TinyImageNet ResNet50 48.10 2.0213 1.9853 0.0360

所有架构上 \(\epsilon \leq 0.105\),与理论上界一致。LLM 端测试 LLaMA 与 LLaMA-2 的 7 个零样本任务平均表现:

方法 平均稀疏率 (%) 平均 \(\Delta\)PPL 平均 \(\Delta\)Acc (%)
Wanda (固定) 50.00 +0.799 -1.40
Magnitude (固定) 50.00 +2.982 -2.60
EMP-Wanda 40.47 +0.678 -1.37
EMP-Magnitude 36.63 +0.752 -0.93

EMP-Magnitude 把朴素幅值剪枝从「掉 2.6 个点」拉回到「只掉 0.93 个点」,代价是稀疏率从 50% 降到 36.63%。

消融实验

通过扫描 \(\beta \in \{0.5, 0.75, 1, 1.25, 1.5, 2\}\) 验证 \(N_{\text{eff}}\) 作为阈值的鲁棒性。

\(\beta\) 设置 行为 说明
\(\beta < 1\) 性能急剧下降 剪掉的比 \(N_{\text{eff}}\) 多,开始触碰真正重要的分量
\(\beta = 1\) 性能转折点 所有架构与准则下都恰好处于「无损 → 掉点」的临界
\(\beta > 1\) 性能持平 多保留分量不带来增益,只是少剪一些
GPT-2 头剪枝 (Taylor) \(N_{\text{eff}} = 141.4\),PPL +1.0% 注意力头重要性几乎均匀分布
GPT-2 头剪枝 (Weight) \(N_{\text{eff}} = 134.0\),PPL +6.5% 仅剪 10 头,权重范数准则更激进

关键发现

  • \(\beta = 1\) 在 FC、CNN、Transformer 和 LLM 上一致地标出「再剪就掉点」的转折,说明 \(N_{\text{eff}}\) 捕捉到了某种架构无关的内禀稀疏度。
  • 同一模型下不同准则给出不同的 \(N_{\text{eff}}\)(例如 GPT-2 上 Taylor 给出 141.4 而 Weight 给出 134.0),可作为评估打分准则质量的指标——好准则会让分布更集中,\(N_{\text{eff}}\) 更小、可剪更多。
  • 在 LLM 上,朴素幅值剪枝在 50% 稀疏率下崩塌的真正原因不是打分本身差,而是「固定全局预算」太粗暴;改用 \(N_{\text{eff}}\) 自适应阈值后,幅值准则也能与 Wanda 打成平手。
  • 把 EMP 应用到 RGB 像素层面,按 \(4\times4\) patch 局部计算 \(N_{\text{eff}}\) 可在 32.3% 稀疏率下达到 PSNR 38.3 dB / SSIM 0.991,证明该准则不仅适用于参数,也适用于特征。

亮点与洞察

  • 把「该保留多少」从超参数池里彻底剥离出来。EMP 不引入任何需要调的旋钮(\(\beta\) 只是部署适配),这在 LLM 时代的批量剪枝实验里直接省掉一个网格搜索的维度。
  • 用「打分分布的几何形状」反向定义剪枝代价。\(N_{\text{eff}}\) 本质上是把分布距离重心的二范数倒数当成「有效维度」,这种「分布即预算」的思想可以直接迁移到 mixture-of-experts 的专家激活、注意力稀疏化、低秩分解的秩选择等场景。
  • 提供了一个评估打分准则的新尺度。以往评判一个剪枝准则只能在固定稀疏率下比掉点,EMP 让我们直接比较准则给出的 \(N_{\text{eff}}\),分布越尖锐说明准则越能识别冗余。
  • 与门控注意力天然契合。EMP 可视为一种确定性硬门控——把 pre-softmax 分数过一次 top-\(N_{\text{eff}}\) 截断就相当于一个无参数的硬门,有潜力缓解注意力 sink 现象。

局限与展望

  • \(\epsilon\) 上界推导只对幅值准则严格成立,对 Wanda、Taylor 等准则只是实验上有效,理论上还需扩展到一般可微打分。
  • \(N_{\text{eff}}\) 是全局阈值(per-layer 应用时是逐层全局阈值),缺乏跨层重要性的协调,可能在浅层与深层之间分配次优。
  • 完全跳过 fine-tune 在 LLM 高稀疏率(>50%)下仍会有可见掉点,需要与 SparseGPT 风格的局部重构结合才可能进一步压榨。
  • 作者承认结合学习型门控(learned gating)做混合方案、把 EMP 作为训练期自适应特征选择的初始化等方向都未系统验证,是明确的展望。

相关工作与启发

  • vs Lottery Ticket / iterative magnitude pruning:他们靠多轮重训找子网络,EMP 一次性给出阈值不用重训,但理论上 LTH 能找到稀疏率更高的子网;EMP 更适合无重训预算的快速部署。
  • vs SparseGPT / Wanda:两者都需要预先指定稀疏率作为超参数,EMP 把这个超参数从指标分布反推出来;实验显示 EMP-Wanda 在更低稀疏率下取得更好 PPL,说明「自适应稀疏率」可与「好打分」叠加。
  • vs OBD / OBS:经典二阶方法需要 Hessian 估计才能给出局部最优剪枝,EMP 只需要一阶或零阶分数即可给出全局阈值,代价是不再保证「最优」但保证「可控误差」。

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 把粒子滤波/生态学的 \(N_{\text{eff}}\) 概念引入剪枝并给出几何下界,是真正意义上的跨学科迁移而非简单组合。
  • 实验充分度: ⭐⭐⭐⭐ 覆盖 FC、CNN、Transformer、KAN、LLM 五大类架构与四种打分准则,但缺乏与最新 LLM 剪枝(如 ShortGPT、LLM-Pruner)的直接对比。
  • 写作质量: ⭐⭐⭐⭐ 数学推导清晰,几何直观(单纯形 + 球壳)很有说服力,但符号略密集对初读者不友好。
  • 价值: ⭐⭐⭐⭐⭐ 直接解决了剪枝实践中「稀疏率怎么选」的痛点,且规则简单到 5 行代码即可实现,落地价值很高。