Pruning as a Cooperative Game: Surrogate-Assisted Layer Contribution Estimation for Large Language Models¶
会议: ICLR 2026
arXiv: 2602.07804
代码: GitHub
领域: 强化学习
关键词: 模型剪枝, 合作博弈, Shapley值, 代理网络, 大语言模型
一句话总结¶
将LLM层剪枝建模为合作博弈,利用轻量代理网络近似Shapley值来捕获层间依赖关系,实现比静态启发式方法更优的深度剪枝效果。
研究背景与动机¶
大语言模型(LLM)的部署受限于巨大的计算和内存需求,层剪枝(删除整个Transformer层)是一种有效的压缩方法。现有的层剪枝方法普遍基于静态启发式规则(如权重大小、激活范数、敏感度分析),假设每层的重要性是固定且独立的。
然而,作者通过实验发现层重要性具有上下文依赖性:在单层剪枝中,中间层的排名波动显著;在多层剪枝中,这种波动进一步放大。更关键的是,按静态重要性逐层剪枝得到的结果(PPL=15.4535)并非全局最优,最优的两层组合(Layer 10+11, PPL=15.4279)可能不包含排名最低的单层。这揭示了层间存在动态依赖关系,静态方法无法捕捉。
本文的核心idea:将层剪枝形式化为合作博弈,每层是一个参与者,模型性能是效用函数,通过Shapley值量化每层在考虑层间交互后的真实贡献。
方法详解¶
整体框架¶
两阶段框架:阶段一生成多样的剪枝掩码并评估性能,阶段二训练代理网络近似性能下降,进而高效估计Shapley值。
关键设计¶
-
分层蒙特卡洛掩码采样(阶段一):
- 功能:生成具有受控Hamming权重的多样化二元剪枝掩码
- 核心思路:对保留层数 \(k\) 进行分层采样,每层 \(k_j\) 采样 \(N_{k_j}\) 个掩码 \(\mathbf{m}^{(k_j,t)} \sim \text{Uniform}\{\mathbf{m} \in \{0,1\}^L : k(\mathbf{m})=k_j\}\)。性能分数为 \(s(\mathbf{m}) = \text{PPL}_\text{orig} / \text{PPL}(M(\mathbf{m}))\)
- 设计动机:确保不同剪枝比例的均衡覆盖,防止采样偏向特定压缩率
-
轻量代理网络(阶段二):
- 功能:训练两层前馈网络 \(f_\theta(\mathbf{m})\) 预测任意掩码的性能分数
- 核心思路:使用MSE损失 \(\mathcal{L}(\theta) = \frac{1}{N}\sum_{n=1}^{N}(f_\theta(\mathbf{m}_n) - s(\mathbf{m}_n))^2\) 训练代理
- 设计动机:避免对每个掩码组合进行完整模型推理,将Shapley值估计的计算成本降至可接受水平
-
近似Shapley值估计:
- 功能:利用代理网络高效计算每层的边际贡献
- 核心思路:\(\hat{\phi}_i = \frac{1}{Q}\sum_{q=1}^{Q}(f_\theta(\mathbf{m}^{(k_j,q)} \cup \{i\}) - f_\theta(\mathbf{m}^{(k_j,q)}))\)
- 设计动机:精确Shapley值需要遍历 \(2^L\) 个子集,计算不可行;代理网络使大规模采样估计成为可能
损失函数 / 训练策略¶
代理网络采用MSE损失训练,使用阶段一收集的(掩码,性能分数)对作为监督信号。训练完成后,在大量候选掩码上估计Shapley值,按贡献从低到高移除层直到达到目标压缩率。
实验关键数据¶
主实验(LLaMA-2-7B,WikiText2 PPL)¶
| 方法 | 删3层 | 删6层 | 删9层 | 删12层 |
|---|---|---|---|---|
| SliceGPT | 108.10 | 212.89 | 291.85 | 393.89 |
| SLEB | 14.24 | 19.47 | 27.45 | 58.12 |
| Shortened-LLaMA | 16.65 | 36.37 | 81.96 | 304.52 |
| ShortGPT | 16.65 | 36.37 | 81.96 | 157.99 |
| 本文 | 14.69 | 18.87 | 24.61 | 38.12 |
消融实验¶
| 配置 | PPL(WikiText2) | 说明 |
|---|---|---|
| 静态单层删除方案 | 15.45 | 按独立重要性选两层 |
| 重新计算方案 | 15.45 | 删一层后重新评估 |
| 最优组合 | 15.43 | 考虑层间交互的全局最优 |
关键发现¶
- 在激进剪枝(12层)下本文方法优势最大,PPL远低于基线(38.12 vs 58.12-304.52)
- 方法可扩展到非Transformer架构(RWKV-7B、Mamba-2.8B)
- 可与量化技术无缝结合获得额外效率提升
- 在8个零样本基准上也表现出一致的准确率优势
亮点与洞察¶
- 博弈论视角新颖:将层剪枝从独立评估转向考虑层间协作的全局优化
- 实用性强:代理网络训练开销很小,且一旦训练好即可快速评估大量掩码组合
- 层重要性的动态性:Table 1清楚展示了静态排名的局限性——最不重要的两层组合并非最优
局限与展望¶
- 代理网络的泛化能力依赖于阶段一采样的多样性和数量
- 当前仅考虑PPL作为效用函数,未考虑下游任务特定的性能指标
- 分层采样策略中各层预算分配较为均匀,可能存在更优的自适应分配方案
相关工作与启发¶
- GTAP方法(Diaz-Ortiz Jr et al., 2023)首先将博弈论用于神经元重要性,但受限于计算复杂度
- ShortGPT(Men et al., 2024)的Block Influence (BI)指标是本文的重要对比基线
- 代理网络的思路可推广到其他需要大量评估的NAS和超参搜索场景
评分¶
- 新颖性: ⭐⭐⭐⭐ 合作博弈视角对层剪枝问题的建模很有创意
- 实验充分度: ⭐⭐⭐⭐⭐ 多模型、多基准、含消融和非Transformer验证
- 写作质量: ⭐⭐⭐⭐ 动机阐述清晰,Table 1很有说服力
- 价值: ⭐⭐⭐⭐ 为LLM压缩提供了新的系统性方法论