GRASPrune: Global Gating for Budgeted Structured Pruning of Large Language Models¶

会议: ACL 2026
arXiv: 2604.19398
代码: GitHub
领域: 机器人
关键词: 结构化剪枝, 全局预算, 门控学习, KV头剪枝, 投影STE

一句话总结¶

GRASPrune 提出了一种全局预算约束的结构化剪枝框架，通过投影直通估计器（Projected STE）在每步训练中强制满足硬掩码预算约束，联合剪枝 FFN 通道和 KV 头组，在 LLaMA-2-7B 上以 50% 参数保留达到 12.18 PPL，仅需单卡 A100 训练 6 分钟。

研究背景与动机¶

领域现状：LLM 的推理成本高昂——模型参数量、注意力计算和 KV 缓存都带来大量内存和延迟开销。结构化剪枝通过移除通道或头组产生更小的密集检查点，可直接用标准推理栈部署。

现有痛点：(1) FFN 通道和 KV 头组通常用不同标准分别剪枝，但它们共享同一部署预算和表示容量；(2) 许多方法预定义逐层保留率或深度依赖调度，硬编码了预算分配方式而非学习全局最优分配；(3) 现有管线先估计重要性分数再施加预算，训练时无约束、选择时才约束——分数学习与最终掩码脱节。

核心矛盾：不是缺少更好的显著性指标，而是分数学习方式与最终掩码选择方式之间存在错配——无约束学习的分数在有约束选择时可能产生次优分配。

本文目标：在优化循环内部强制预算可行性，使门控分数在与最终部署掩码相同的约束下学习。

切入角度：将结构化剪枝形式化为单一全局预算约束下的联合优化问题，FFN 通道和 KV 头组用不同单位成本在同一预算下竞争。

核心 idea：投影 STE 在每步训练中执行预算投影→硬掩码前向→软分数反向，配合后处理缩放校准，生成无额外推理开销的更小密集检查点。

方法详解¶

整体框架¶

三阶段：(1) 门控学习——冻结骨干权重，用投影 STE 优化标量门控分数，每步执行预算可行的硬掩码投影；(2) 缩放校准——冻结掩码，为保留单元学习标量乘子以缓解剪枝引起的尺度偏移；(3) 检查点编译——将缩放因子折入切片权重，输出更小的密集检查点。

关键设计¶

全局预算联合剪枝:
- 功能：让 FFN 通道和 KV 头组在同一预算下最优竞争
- 核心思路：每个可剪枝单元 \(i \in \mathcal{S}\) 有二元变量 \(z_i\) 和成本 \(c_i\)。FFN 通道 \(c_i=1\)，KV 头组 \(c_i=\alpha\)，其中 \(\alpha = \frac{(2G+2)d_h}{3}\) 是参数量近似比率。全局预算 \(B = \rho \sum c_i\)。优化 \(\min_{\mathbf{z}} \mathcal{L}(\theta; \mathbf{z})\) s.t. \(\sum c_i z_i \leq B\)，\(\theta\) 固定只优化 \(\mathbf{z}\)。
- 设计动机：分别剪枝 FFN 和 KV 无法在全局层面最优分配预算——联合优化让系统自动决定在哪种结构上保留更多容量
投影直通估计器（Projected STE）:
- 功能：在离散掩码选择中实现可微优化且每步满足预算
- 核心思路：每步将连续门控概率 \(\mathbf{p}\) 投影为预算可行的硬掩码 \(\mathbf{m} = \text{Project}(\mathbf{p}, \mathbf{c}, B)\)——按 \(p_i\) 降序排列，贪心选择直到预算用尽。前向用硬掩码 \(m_i\)，反向用软概率 \(p_i\) 的 STE：\(\tilde{z}_i = m_i + (p_i - \text{stopgrad}(p_i))\)。关键设计：按 \(p_i\) 而非 \(p_i/c_i\) 排序——按成本归一化会将分配偏向便宜单元。
- 设计动机："先学分数再选掩码"的管线让分数在无约束下学习，约束仅在选择时施加——GRASPrune 在每步训练中都施加约束，分数在约束下学习
预算保持缩放校准:
- 功能：缓解剪枝引起的输出尺度偏移
- 核心思路：冻结硬掩码 \(\mathbf{m}\) 后，为每个保留单元引入标量乘子 \(\gamma_i\)，在同一校准集上用冻结骨干权重优化。训练参数量 \(O(|\mathcal{I}|)\)，FLOP 不变。完成后将 \(\gamma\) 折入切片权重产生更小的密集检查点，推理时无额外开销。
- 设计动机：注意力头剪枝会改变输出尺度，轻量级重缩放比完整微调高效得多

损失函数 / 训练策略¶

语言建模损失在校准集上优化门控分数。512 条无标签序列、4 个 epoch、单卡 A100 约 6 分钟。无需完整模型微调。

实验关键数据¶

主实验¶

参数比例	方法	Wiki PPL↓	零样本平均Acc
50%	LLM-Pruner	~18	0.61
50%	SliceGPT	~15	-
50%	GRASPrune	12.18	竞争力强
40%	GRASPrune	16.65	-

消融实验¶

配置	说明
按 \(p_i/c_i\) 排序	分配偏向便宜单元，性能下降
无缩放校准	PPL 上升
扰动 \(\alpha\)	对 \(\alpha\) 适度不敏感
投影开销	排序时间仅占总训练时间 0.11%

关键发现¶

50% 参数保留下 PPL 12.18 优于所有对比方法
按 \(p_i\) 排序（而非 \(p_i/c_i\)）的效果更好——违反直觉但因分数在约束下学习所以合理
训练极高效——6 分钟单卡完成门控学习+校准
KV 缓存削减带来实际推理加速

亮点与洞察¶

"在约束下学习"vs"学完再约束"的洞察非常深刻——这是结构化剪枝中一个被广泛忽视的问题
联合 FFN+KV 剪枝用统一成本模型 \(\alpha\) 优雅地处理了异构结构的公平竞争
极低的训练成本（6 分钟单卡）使方法具有很强的实用性

局限与展望¶

成本模型基于参数量近似，未直接优化延迟或吞吐量
仅在 LLaMA-2 系列评估，更新模型（LLaMA-3+）的适用性需验证
无后续微调阶段——对于极高压缩率（<30%）可能需要配合微调

评分¶

新颖性: ⭐⭐⭐⭐ 投影STE+预算内训练的思路新颖
实验充分度: ⭐⭐⭐⭐ 多压缩率+详细消融+效率分析
写作质量: ⭐⭐⭐⭐⭐ 问题分析精辟，方法推导严密
价值: ⭐⭐⭐⭐ 高效实用的LLM结构化剪枝方案代码: 待确认
领域: robotics
关键词: 待补充

一句话总结¶

待深读论文后补充

研究背景与动机¶

待深读论文后补充

方法详解¶

待深读论文后补充

实验关键数据¶

待深读论文后补充

亮点与洞察¶

待深读论文后补充

局限性 / 可改进方向¶

待深读论文后补充

评分¶

新颖性: 待评
实验充分度: 待评
写作质量: 待评
价值: 待评

GRASPrune: Global Gating for Budgeted Structured Pruning of Large Language Models¶

一句话总结¶

研究背景与动机¶

方法详解¶

整体框架¶

关键设计¶

损失函数 / 训练策略¶

实验关键数据¶

主实验¶

消融实验¶

关键发现¶

亮点与洞察¶

局限与展望¶

相关工作与启发¶

评分¶

一句话总结¶

研究背景与动机¶

方法详解¶

实验关键数据¶

亮点与洞察¶

局限性 / 可改进方向¶

相关工作与启发¶

评分¶