跳转至

SLiM: One-shot Quantization and Sparsity with Low-rank Approximation for LLM Weight Compression

会议: ICML 2025
arXiv: 2410.09615
代码: GitHub
领域: 可解释性
关键词: one-shot compression, quantization, sparsity, low-rank adapter, SLiM-Quant, SLiM-LoRA

一句话总结

提出 SLiM,一种一次性压缩框架,将硬件友好的均匀量化、半结构化稀疏和基于显著性的低秩适配器无缝整合,在 4-bit + 2:4 稀疏条件下准确率提升最高 5.66%。

研究背景与动机

  • 单独使用剪枝或量化可以有效降低推理成本,但联合使用时误差累积导致严重性能下降
  • 现有一次性压缩方法在 4-bit + 结构化稀疏场景下难以恢复稠密模型精度
  • 低秩适配器可以弥补压缩损失,但通常需要昂贵的重训练
  • 现有低秩方法(如 L2QER)仅针对量化设计,与稀疏结合时效果差

方法详解

三步流水线

Step 1: SLiM-Quant(概率化均匀量化)

将量化问题从非凸优化重新形式化为概率框架:

\[\alpha^* = \arg\min_\alpha \int_{-\infty}^{\infty} f(x)|Q^{-1}(Q(x)) - x|^2 dx\]

分解为量化误差 + 裁剪误差:

\[E_Q(\alpha) = E_{quant}(\alpha) + E_{clip}(\alpha)\]

由于实际权重分布不符合任何标准分布(高斯、拉普拉斯等均被排除),采用数值积分+多网格策略求解最优 \(\alpha\):先粗搜索 10 个均匀采样点,再在最优区域细化。

激活感知扩展 (SLiM-Quant^O):定义通道显著性为 \(|diag(\mathbf{x}) \times \mathcal{W}|\),对约 1% 的最显著通道放大权重、缩小激活。

Step 2: 稀疏化

在量化权重上应用 Wanda 进行半结构化(2:4)或非结构化稀疏。

Step 3: SLiM-LoRA(显著性低秩适配器)

核心创新:设计满足可逆性可加性的显著性函数 \(F(\mathcal{W}) = diag(\mathbf{x})\mathcal{W}\)

\[F(A+B) = F(A) + F(B) \quad \text{(可加性)}\]

利用这两个性质,直接通过 SVD 数学求解适配器值,无需迭代优化:

\[diag(\mathbf{x})\mathcal{L}, \mathcal{R} = -SVD(diag(\mathbf{x})(E_Q + E_S))\]

其中 \(E_Q, E_S\) 分别为量化和稀疏误差。

适配器量化

对低秩适配器也进行 4-bit 量化(AbsMax 分组量化,组大小 128),减少 4× 开销。

可选后压缩微调

冻结稀疏量化权重,仅微调低秩适配器,使用 STE 实现量化感知微调。

实验结果

主实验:零样本精度 (4-bit + 2:4 稀疏)

方法 LLaMA-2-7B LLaMA-2-13B OPT-13B
Dense 56.6 60.8 48.7
Wanda + Group AbsMax 40.6 49.6 37.7
SparseGPT + OPTQ 42.6 53.3 43.0
JSQ 44.3 53.7 42.0
SLiM 46.3 57.2 43.6
SLiM + PEFT 47.0 58.9 -
  • LLaMA-2-7B 上平均提升 5.66%
  • LLaMA-2-13B 上平均提升 3.89%
  • SLiM 甚至在某些配置下超越稠密模型 0.6%

硬件加速

GPU 层级加速比
RTX 3060 4.3×
A100 3.8×
内存减少 0.23×

消融:各组件贡献

配置 PPL (WikiText2)
SLiM-Quant only 6.89
+ Wanda 8.12
+ SLiM-LoRA 7.45
+ 适配器量化 7.51
+ PEFT 7.32

亮点

  • 显著性函数的可逆+可加设计非常优雅,使低秩适配器有封闭解
  • 均匀量化 + 概率优化优化消除了分组量化的额外开销
  • 三种压缩技术的无缝整合,每一步都有明确的数学动机
  • 端到端一次性方案,不需要大规模重训练
  • 在极端压缩条件下(4-bit + 2:4 稀疏)仍保持高精度

局限性

  • SLiM-Quant 的数值积分依赖权重直方图,对异常分布可能不鲁棒
  • SLiM-LoRA 的显著性函数选择有限(仅 \(diag(\mathbf{x})\mathcal{W}\)),可能非最优
  • 仅在 LLaMA-2 和 OPT 上验证,缺少对 LLaMA-3、Mistral 等新模型的实验
  • 适配器的秩选择缺乏自适应机制
  • 可选 PEFT 步骤虽然增加精度但也增加了流水线复杂性

评分

⭐⭐⭐⭐ — 理论推导严谨、工程实现完整,三种压缩技术的联合优化在一次性压缩中达到新 SOTA。