SLiM: One-shot Quantization and Sparsity with Low-rank Approximation for LLM Weight Compression¶
会议: ICML 2025
arXiv: 2410.09615
代码: GitHub
领域: 可解释性
关键词: one-shot compression, quantization, sparsity, low-rank adapter, SLiM-Quant, SLiM-LoRA
一句话总结¶
提出 SLiM,一种一次性压缩框架,将硬件友好的均匀量化、半结构化稀疏和基于显著性的低秩适配器无缝整合,在 4-bit + 2:4 稀疏条件下准确率提升最高 5.66%。
研究背景与动机¶
- 单独使用剪枝或量化可以有效降低推理成本,但联合使用时误差累积导致严重性能下降
- 现有一次性压缩方法在 4-bit + 结构化稀疏场景下难以恢复稠密模型精度
- 低秩适配器可以弥补压缩损失,但通常需要昂贵的重训练
- 现有低秩方法(如 L2QER)仅针对量化设计,与稀疏结合时效果差
方法详解¶
三步流水线¶
Step 1: SLiM-Quant(概率化均匀量化)¶
将量化问题从非凸优化重新形式化为概率框架:
\[\alpha^* = \arg\min_\alpha \int_{-\infty}^{\infty} f(x)|Q^{-1}(Q(x)) - x|^2 dx\]
分解为量化误差 + 裁剪误差:
\[E_Q(\alpha) = E_{quant}(\alpha) + E_{clip}(\alpha)\]
由于实际权重分布不符合任何标准分布(高斯、拉普拉斯等均被排除),采用数值积分+多网格策略求解最优 \(\alpha\):先粗搜索 10 个均匀采样点,再在最优区域细化。
激活感知扩展 (SLiM-Quant^O):定义通道显著性为 \(|diag(\mathbf{x}) \times \mathcal{W}|\),对约 1% 的最显著通道放大权重、缩小激活。
Step 2: 稀疏化¶
在量化权重上应用 Wanda 进行半结构化(2:4)或非结构化稀疏。
Step 3: SLiM-LoRA(显著性低秩适配器)¶
核心创新:设计满足可逆性和可加性的显著性函数 \(F(\mathcal{W}) = diag(\mathbf{x})\mathcal{W}\):
\[F(A+B) = F(A) + F(B) \quad \text{(可加性)}\]
利用这两个性质,直接通过 SVD 数学求解适配器值,无需迭代优化:
\[diag(\mathbf{x})\mathcal{L}, \mathcal{R} = -SVD(diag(\mathbf{x})(E_Q + E_S))\]
其中 \(E_Q, E_S\) 分别为量化和稀疏误差。
适配器量化¶
对低秩适配器也进行 4-bit 量化(AbsMax 分组量化,组大小 128),减少 4× 开销。
可选后压缩微调¶
冻结稀疏量化权重,仅微调低秩适配器,使用 STE 实现量化感知微调。
实验结果¶
主实验:零样本精度 (4-bit + 2:4 稀疏)¶
| 方法 | LLaMA-2-7B | LLaMA-2-13B | OPT-13B |
|---|---|---|---|
| Dense | 56.6 | 60.8 | 48.7 |
| Wanda + Group AbsMax | 40.6 | 49.6 | 37.7 |
| SparseGPT + OPTQ | 42.6 | 53.3 | 43.0 |
| JSQ | 44.3 | 53.7 | 42.0 |
| SLiM | 46.3 | 57.2 | 43.6 |
| SLiM + PEFT | 47.0 | 58.9 | - |
- LLaMA-2-7B 上平均提升 5.66%
- LLaMA-2-13B 上平均提升 3.89%
- SLiM 甚至在某些配置下超越稠密模型 0.6%
硬件加速¶
| GPU | 层级加速比 |
|---|---|
| RTX 3060 | 4.3× |
| A100 | 3.8× |
| 内存减少 | 0.23× |
消融:各组件贡献¶
| 配置 | PPL (WikiText2) |
|---|---|
| SLiM-Quant only | 6.89 |
| + Wanda | 8.12 |
| + SLiM-LoRA | 7.45 |
| + 适配器量化 | 7.51 |
| + PEFT | 7.32 |
亮点¶
- 显著性函数的可逆+可加设计非常优雅,使低秩适配器有封闭解
- 均匀量化 + 概率优化优化消除了分组量化的额外开销
- 三种压缩技术的无缝整合,每一步都有明确的数学动机
- 端到端一次性方案,不需要大规模重训练
- 在极端压缩条件下(4-bit + 2:4 稀疏)仍保持高精度
局限性¶
- SLiM-Quant 的数值积分依赖权重直方图,对异常分布可能不鲁棒
- SLiM-LoRA 的显著性函数选择有限(仅 \(diag(\mathbf{x})\mathcal{W}\)),可能非最优
- 仅在 LLaMA-2 和 OPT 上验证,缺少对 LLaMA-3、Mistral 等新模型的实验
- 适配器的秩选择缺乏自适应机制
- 可选 PEFT 步骤虽然增加精度但也增加了流水线复杂性
评分¶
⭐⭐⭐⭐ — 理论推导严谨、工程实现完整,三种压缩技术的联合优化在一次性压缩中达到新 SOTA。