SkipCat: Rank-Maximized Low-Rank Compression of Large Language Models via Shared Projection and Block Skipping¶

会议: AAAI 2026
arXiv: 2512.13494
代码: 无
领域: 模型压缩
关键词: 低秩压缩, SVD, 秩最大化, Block Skipping, 共享投影

一句话总结¶

SkipCat 提出了一种秩最大化的低秩压缩框架，通过层内共享投影（Cat）和块跳跃（Skip）两项技术，在相同压缩率下保留更多有效秩，无需微调即可在零样本任务上比现有低秩方法提升7%准确率。

研究背景与动机¶

领域现状¶

大语言模型在各种任务上表现出色，但巨大的参数规模使其在边缘设备上的部署面临计算和内存挑战。低秩压缩通过将权重矩阵分解为两个低秩矩阵来减少参数和计算量，是一种有前景的压缩方向。

现有痛点¶

朴素低秩压缩（如SVD分解）有一个本质限制——必须将保留秩降低到原始秩的一半以下，才能真正获得计算和内存收益。

具体来说，对于权重矩阵 $W \in \mathbb{R}^{d_{out} \times d_{in}}$，低秩分解为 $B \in \mathbb{R}^{d_{out} \times r}$ 和 $A \in \mathbb{R}^{r \times d_{in}}$。只有当： $$r < \frac{d_{in} \cdot d_{out}}{d_{in} + d_{out}}$$ 时才有压缩收益。对方阵（$d_{in} = d_{out}$），这意味着 $r < R/2$。

核心矛盾¶

秩越低压缩越多，但性能下降越大；秩越高保持性能，但没有实际压缩收益。如何在相同压缩率下保留更多有效秩？

本文切入角度¶

利用模型架构的结构特性——注意力模块中Q/K/V共享输入、MLP中Gate/Up共享输入——通过共享投影矩阵和块跳跃技术，从根本上改变秩与压缩率的关系。

方法详解¶

整体框架¶

SkipCat由两个核心技术组成： 1. Cat（层内共享低秩投影）：共享输入的矩阵使用同一个投影矩阵 2. Skip（块跳跃）：跳过低秩投影中某些子块的计算

两者联合使用，在相同压缩预算下显著增加有效秩数量。

关键设计¶

1. Cat：层内共享低秩投影（Matrix Concatenation）¶

核心思路：注意力模块中 $W_Q, W_K, W_V$ 共享相同输入 $x$，MLP中 $W_{Gate}, W_{Up}$ 也共享输入。将共享输入的矩阵沿输出维度拼接后进行联合SVD分解
具体操作： $$W_{QKV} = [W_Q^T, W_K^T, W_V^T]^T \in \mathbb{R}^{3d_{out} \times d_{in}}$$ 分解为 $B_{QKV} \in \mathbb{R}^{3d_{out} \times r}$ 和共享投影 $A_{QKV} = W_{S1} \in \mathbb{R}^{r \times d_{in}}$
收益分析：分摊后每个矩阵的参数量为 $r(d_{in} + Cd_{out})/C$，$C$ 为拼接矩阵数。对于注意力模块 $C=3$，投影矩阵开销被分摊到三份
设计动机：投影矩阵 $A$ 的作用是将输入映射到低维空间，共享输入的矩阵可以共用这个映射，减少冗余参数

2. Skip：块跳跃（Block Skipping via Schur Complement）¶

核心思路：将投影矩阵 $A$ 分块为 $[A_1, A_2]$，将 $A_1$ 吸收进重建矩阵 $B$，跳过 $A_1$ 的显式计算
关键推导： $$Wx \approx BAx = B(A_1 x_1 + A_2 x_2) = BA_1(x_1 + A_1^{-1}A_2 x_2) = B'(x_1 + A'x_2)$$ 其中 $B' = BA_1$，$A' = A_1^{-1}A_2$
参数量：从 $r(d_{in} + d_{out})$ 减少到 $r(d_{in} + d_{out} - r)$
数值稳定性问题：$A_1$ 病态时 $A_1^{-1}$ 产生大值，导致FP16溢出
解决方案——列置换：使用Strong Rank-Revealing QR分解找到使 $\tilde{A}_1$ 条件良好的列子集，应用列置换 $P$ 后重新分解。置换后激活值幅度减小近两个数量级，分布更均匀

3. SkipCat联合使用¶

所有共享投影均配备块跳跃，二者互补
Cat在低压缩率时作用有限但Skip效果显著；高压缩率时Cat弥补Skip的不足
联合后在整个压缩范围内始终处于有效压缩区域

训练策略¶

无训练：无需微调即可获得强性能
白化预处理：使用WikiText-2和C4混合校准集（512样本）进行权重白化
可选微调：与LoRA微调兼容，20%压缩率下微调后仅损失0.39%准确率
量化兼容：用Hadamard变换和通道缩放稳定8-bit量化

实验关键数据¶

主实验¶

模型	压缩率	方法	WikiText2 PPL	C4 PPL	零样本平均准确率	准确率下降
LLaMA2-7B	0%	Dense	5.47	7.26	54.79%	—
LLaMA2-7B	20%	ASVD	9.06	11.66	48.81%	5.98%
LLaMA2-7B	20%	SVD-LLM	8.82	13.42	44.84%	9.95%
LLaMA2-7B	20%	SkipCat	6.29	8.95	52.59%	2.20%
LLaMA2-7B	30%	SVD-LLM	11.75	19.37	41.25%	13.54%
LLaMA2-7B	30%	SkipCat	7.65	11.57	48.46%	6.34%
Qwen3-8B	20%	SVD-LLM	14.33	23.21	51.66%	8.62%
Qwen3-8B	20%	SkipCat	11.68	19.09	56.42%	3.86%

消融实验¶

Cat	Skip	Quant	WikiText2 PPL	C4 PPL	说明
✗	✗	✗	8.82	13.42	朴素SVD基线
✓	✗	✗	7.84	11.99	Cat单独贡献
✗	✓	✗	6.71	9.32	Skip贡献更大
✓	✓	✗	6.29	8.95	联合效果最佳
✓	✓	✓	6.29	8.96	8-bit量化无损失

微调后结果（LLaMA2-7B + LoRA）¶

压缩率	SVD-LLM	SkipCat	差距
20%	51.02% (-3.78)	54.41% (-0.39)	SkipCat仅损失0.39%
40%	46.91% (-7.88)	48.65% (-6.15)
60%	39.50% (-15.29)	41.16% (-13.64)

关键发现¶

30%压缩率下，SkipCat的PPL（7.65）甚至低于其他方法20%压缩率的结果
零样本准确率提升约7%（30%压缩率下vs SVD-LLM）
Cat和Skip互补——Cat减少投影冗余，Skip减少子块计算，联合效果最佳
列置换是Skip在FP16下工作的关键，无置换时BF16 PPL可达31628
在更大模型（13B/14B）和不同架构（Qwen3）上一致有效

亮点与洞察¶

问题定义精准：识别出"秩必须低于一半才有压缩收益"这一本质限制，并系统解决
数学优雅：Skip技术基于Schur补的理论基础，列置换保证数值稳定性
无训练强性能：20%压缩率下仅2.2%准确率下降，这在无训练设置中极为出色
与量化正交兼容：参数级压缩+精度级量化可叠加使用

局限与展望¶

Skip技术需要 $A_1$ 可逆，虽然列置换缓解了这个问题，但极端情况下仍可能受限
Cat要求矩阵共享相同输入，对于不同架构的适用性需要case-by-case分析
高压缩率（>60%）下性能下降仍然显著
仅评估了语言模型，视觉/多模态模型上效果未验证
执行时需要列置换预处理，部署复杂度略增

评分¶

新颖性: ⭐⭐⭐⭐⭐ — 秩最大化视角新颖，Cat+Skip设计优雅
实验充分度: ⭐⭐⭐⭐⭐ — 多模型、多压缩率、消融+微调+量化全覆盖
写作质量: ⭐⭐⭐⭐⭐ — 动机清晰，Figure 1完美展示核心idea
价值: ⭐⭐⭐⭐⭐ — 实用性强，7%准确率提升在低秩压缩中是显著进步