Assigning Distinct Roles to Quantized and Low-Rank Matrices Toward Optimal Weight Decomposition¶

会议: ACL 2025
arXiv: 2506.02077
代码: 无 (基于CALDERA框架)
领域: 模型压缩 / LLM量化
关键词: 权重量化, 低秩分解, 激活异常值, KV Cache, 2-bit量化

一句话总结¶

提出ODLRI (Outlier-Driven Low-Rank Initialization)，为联合量化+低秩优化(Q+LR)框架中的低秩分量赋予明确角色——捕获激活异常值敏感权重，使量化分量处理更平滑的残差，在Llama2/3和Mistral的2-bit极端量化场景下持续降低困惑度和提升零样本精度。

研究背景与动机¶

领域现状：LLM权重压缩的主要方法是量化和矩阵分解。近年来联合优化方法将权重分解为 \(\mathbf{W} \approx \mathbf{Q} + \mathbf{LR}\)，通过交替优化量化矩阵和低秩分量实现极端压缩。

现有痛点：现有联合优化方法(CALDERA等)采用"先量化后低秩"或"先低秩后量化"的策略，本质上是不同的初始化选择。但低秩分量的初始化对最终结果的影响被忽视——实验发现初始化决定了量化和低秩分量的持久角色分配。

核心矛盾：零初始化让LR沦为"误差修正项"，而权重分解初始化让LR担当"主要权重表示"——两者都不是最优的角色分配。

本文目标：找到联合Q+LR优化中低秩分量的最优初始化策略，使Q和LR各自发挥所长。

切入角度：量化最怕激活异常值(extreme activations放大权重敏感性)，而低秩分量(两个低bit因子的乘积)实际等效于更高bit表示——因此应让LR专门捕获异常值敏感权重。

方法详解¶

整体框架¶

统一框架Algorithm 1：初始化 \(\mathbf{L}_0, \mathbf{R}_0 \leftarrow \text{Initialize}\)，然后迭代 \(T\) 轮：(1) \(\mathbf{Q}_t \leftarrow \text{Quantize}(\mathbf{W} - \mathbf{L}_{t-1}\mathbf{R}_{t-1})\)；(2) \(\mathbf{L}_t, \mathbf{R}_t \leftarrow \text{LRApprox}(\mathbf{W} - \mathbf{Q}_t)\)。ODLRI替换Initialize步骤。

关键设计¶

异常值驱动的低秩初始化 (ODLRI):
- 功能：利用Hessian对角线识别top-k激活异常值通道，用这些通道构建限制协方差矩阵 \(\mathbf{H}_o\)，初始化低秩分量
- 核心思路：\(\mathbf{L}_0, \mathbf{R}_0 = \arg\min_{\mathbf{L},\mathbf{R}} \|(\mathbf{W} - \mathbf{LR})\mathbf{H}_o(\mathbf{W} - \mathbf{LR})^\top\|\)，其中 \(\mathbf{H}_o = \mathbf{X}_o\mathbf{X}_o^\top\) 仅保留top-k异常值通道。选择 \(k < r\) 而非 \(k = r\)，集中捕获最关键的异常值
- 设计动机：量化对异常值高度敏感，将异常值敏感权重交给表示能力更强的LR分量处理，使Q处理更均匀的残差
初始化决定持久角色:
- 功能：通过实验发现不同初始化策略导致Q和LR承担完全不同的角色
- 核心思路：测量 \(\|\mathbf{QX}\|/\|\mathbf{WX}\|\) 和 \(\|\mathbf{LRX}\|/\|\mathbf{WX}\|\)。零初始化→Q≈0.96, LR≈0.07(Q主导)；权重分解初始化→Q≈0.40, LR≈0.66(LR主导)。迭代优化不改变这一角色分配
- 设计动机：说明初始化不仅是"起点"，而是根本性决定了分解结构
k值选择策略:
- 功能：选择top-k异常值通道数，\(k < r\)
- 核心思路：\(k=r\) 等价于对全部权重做activation-aware低秩逼近；\(k<r\) 更激进地聚焦异常值。实验发现 \(k=16\)（远小于rank=256）时效果最佳
- 设计动机：过于分散的初始化降低了对异常值的集中处理能力

损失函数 / 训练策略¶

后训练量化(PTQ)方法，不需要训练。Q使用QuIP#的E8 lattice codebook做2-bit量化，LR使用LPLR迭代算法做4-bit或16-bit。CALDERA默认15轮外迭代、10轮内迭代。

实验关键数据¶

主实验¶

Llama2系列 (Q=2-bit, LR=4-bit)：

模型	方法	Rank	WikiText-2 PPL↓	C4 PPL↓	Zero-shot平均↑
7B	CALDERA	256	6.47	8.47	61.1
7B	+ODLRI	256	6.33	8.27	62.6
13B	CALDERA	256	5.56	7.39	63.8
13B	+ODLRI	256	5.46	7.28	63.6
70B	CALDERA	256	3.99	5.78	71.3
70B	+ODLRI	256	3.94	5.73	71.9

Llama3-8B & Mistral-7B (Q=2-bit, LR=4-bit)：

模型	方法	Rank	Wiki2↓	C4↓
Llama3-8B	CALDERA	256	8.70	9.77
Llama3-8B	+ODLRI	256	8.12	9.33
Mistral-7B	CALDERA	256	5.77	6.59
Mistral-7B	+ODLRI	256	5.69	6.53

消融实验¶

k值影响(Llama2-7B, rank=256)：

初始化方式	LR 16-bit Wiki2↓	LR 4-bit Wiki2↓
\(\mathbf{H}_o\) (k=r=256)	6.38	6.46
\(\mathbf{H}_o\) (k=16<r)	6.18	6.33

关键发现¶

ODLRI在所有模型、所有rank设置下一致性地降低困惑度，唯一改变是初始化策略
ODLRI显著降低量化scale(更紧凑的权重分布→低bit表示更精确)
ODLRI降低activation-aware error在优化的所有迭代中持续保持优势
\(k<r\) 比 \(k=r\) 效果好：集中处理异常值比分散处理更有效
16-bit LR比4-bit LR改善更明显：量化LR时部分异常值信息被"二次"量化丢失

亮点与洞察¶

核心洞见：初始化不仅影响收敛速度，更根本性地决定了权重分解中各分量的"角色"
方法优雅性：仅改变一行代码(初始化方式)就在CALDERA框架上获得一致改进
物理直觉：异常值→高方差→量化误差大，让低秩分量"吸收"这些异常值是自然的
统一框架视角：将先量化/先分解理解为初始化选择，开辟了新的优化空间

局限与展望¶

仅关注weight-only量化，未涉及activation量化和KV cache量化
仅在CALDERA框架中验证，可推广到其他Q+LR算法
2-bit量化后与FP16相比仍有明显差距(7B: 6.33 vs 5.12)
未探索ODLRI与模型规模的交互效应（更大模型是否获益更多？）

评分¶

新颖性: ⭐⭐⭐⭐ 初始化与角色分配的洞见虽直观但此前未被认识到
实验充分度: ⭐⭐⭐⭐⭐ 5个模型系列、多种rank和bit设置、多维消融分析
写作质量: ⭐⭐⭐⭐⭐ 统一框架presentation非常清晰，图表说服力强
价值: ⭐⭐⭐⭐ 方法简洁有效，对极端压缩场景有实际价值