No Outlier Channels but with Outlier Blocks¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=qVQVVZMRVT
代码: https://github.com/maoshanwen/NuBitQ-OCP
领域: 模型压缩 / LLM 量化
关键词: 非均匀量化, 向量量化, 离群值补偿, 任意比特宽度, LLM 压缩, 码本

一句话总结¶

本文指出非均匀量化的离群值不再像均匀量化那样集中在"离群通道"上，而是以"离群块（block）"的形式分散出现，并据此提出灵活任意比特宽度的 NuBitQ 量化框架，外挂一个免 Hessian、免微调的 OCP 离群补偿插件，在 4-bit 近无损、2-bit 显著领先现有非均匀量化方法。

研究背景与动机¶

领域现状：LLM 部署受限于巨大的显存与算力需求，量化是核心压缩手段。均匀量化按等间隔切分数值范围、用 per-channel scale/zero-point，但对离群值（rare 的大幅值）极其敏感，误差集中在高方差通道，于是 LLM.int8、AWQ、FlatQuant 等用隔离离群、提升关键通道精度、仿射变换等手段做"离群通道"补偿。非均匀量化（AQLM、VPTQ、GPTVQ、QuIP# 等）则用聚类码本拟合真实权重分布，全局误差更小、能压到更低比特。

现有痛点：非均匀量化带来两个被忽视的问题。其一，SOTA 方法依赖固定码本、放大码本或残差拟合来降总误差，却忽略了误差的"敏感度差异"——不是所有误差都同样有害；BCQ、GPTVQ 试图用逐层微调或 Hessian 引导聚类解决，但 Hessian 计算和微调开销大，难以扩展到大模型。其二，更关键的是：非均匀量化下离群值的形态变了。均匀量化的 clipping 会制造显著的"离群通道"，而非均匀量化误差更小、更分散，传统基于幅值（first-order）的逐通道离群检测彻底失效。

核心矛盾：现有离群补偿策略全部是为"离群通道"设计的，但非均匀量化根本没有离群通道——它的有害离群以"局部块"形式存在，且依赖输入数据。核心 idea：先用一套理论指标量化"每个 Transformer block 内离群值对模型输出的真实影响"，再据此做多粒度分层补偿，全程避开 Hessian 与微调。

方法详解¶

整体框架¶

方法分两块：NuBitQ 负责灵活的非均匀量化主干（任意比特、逐层定制的多码本多向量量化），OCP（Outlier Compensation Plug-in） 是即插即用的离群补偿插件，由一个"离群分数"驱动，在 linear / Transformer-block / 全模型三个粒度上分层补偿。OCP 可挂在自家 NuBitQ 上，也能挂到 AQLM/VPTQ/GPTVQ 等他家方法上。

flowchart TD
    W[原始权重矩阵 n×m] --> NB[NuBitQ: 切子向量+分组+残差多码本量化]
    NB --> Q[量化权重 Q W]
    Q --> OS[离群分数 βi: 扰动幅值+激活协方差+逐层放大]
    OS --> OCP{OCP 按分数选粒度}
    OCP -->|高敏感 sublayer| L[MSE 最小化 Linear级]
    OCP -->|结构复杂 block| T[注意力分数偏差 Block级]
    OCP -->|全局| M[KL 散度 Model级]
    L --> R[补偿后 Q W + ΔW]
    T --> R
    M --> R

关键设计¶

1. NuBitQ：任意比特的灵活多码本量化——把"压缩率—精度"做成可搜索的旋钮。 给定 \(n\times m\) 权重矩阵，先切成维度为 \(d\) 的 \(\frac{n\times m}{d}\) 个子向量，均分到 \(g\) 组、每组配可学习缩放因子 \(q\)；每组建含 \(c\) 个聚类中心的码本（k-means 时用宽度 \(b\) 的 beam search 提升聚类质量）。在此基础上引入残差量化：用 \(r\) 个串行码本，第一个编码原始子向量、后续每个编码上一步的残差，于是每个子向量由 \(r\) 个索引序列近似。压缩率可解析地写成 \(R \approx \frac{r\times \log_2 c}{32\times d}\)（权重足够大时码本存储可忽略）。通过对 \(r,c,d\) 网格搜索，就能在高精度到超低比特之间自由调档，这正是"任意比特宽度、逐层差异化"的来源。

2. 离群块的发现与离群分数：用 Jacobian 传播把"有害离群"量化成一个可计算的标量。 作者对 LLaMA3-8B 做 2-bit 逐块量化实验发现，量化敏感度在 block 间差异巨大（如单独量化 block 1 使 PPL 涨幅最大），且进一步细化到 sublinear、再到具体输入样本，证明离群"不是孤立通道而是局部块、且依赖输入"。为此定义第 \(i\) 个 block 的离群影响，从权重扰动 \(\Delta W_{i,j}=W^\star_{i,j}-Q(W_{i,j})\) 出发，用 Jacobian 描述其向输出的传播 \(\Delta Y_L = J_{i\to L}\sum_{j=1}^{7}J_{i,j}(\Delta W_{i,j})\)，再用输出扰动的期望 Frobenius 范数近似 \(I_i := \mathbb{E}\|\Delta Y_L\|_F^2 \approx \sum_{j}\mathbb{E}[(\Delta W_{i,j})^\top M_{i,j}(\Delta W_{i,j})]\)。借鉴 Hessian trace 近似，把它分解为三个可解释因子——扰动幅值 \(\|\Delta W_{i,j}\|_F^2\)、输入激活协方差迹 \(\mathrm{tr}(C_{i,j})\)（对扰动的敏感度）、后续层权重范数乘积 \(\prod_{k=i+1}^{L}\|W_k\|_F^2\)（逐层放大）。取对数整合量纲差异，得到块级离群分数：

\[\beta_i = \sum_{j=1}^{7}\left(\log\|\Delta W_{i,j}\|_F^2 + \log \mathrm{tr}(C_{i,j}) + \sum_{k=i+1}^{L}\log\|W_k\|_F^2\right)\]

这把"权重扰动 + 激活统计 + 跨层传播"三者揉进一个标量，且全程不需要真算 Hessian。

3. 多粒度分层补偿：按离群分数从细到粗选补偿强度，性价比驱动。 OCP 维护一个离群码本池、用滑动窗口选码本项，对应三个粒度的补偿目标，每个都只优化补偿项 \(\Delta W\) 让 \(Q(W)+\Delta W\) 更逼近原权重。最细的 Linear 级 MSE 最小化 直接对齐输出：\(\Delta W^\star_{i,j}=\arg\min_{\Delta W_{i,j}}\mathbb{E}_{x}\|x W^\star_{i,j}-x Q^\star\|_F^2\)，用激活统计精调，适合离群分数突出的 sublayer；Block 级注意力偏差最小化 \(\theta^\star_i=\arg\min_{\theta_i}\|A^\star_i-A_i(\theta_i)\|_F^2\) 保住自注意力能力，适合结构复杂、扰动集中稳定的层；最粗的 Model 级 KL 散度最小化 \(\theta^\star=\arg\min_\theta \mathbb{E}_{x_{\le t}}D_{KL}(p^\star\|p)\) 直接拉高生成正确 token 的概率、保全局语义一致性。关键洞察是"提升来自优化目标本身而非具体补偿手段"，所以三种都比传统量化好，按分数和资源预算从细到粗调配即可；且补偿用的样本就取自前面识别出的少数离群样本。

实验关键数据¶

评测遵循 LLMCBench 协议，在 LLaMA3、Qwen3、Gemma2 系列（8B~70B）上对比 AQLM(A)、VPTQ(V)、GPTVQ(G)，指标含 WikiText2/PTB 困惑度与 MMLU/QNLI/MNLI/AdvGLUE/TruthfulQA 等任务准确率。

主实验（WikiText2 PPL ↓，节选）¶

#Bits	方法	Llama3-8B	Qwen3-8B	Gemma2-9B	Llama3-70B
16	FP16	5.57	8.58	10.69	2.53
4	AQLM	6.04	8.91	10.91	2.85
4	GPTVQ	5.81	8.86	10.70	2.63
4	NuBitQ	5.79	8.81	10.68	2.59
3	NuBitQ+OCP	5.66	8.87	10.80	2.98
2	AQLM	7.28	10.15	12.27	5.52
2	VPTQ	9.19	1.65e6	3.27e6	6.19
2	NuBitQ+OCP	6.42	9.35	11.45	4.99

4-bit 时 NuBitQ 不用 OCP 就已取得各方法最低 PPL，且模型越大越逼近 FP16；2-bit 时 NuBitQ+OCP 大幅领先，VPTQ 在 Qwen3/Gemma2 上因缺 Hessian 数据直接崩到百万级 PPL。

任务准确率与即插即用（LLaMA3-8B）¶

方法	#Bits	MMLU Avg ↑	QNLI ↑
FP16	16	62.18	40.95
NuBitQ	4	60.88	42.05
NuBitQ+OCP	3	62.07	40.79
NuBitQ+OCP	2	56.77	49.60
VPTQ vs VPTQ+OCP	2	43.69 → 45.53	34.54 → 36.78

3-bit NuBitQ+OCP 的 MMLU 几乎追平 FP16（62.07 vs 62.18），部分指标甚至超过 FP16；OCP 挂到 VPTQ/AQLM/GPTVQ 上普遍能进一步降 PPL/提准确率，尤其对未开自身优化的 VPTQ 提升巨大。

消融实验（LLaMA3-8B）¶

补偿策略	Time(s)	Mem	ΔPPL ↑
Random	7.43	1.00%	1.00×
Linear	51.65	1.00%	5.27×
Transformer	15.53	0.29%	2.26×
Model	8.33	0.14%	2.12×

关键发现¶

离群是"块级"而非"通道级"现象，且依赖输入样本——这是非均匀量化与均匀量化的本质差异。
Linear 级补偿效果最强（5.27× ΔPPL）但最贵；Transformer/Model 级以极低显存换可观收益，三者构成"性价比阶梯"。
超参 \(r\) 对 PPL 影响最显著且有最优区间，\(d\) 越小越好——为逐层差异化配置提供了依据。
OCP 的增益在小模型（7B/13B）和低比特（2-bit）下最明显。

亮点与洞察¶

范式纠偏：标题即论点——"没有离群通道，但有离群块"。把社区默认的"离群=通道"假设在非均匀量化语境下证伪，是清晰且可验证的洞察。
免 Hessian/免微调：离群分数用 Jacobian + Frobenius 范数近似替代 Hessian trace，OCP 也只优化补偿项，扩展性显著优于 GPTVQ/BCQ 这类二阶方法。
解耦设计：NuBitQ（量化主干）与 OCP（补偿插件）正交，OCP 能给竞品方法做免费增益，实用价值高。
任意比特：用 \(r,c,d,g\) 的网格搜索把压缩率—精度权衡变成连续可调，而非固定码本。

局限与展望¶

离群分数公式做了多步近似（Jacobian 简化、Frobenius 范数代替、对数整合量纲），其与真实输出影响的吻合度主要靠经验验证，理论紧致性有待加强。
Linear 级补偿虽最有效但耗时最高（51.65s），大规模部署时三种粒度的自动调度策略（阈值选择）仍较启发式。
实验集中在 7B~70B 的 LLaMA/Qwen/Gemma 文本模型，对 MoE、多模态及实际推理加速比（kernel 层面）未充分展开。
NuBitQ 的 \(r,c,d,g\) 网格搜索本身有调参成本，逐层最优配置的自动化程度有限。

评分¶

新颖性: ⭐⭐⭐⭐ — "离群块 vs 离群通道"的视角转换清晰且有实证支撑，离群分数与多粒度补偿设计成体系，但各组件（向量量化、残差码本、Jacobian 近似）多为已有思路的重组。
实验充分度: ⭐⭐⭐⭐ — 覆盖 3 系列 6 个模型、4/3/2-bit、多任务，且验证 OCP 对竞品的即插即用增益；缺实际推理加速/吞吐的硬件实测。
写作质量: ⭐⭐⭐⭐ — 标题点题、Figure 3 的"块→sublinear→样本"递进观察叙事清晰，公式与动机衔接好；部分近似步骤略快。
价值: ⭐⭐⭐⭐ — 免 Hessian/免微调 + 即插即用补偿在低比特 LLM 压缩中很实用，2-bit 下的领先和 OCP 的通用性是明确卖点。