TurboBoA: Faster and Exact Attention-aware Quantization without Backpropagation¶

会议: ICLR 2026
arXiv: 2602.04929
代码: GitHub
领域: 模型压缩 / 量化 / LLM
关键词: post-training quantization, attention-aware, backpropagation-free, low-bit quantization, LLM compression

一句话总结¶

TurboBoA 提出了一种无需反向传播的 LLM 后训练量化方法，通过多 out-channel 联合量化、前层误差补偿和自适应网格选择三大创新，在保留 BoA 精度优势的同时实现了 3 倍以上加速。

研究背景与动机¶

LLM 规模的快速增长使得后训练量化（PTQ）成为降低内存和计算成本的关键技术。基于 Hessian 引导误差补偿的无反向传播方法（如 GPTQ）因其高效性广受关注。

然而存在两类方法之间的权衡： - GPTQ：假设层间独立，在低比特（如 INT2）下精度严重下降 - BoA：利用注意力模块内的跨层依赖改进 Hessian 近似，大幅提升精度，但需要逐 out-channel 顺序量化，效率远低于 GPTQ

核心问题：能否在保持 BoA 精度的同时大幅提升效率？

方法详解¶

整体框架¶

TurboBoA 沿用 BoA 基于注意力重建误差、Kronecker 结构 Hessian \(\mathbf{H}=\mathbf{H}_{in}\otimes\mathbf{H}_{out}\) 的无反向传播量化框架，但把 BoA 逐 out-channel 的串行流程改造成可并行、可纠错的版本。整条流水线按 out-channel 分块迭代：每次取一块 \(N\) 个 out-channel，先用自适应网格按当前权重重算量化网格，再对这 \(N\) 个通道一次性联合量化并用闭合解纠错（其中已显式纳入前层量化带来的输入偏差）；所有块量化完成后，再冻结整数权重做一轮坐标下降精炼。靠这套"联合量化打破顺序瓶颈 + 前层误差补偿 + 网格/scale 重对齐"的组合，TurboBoA 在 BoA 的精度水准上拿到 3 倍以上的加速。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["注意力权重 W、输入 X<br/>Kronecker Hessian H=H_in⊗H_out"] --> B["计算前层输入偏差 ΔX<br/>及相关矩阵 R=ΔX·X的转置"]
    B --> C{"还有未量化的<br/>out-channel 块?"}
    C -->|"取 N 个通道"| D["自适应网格<br/>按当前权重即时重算量化网格"]
    D --> E["多 out-channel 联合量化<br/>闭合解一次纠错"]
    E --> F["前层误差补偿<br/>并入 R 相关项阻断层间累积"]
    F --> C
    C -->|"全部块量化完"| G["坐标下降精炼<br/>冻结整数权重只优化 scale s"]
    G --> H["输出 INT 低比特注意力权重"]

关键设计¶

1. 多 out-channel 联合量化：打破逐通道串行的效率瓶颈

BoA 之所以慢，是因为它一次只量化一个 out-channel，再用剩余 out-channel 做误差补偿，128 个通道就意味着 128 次顺序操作。TurboBoA 把这个粒度放大到一次同时量化 \(N\) 个 out-channel，把误差补偿写成一个带约束的最小化问题 \(\min_{\Delta\mathbf{W}}\|\mathbf{G}\Delta\mathbf{W}\mathbf{X}\|_F^2\)，约束为已量化的 \(N\) 个通道满足 \(\mathbf{e}_i^T\Delta\mathbf{W}=\mathbf{Q}_{i,:}-\mathbf{W}_{i,:}\;(0\le i<N)\)。论文的 Proposition 3.1 给出它的闭合形式解 \([\Delta\mathbf{W}]_{N:,:}=-[\mathbf{U}_{out}^T]_{N:,B}[\mathbf{U}_{out}^T]_{B,B}^{-1}(\mathbf{W}_{B,:}-\mathbf{Q}_{B,:})\)，其中 \(B=\{0,\dots,N-1\}\)、\(\mathbf{U}_{out}=\text{Chol}(\mathbf{H}_{out}^{-1})^T\)。因为有解析解，联合量化不引入额外迭代；当 \(N=16\) 时顺序操作从 128 次降到 8 次，相比 BoA 加速 3 倍以上，而剩余 out-channel 仍足够承担补偿任务，精度几乎无损。

2. 前层量化误差补偿：阻断误差在层间累积

BoA 假设每一层拿到的输入是干净的，但实际推理时前面的层已被量化，输入本身带着偏差 \(\Delta\mathbf{X}=\mathbf{X}-\tilde{\mathbf{X}}\)，这部分误差会一路传到后面放大。TurboBoA 把这项偏差直接写进重建目标：\(\mathbf{G}\mathbf{Q}\mathbf{X}-\mathbf{G}\mathbf{W}\tilde{\mathbf{X}}=\mathbf{G}\Delta\mathbf{W}\mathbf{X}+\mathbf{G}\mathbf{W}\Delta\mathbf{X}\)，右端第二项即前层误差的贡献。相应地 Proposition 3.2 把补偿解推广为 \([\Delta\mathbf{W}]_{N:,:}=-[\mathbf{U}_{out}^T]_{N:,B}[\mathbf{U}_{out}^T]_{B,B}^{-1}\big((\mathbf{W}_{B,:}-\mathbf{Q}_{B,:})-\mathbf{W}_{B,:}\mathbf{R}\mathbf{H}_{in}^{-1}\big)\)，其中 \(\mathbf{R}=\Delta\mathbf{X}\mathbf{X}^T\) 编码了输入偏差与原输入的相关性。与同样考虑前层误差的 GPTAQ 只做向量级优化不同，这里直接处理一般的稠密 \(\mathbf{H}_{out}\)，因此能和注意力模块的跨层依赖兼容。

3. 自适应网格 + 坐标下降精炼：让量化网格始终对齐更新后的权重

联合量化和误差补偿都会改动权重，如果量化网格仍按旧权重确定，就会出现错位。TurboBoA 在每次量化前即时重新计算网格（自适应网格），保证网格范围与当前权重匹配；量化完成后再冻结整数权重 \(\mathbf{W}_{int}\)、只优化 scale 向量 \(\mathbf{s}\) 做坐标下降精炼，目标是 \(\min_{\mathbf{s}}\|\mathbf{G}(\text{diag}(\mathbf{s})\mathbf{W}_{int}-\mathbf{W})\mathbf{X}+\mathbf{G}\mathbf{W}\Delta\mathbf{X}\|_F^2\)，同样含前层误差项。Proposition 3.3 给出逐分量的闭合更新 \(s_j^*=s_j+\frac{[\mathbf{W}_{int}(\mathbf{H}_{in}(\mathbf{W}-\mathbf{Q})^T-\mathbf{R}^T\mathbf{W}^T)\mathbf{H}_{out}]_{j,j}}{[\mathbf{W}_{int}\mathbf{H}_{in}\mathbf{W}_{int}^T]_{j,j}[\mathbf{H}_{out}]_{j,j}}\)，每一步都只用 Hessian 的对角元素，开销极小却能把联合量化带来的网格漂移收回来，保住低比特下的精度。

实验¶

主实验：INT2 量化加速¶

方法	N	Llama3-8B 时间	Wiki2 PPL
BoA	1	94.75 min	15.20
TurboBoA	4	39.46 min	15.27
TurboBoA	8	30.55 min	15.30
TurboBoA	16	25.30 min	15.41
TurboBoA	32	22.95 min	15.22

70B 模型：BoA 需 17 小时，TurboBoA (N=16) 仅需 5.6 小时，节省约 11 小时。

消融实验：三大特征¶

方法	F2	F3	Llama3-8B Wiki2↓	C4↓
BoA	-	-	15.20	36.95
TurboBoA (F1 only)	✗	✗	15.41	—
TurboBoA (F1+F2)	✓	✗	改善	—
TurboBoA (全部)	✓	✓	最佳	最佳

SOTA 结果¶

结合 QuaRot 等异常值抑制技术后： - Weight-only 量化：在 INT2 下全面超越 GPTQ、BoA 等方法 - Weight-activation 量化：同样达到 SOTA

关键发现¶

\(N\) 增大到 64 精度退化仍可忽略，说明剩余 out-channel 提供了充足的误差补偿能力
加速效果在 \(N > 16\) 后收益递减，\(N=16\) 是最优平衡点
前层误差补偿和网格精炼各自贡献独立且互补

亮点¶

三个 Proposition 均提供了闭合形式解，理论优雅
3 倍以上加速的同时精度持平甚至提升
方法不依赖特定的 Hessian 形式，可直接适配更先进的 Hessian
70B 模型节省超 11 小时量化时间，实用价值显著

局限性¶

仅在 Llama 系列模型上验证，未测试其他架构（如 Mixtral、Qwen）
\(N\) 的选择虽然鲁棒，但缺乏理论上的误差界分析
稳定化系数 \(\alpha\) 需要手动调参（从 {0.05, 0.125, 0.25} 中选择）
仅聚焦于注意力层的量化，FFN 层使用标准 GPTQ

评分¶

新颖性：⭐⭐⭐⭐ — 联合量化的闭合形式解是核心创新
理论深度：⭐⭐⭐⭐⭐ — 三个 Proposition 完整严谨
实验充分性：⭐⭐⭐⭐ — 多规模模型，完善的消融
实用价值：⭐⭐⭐⭐⭐ — 直接解决 BoA 的效率瓶颈
写作质量：⭐⭐⭐⭐ — 符号体系清晰，数学推导详实