TurboBoA: Faster and Exact Attention-aware Quantization without Backpropagation¶
会议: ICLR 2026
arXiv: 2602.04929
代码: GitHub
领域: 模型压缩 / 量化 / LLM
关键词: post-training quantization, attention-aware, backpropagation-free, low-bit quantization, LLM compression
一句话总结¶
TurboBoA 提出了一种无需反向传播的 LLM 后训练量化方法,通过多 out-channel 联合量化、前层误差补偿和自适应网格选择三大创新,在保留 BoA 精度优势的同时实现了 3 倍以上加速。
研究背景与动机¶
LLM 规模的快速增长使得后训练量化(PTQ)成为降低内存和计算成本的关键技术。基于 Hessian 引导误差补偿的无反向传播方法(如 GPTQ)因其高效性广受关注。
然而存在两类方法之间的权衡: - GPTQ:假设层间独立,在低比特(如 INT2)下精度严重下降 - BoA:利用注意力模块内的跨层依赖改进 Hessian 近似,大幅提升精度,但需要逐 out-channel 顺序量化,效率远低于 GPTQ
核心问题:能否在保持 BoA 精度的同时大幅提升效率?
方法详解¶
整体框架¶
TurboBoA 沿用 BoA 基于注意力重建误差、Kronecker 结构 Hessian \(\mathbf{H}=\mathbf{H}_{in}\otimes\mathbf{H}_{out}\) 的无反向传播量化框架,但把 BoA 逐 out-channel 的串行流程改造成可并行、可纠错的版本。整条流水线按 out-channel 分块迭代:每次取一块 \(N\) 个 out-channel,先用自适应网格按当前权重重算量化网格,再对这 \(N\) 个通道一次性联合量化并用闭合解纠错(其中已显式纳入前层量化带来的输入偏差);所有块量化完成后,再冻结整数权重做一轮坐标下降精炼。靠这套"联合量化打破顺序瓶颈 + 前层误差补偿 + 网格/scale 重对齐"的组合,TurboBoA 在 BoA 的精度水准上拿到 3 倍以上的加速。
%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
A["注意力权重 W、输入 X<br/>Kronecker Hessian H=H_in⊗H_out"] --> B["计算前层输入偏差 ΔX<br/>及相关矩阵 R=ΔX·X的转置"]
B --> C{"还有未量化的<br/>out-channel 块?"}
C -->|"取 N 个通道"| D["自适应网格<br/>按当前权重即时重算量化网格"]
D --> E["多 out-channel 联合量化<br/>闭合解一次纠错"]
E --> F["前层误差补偿<br/>并入 R 相关项阻断层间累积"]
F --> C
C -->|"全部块量化完"| G["坐标下降精炼<br/>冻结整数权重只优化 scale s"]
G --> H["输出 INT 低比特注意力权重"]
关键设计¶
1. 多 out-channel 联合量化:打破逐通道串行的效率瓶颈
BoA 之所以慢,是因为它一次只量化一个 out-channel,再用剩余 out-channel 做误差补偿,128 个通道就意味着 128 次顺序操作。TurboBoA 把这个粒度放大到一次同时量化 \(N\) 个 out-channel,把误差补偿写成一个带约束的最小化问题 \(\min_{\Delta\mathbf{W}}\|\mathbf{G}\Delta\mathbf{W}\mathbf{X}\|_F^2\),约束为已量化的 \(N\) 个通道满足 \(\mathbf{e}_i^T\Delta\mathbf{W}=\mathbf{Q}_{i,:}-\mathbf{W}_{i,:}\;(0\le i<N)\)。论文的 Proposition 3.1 给出它的闭合形式解 \([\Delta\mathbf{W}]_{N:,:}=-[\mathbf{U}_{out}^T]_{N:,B}[\mathbf{U}_{out}^T]_{B,B}^{-1}(\mathbf{W}_{B,:}-\mathbf{Q}_{B,:})\),其中 \(B=\{0,\dots,N-1\}\)、\(\mathbf{U}_{out}=\text{Chol}(\mathbf{H}_{out}^{-1})^T\)。因为有解析解,联合量化不引入额外迭代;当 \(N=16\) 时顺序操作从 128 次降到 8 次,相比 BoA 加速 3 倍以上,而剩余 out-channel 仍足够承担补偿任务,精度几乎无损。
2. 前层量化误差补偿:阻断误差在层间累积
BoA 假设每一层拿到的输入是干净的,但实际推理时前面的层已被量化,输入本身带着偏差 \(\Delta\mathbf{X}=\mathbf{X}-\tilde{\mathbf{X}}\),这部分误差会一路传到后面放大。TurboBoA 把这项偏差直接写进重建目标:\(\mathbf{G}\mathbf{Q}\mathbf{X}-\mathbf{G}\mathbf{W}\tilde{\mathbf{X}}=\mathbf{G}\Delta\mathbf{W}\mathbf{X}+\mathbf{G}\mathbf{W}\Delta\mathbf{X}\),右端第二项即前层误差的贡献。相应地 Proposition 3.2 把补偿解推广为 \([\Delta\mathbf{W}]_{N:,:}=-[\mathbf{U}_{out}^T]_{N:,B}[\mathbf{U}_{out}^T]_{B,B}^{-1}\big((\mathbf{W}_{B,:}-\mathbf{Q}_{B,:})-\mathbf{W}_{B,:}\mathbf{R}\mathbf{H}_{in}^{-1}\big)\),其中 \(\mathbf{R}=\Delta\mathbf{X}\mathbf{X}^T\) 编码了输入偏差与原输入的相关性。与同样考虑前层误差的 GPTAQ 只做向量级优化不同,这里直接处理一般的稠密 \(\mathbf{H}_{out}\),因此能和注意力模块的跨层依赖兼容。
3. 自适应网格 + 坐标下降精炼:让量化网格始终对齐更新后的权重
联合量化和误差补偿都会改动权重,如果量化网格仍按旧权重确定,就会出现错位。TurboBoA 在每次量化前即时重新计算网格(自适应网格),保证网格范围与当前权重匹配;量化完成后再冻结整数权重 \(\mathbf{W}_{int}\)、只优化 scale 向量 \(\mathbf{s}\) 做坐标下降精炼,目标是 \(\min_{\mathbf{s}}\|\mathbf{G}(\text{diag}(\mathbf{s})\mathbf{W}_{int}-\mathbf{W})\mathbf{X}+\mathbf{G}\mathbf{W}\Delta\mathbf{X}\|_F^2\),同样含前层误差项。Proposition 3.3 给出逐分量的闭合更新 \(s_j^*=s_j+\frac{[\mathbf{W}_{int}(\mathbf{H}_{in}(\mathbf{W}-\mathbf{Q})^T-\mathbf{R}^T\mathbf{W}^T)\mathbf{H}_{out}]_{j,j}}{[\mathbf{W}_{int}\mathbf{H}_{in}\mathbf{W}_{int}^T]_{j,j}[\mathbf{H}_{out}]_{j,j}}\),每一步都只用 Hessian 的对角元素,开销极小却能把联合量化带来的网格漂移收回来,保住低比特下的精度。
实验¶
主实验:INT2 量化加速¶
| 方法 | N | Llama3-8B 时间 | Wiki2 PPL |
|---|---|---|---|
| BoA | 1 | 94.75 min | 15.20 |
| TurboBoA | 4 | 39.46 min | 15.27 |
| TurboBoA | 8 | 30.55 min | 15.30 |
| TurboBoA | 16 | 25.30 min | 15.41 |
| TurboBoA | 32 | 22.95 min | 15.22 |
70B 模型:BoA 需 17 小时,TurboBoA (N=16) 仅需 5.6 小时,节省约 11 小时。
消融实验:三大特征¶
| 方法 | F2 | F3 | Llama3-8B Wiki2↓ | C4↓ |
|---|---|---|---|---|
| BoA | - | - | 15.20 | 36.95 |
| TurboBoA (F1 only) | ✗ | ✗ | 15.41 | — |
| TurboBoA (F1+F2) | ✓ | ✗ | 改善 | — |
| TurboBoA (全部) | ✓ | ✓ | 最佳 | 最佳 |
SOTA 结果¶
结合 QuaRot 等异常值抑制技术后: - Weight-only 量化:在 INT2 下全面超越 GPTQ、BoA 等方法 - Weight-activation 量化:同样达到 SOTA
关键发现¶
- \(N\) 增大到 64 精度退化仍可忽略,说明剩余 out-channel 提供了充足的误差补偿能力
- 加速效果在 \(N > 16\) 后收益递减,\(N=16\) 是最优平衡点
- 前层误差补偿和网格精炼各自贡献独立且互补
亮点¶
- 三个 Proposition 均提供了闭合形式解,理论优雅
- 3 倍以上加速的同时精度持平甚至提升
- 方法不依赖特定的 Hessian 形式,可直接适配更先进的 Hessian
- 70B 模型节省超 11 小时量化时间,实用价值显著
局限性¶
- 仅在 Llama 系列模型上验证,未测试其他架构(如 Mixtral、Qwen)
- \(N\) 的选择虽然鲁棒,但缺乏理论上的误差界分析
- 稳定化系数 \(\alpha\) 需要手动调参(从 {0.05, 0.125, 0.25} 中选择)
- 仅聚焦于注意力层的量化,FFN 层使用标准 GPTQ
相关工作¶
- 无反向传播量化:GPTQ (Frantar et al., 2023)、BoA (Kim et al., 2025)、GPTAQ (Li et al., 2025)
- 变换方法:SmoothQuant (Xiao et al., 2023)、QuaRot (Ashkboos et al., 2024)
- 早期 PTQ:AdaRound (Nagel et al., 2020)、BRECQ (Li et al., 2021)
评分¶
- 新颖性:⭐⭐⭐⭐ — 联合量化的闭合形式解是核心创新
- 理论深度:⭐⭐⭐⭐⭐ — 三个 Proposition 完整严谨
- 实验充分性:⭐⭐⭐⭐ — 多规模模型,完善的消融
- 实用价值:⭐⭐⭐⭐⭐ — 直接解决 BoA 的效率瓶颈
- 写作质量:⭐⭐⭐⭐ — 符号体系清晰,数学推导详实