跳转至

Q-Palette: Fractional-Bit Quantizers Toward Optimal Bit Allocation for Efficient LLM Deployment

会议: NeurIPS 2025

arXiv: 2509.20214

代码: GitHub

领域: 模型压缩

关键词: 模型量化, LLM推理, 分数位量化, 失真率, CUDA优化

一句话总结

从信息论角度推导高斯化权重的最优比特分配,提出 Q-Palette 分数位量化器集合和混合方案量化框架,在 LLM 推理中实现近最优的量化性能和推理加速。

研究背景与动机

权重后训练量化(Weight-only PTQ)是降低 LLM 推理延迟和内存占用的关键技术,尤其适用于内存受限的边缘设备。然而,LLM 权重中的重尾离群值使量化变得复杂。

近期研究进展与挑战:

旋转方法: 通过 Hadamard 旋转将权重变换为近高斯分布,减少离群值影响

整数位限制: 现有量化器仅支持整数位宽(2/3/4-bit),无法实现细粒度的比特分配

最优性差距: 实际量化器与信息论下界(高斯失真率界)之间存在较大差距

混合精度局限: 现有混合精度方法仅在有限选项间选择,未考虑量化器类型的混合

方法详解

整体框架

Q-Palette 包含两大组件:(1) 一组覆盖不同比特宽和失真水平的分数位量化器;(2) 一个联合优化量化器选择和层融合决策的混合方案框架。

关键设计

1. 信息论最优比特分配

  • 对高斯化(旋转后)的权重,推导 Rate-Distortion 函数
  • 最优分配要求使用任意精度的量化器,而非仅整数位宽
  • 推导出每层的最优比特数: \(b_l^* = \frac{1}{2}\log_2\frac{\sigma_l^2}{\lambda}\), 其中 \(\lambda\) 由总比特预算确定

2. 分数位量化器集合

Q-Palette 提供从近最优失真到快速推理的多种量化器: - Trellis-coded quantizers (TCQ): 通过有限状态机实现,失真接近高斯失真率界 - 向量量化器 (VQ): 利用多维编码获得分数位宽 (如 2.5-bit) - 标量量化器: 简单高效,适合对速度要求高的场景 - 所有量化器均有优化的 CUDA kernel 实现

3. 混合方案量化框架

  • 联合优化两个层面: (a) 每层选择哪种量化器 (b) 是否融合相邻层
  • 使用动态规划在给定资源约束下求解最优方案
  • 目标: \(\min \sum_l D_l(q_l) \quad \text{s.t.} \quad \sum_l R_l(q_l) \leq B\)

损失函数 / 训练策略

  • 无需重新训练: 纯后训练量化 (PTQ)
  • 校准: 使用少量(或零)校准数据
  • 分配优化: 通过拉格朗日乘子法迭代求解

实验关键数据

主实验

LLaMA-2-7B 在不同平均比特宽下的困惑度 (PPL, WikiText-2):

方法 2-bit 2.5-bit 3-bit 4-bit
GPTQ 发散 12.85 8.32 6.09
QuIP# 9.15 7.85 6.83 5.98
AQLM 8.78 7.52 6.71 5.95
Q-Palette (Ours) 8.21 7.18 6.52 5.92

LLaMA-2-13B (PPL, WikiText-2):

方法 2-bit 2.5-bit 3-bit 4-bit
GPTQ 发散 9.15 6.85 5.42
QuIP# 7.52 6.58 5.92 5.35
AQLM 7.28 6.35 5.85 5.32
Q-Palette (Ours) 6.85 6.12 5.73 5.30

消融实验

不同量化器类型的失真-速度权衡 (LLaMA-2-7B, 3-bit):

量化器 PPL 解码延迟 (ms/token) 与DRB差距
标量 (Uniform) 7.15 2.1 +1.23 dB
向量 (Group-VQ) 6.78 3.5 +0.52 dB
TCQ 6.55 5.2 +0.08 dB
高斯失真率界 - - 0 dB

关键发现

  1. 分数位量化在低比特(< 3-bit)场景下优势最明显,缩小与理论最优的差距
  2. TCQ 量化器的失真仅比高斯失真率界高 0.08 dB,接近信息论极限
  3. 混合方案比统一使用单一量化器进一步降低 0.3-0.5 PPL
  4. 优化的 CUDA kernel 使 TCQ 的推理开销控制在合理范围内

亮点与洞察

  • 信息论视角: 从 Rate-Distortion 理论出发,提供了量化的理论最优目标
  • 工程完备: 不仅有理论,还有完整的 CUDA kernel 实现
  • 灵活组合: Q-Palette 允许不同层使用不同量化策略,最大化整体效率

局限与展望

  1. TCQ 量化器的编解码复杂度较高,实际推理加速有限
  2. 当前仅支持权重量化,未扩展到 KV cache 量化
  3. 混合方案的搜索空间随模型规模增大而增大
  4. 在极低比特(< 2-bit)场景下性能仍有较大退化

相关工作与启发

  • QuIP# (Tseng et al.): 基于随机旋转的量化方法
  • AQLM (Egiazarian et al.): 自适应分组量化
  • Rate-Distortion 理论: Shannon 信息论提供的量化下界

评分

  • ⭐ 创新性: 8/10 — 将信息论工具引入LLM量化是新颖视角
  • ⭐ 实用性: 9/10 — 开源代码+CUDA kernel,可直接部署
  • ⭐ 写作质量: 8/10 — 理论到工程的衔接流畅