Q-Palette: Fractional-Bit Quantizers Toward Optimal Bit Allocation for Efficient LLM Deployment¶

会议: NeurIPS 2025

arXiv: 2509.20214

代码: GitHub

领域: 模型压缩

关键词: 模型量化, LLM推理, 分数位量化, 失真率, CUDA优化

一句话总结¶

从信息论角度推导高斯化权重的最优比特分配,提出 Q-Palette 分数位量化器集合和混合方案量化框架,在 LLM 推理中实现近最优的量化性能和推理加速。

研究背景与动机¶

权重后训练量化（Weight-only PTQ）是降低 LLM 推理延迟和内存占用的关键技术,尤其适用于内存受限的边缘设备。然而,LLM 权重中的重尾离群值使量化变得复杂。

近期研究进展与挑战：

旋转方法: 通过 Hadamard 旋转将权重变换为近高斯分布,减少离群值影响

整数位限制: 现有量化器仅支持整数位宽(2/3/4-bit),无法实现细粒度的比特分配

最优性差距: 实际量化器与信息论下界（高斯失真率界）之间存在较大差距

混合精度局限: 现有混合精度方法仅在有限选项间选择,未考虑量化器类型的混合

方法详解¶

整体框架¶

Q-Palette 包含两大组件：(1) 一组覆盖不同比特宽和失真水平的分数位量化器；(2) 一个联合优化量化器选择和层融合决策的混合方案框架。

关键设计¶

1. 信息论最优比特分配

对高斯化（旋转后）的权重,推导 Rate-Distortion 函数
最优分配要求使用任意精度的量化器,而非仅整数位宽
推导出每层的最优比特数: \(b_l^* = \frac{1}{2}\log_2\frac{\sigma_l^2}{\lambda}\), 其中 \(\lambda\) 由总比特预算确定

2. 分数位量化器集合

Q-Palette 提供从近最优失真到快速推理的多种量化器: - Trellis-coded quantizers (TCQ): 通过有限状态机实现,失真接近高斯失真率界 - 向量量化器 (VQ): 利用多维编码获得分数位宽 (如 2.5-bit) - 标量量化器: 简单高效,适合对速度要求高的场景 - 所有量化器均有优化的 CUDA kernel 实现

3. 混合方案量化框架

联合优化两个层面: (a) 每层选择哪种量化器 (b) 是否融合相邻层
使用动态规划在给定资源约束下求解最优方案
目标: \(\min \sum_l D_l(q_l) \quad \text{s.t.} \quad \sum_l R_l(q_l) \leq B\)

损失函数 / 训练策略¶

无需重新训练: 纯后训练量化 (PTQ)
校准: 使用少量（或零）校准数据
分配优化: 通过拉格朗日乘子法迭代求解

实验关键数据¶

主实验¶

LLaMA-2-7B 在不同平均比特宽下的困惑度 (PPL, WikiText-2):

方法	2-bit	2.5-bit	3-bit	4-bit
GPTQ	发散	12.85	8.32	6.09
QuIP#	9.15	7.85	6.83	5.98
AQLM	8.78	7.52	6.71	5.95
Q-Palette (Ours)	8.21	7.18	6.52	5.92

LLaMA-2-13B (PPL, WikiText-2):

方法	2-bit	2.5-bit	3-bit	4-bit
GPTQ	发散	9.15	6.85	5.42
QuIP#	7.52	6.58	5.92	5.35
AQLM	7.28	6.35	5.85	5.32
Q-Palette (Ours)	6.85	6.12	5.73	5.30

消融实验¶

不同量化器类型的失真-速度权衡 (LLaMA-2-7B, 3-bit):

量化器	PPL	解码延迟 (ms/token)	与DRB差距
标量 (Uniform)	7.15	2.1	+1.23 dB
向量 (Group-VQ)	6.78	3.5	+0.52 dB
TCQ	6.55	5.2	+0.08 dB
高斯失真率界	-	-	0 dB

关键发现¶

分数位量化在低比特（< 3-bit）场景下优势最明显,缩小与理论最优的差距
TCQ 量化器的失真仅比高斯失真率界高 0.08 dB,接近信息论极限
混合方案比统一使用单一量化器进一步降低 0.3-0.5 PPL
优化的 CUDA kernel 使 TCQ 的推理开销控制在合理范围内

亮点与洞察¶

信息论视角: 从 Rate-Distortion 理论出发,提供了量化的理论最优目标
工程完备: 不仅有理论,还有完整的 CUDA kernel 实现
灵活组合: Q-Palette 允许不同层使用不同量化策略,最大化整体效率

局限与展望¶

TCQ 量化器的编解码复杂度较高,实际推理加速有限
当前仅支持权重量化,未扩展到 KV cache 量化
混合方案的搜索空间随模型规模增大而增大
在极低比特（< 2-bit）场景下性能仍有较大退化

评分¶

⭐ 创新性: 8/10 — 将信息论工具引入LLM量化是新颖视角
⭐ 实用性: 9/10 — 开源代码+CUDA kernel,可直接部署
⭐ 写作质量: 8/10 — 理论到工程的衔接流畅