ParoQuant: Pairwise Rotation Quantization for Efficient Reasoning LLM Inference¶
会议: ICLR 2026
arXiv: 2511.10645
代码: 项目页
领域: 模型压缩
关键词: 后训练量化, Givens旋转, 推理LLM, 量化效率, 算法-系统协同设计
一句话总结¶
提出 ParoQuant,通过硬件高效且可优化的独立 Givens 旋转与通道缩放相结合来消除权重异常值,在推理 LLM 上实现高精度低开销的 4-bit 权重量化。
研究背景与动机¶
LLM 量化面临精度和效率的两难: - AWQ:快速但精度损失大(如 Qwen3-4B 在 MMLU-Pro 上降 2.8%),推理 LLM 的长链思维使量化误差逐步累积 - QTIP:精度高但比 AWQ 慢约 30%,因为 Hadamard 变换引入了显著开销 - 推理模型需要生成数万 token,对量化的精度和效率要求更高
核心观察:
旋转有效抑制异常值,但全旋转矩阵计算代价大
稀疏参数化的旋转同样有效——仅保留 top-10% 通道对即可匹配全旋转效果
方法详解¶
整体框架¶
ParoQuant 要解决的是 4-bit 权重量化里的异常值(outlier)难题:权重里少数幅度极大的通道会撑大整组的动态范围,逼着量化步长变粗、误差变大,而推理 LLM 动辄生成上万 token,这种误差会沿着长链思维不断累积。它的核心是一个叫缩放成对旋转(Scaled Pairwise Rotation)的可学习变换:先用一串轻量的成对(Givens)旋转把异常值"摊平"到相邻通道,再用一组通道缩放因子拉齐各通道的平均幅度,让每个量化组内的动态范围都收窄,最后才做 4-bit 量化。整个变换由稀疏的 Givens 旋转和一个对角缩放阵组成,既能逐层优化以最小化量化重建误差,又能融进一个高并行的 GPU 内核里在线执行,从而在精度上逼近向量量化、在速度上接近 AWQ。
%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
W["原始权重 W<br/>(含异常值通道)"] --> ROT["稀疏 Givens 旋转<br/>只选 top-10% 通道对"]
ROT --> IND["独立旋转约束<br/>同轮通道不重叠 → GPU 并行<br/>+ 对齐分组量化边界"]
IND --> SER["K 轮独立旋转串联<br/>+ 通道缩放 diag(α)<br/>转向调幅, 表达力补回"]
SER --> WF["量化友好的权重<br/>各通道幅度齐, 动态范围窄"]
WF --> Q["4-bit 线性量化"]
Q --> OUT["部署: 三级并行融合内核<br/>沿 token / 通道组 / 旋转对"]
OPT["两阶段优化<br/>① 调 Θ,α ② 微调权重与 s,z"] -.->|逐层最小化重建误差| SER
关键设计¶
1. 稀疏 Givens 旋转:用少量通道对替代全旋转矩阵
抑制异常值最直接的办法是给权重乘一个正交旋转矩阵,但任意 \(n\times n\) 正交阵都可分解成最多 \(\tfrac{1}{2}n(n-1)\) 个 Givens 旋转(即沿两条坐标轴张成的平面内旋转),相当于把所有通道对依次转一遍,计算量是 \(O(n^2)\),正是 QTIP/QuaRot 慢的根源。ParoQuant 改用一组稀疏的平面旋转:只挑选一小撮通道对 \(\mathcal{P} = \{(i_1,j_1), \ldots, (i_m,j_m)\}\),对每一对 \((i,j)\) 在二维平面上旋转角度 \(\theta_k\),即 \(\mathbf{W}^{(k)}[i,:] = \cos\theta_k \cdot \mathbf{W}^{(k-1)}[i,:] - \sin\theta_k \cdot \mathbf{W}^{(k-1)}[j,:]\),原地几条向量化的乘加就能算完,不再有全矩阵乘法。论文的直觉是异常通道和正常通道之间的旋转最能消异常值,并用实验验证:只优化幅度差最大的 top-10% 通道对,消异常值的效果就几乎匹配全旋转矩阵,说明正交变换在这件事上本就高度冗余。
2. 独立旋转:让所有旋转对天然并行、且兼容分组量化
一堆 Givens 旋转若有通道被多个对共享就会产生依赖——此时旋转不可交换、施加顺序有讲究,只能串行执行,GPU 利用率上不去。ParoQuant 加了一条约束(独立对):同一轮里每个通道至多出现在一个旋转对中(任意两对 \(P_k \cap P_l = \emptyset\)),互不重叠。这样一轮内的所有旋转彼此独立、可一次性并行算完;同时这个划分天然对齐分组量化的边界——每个量化组内部各跑一套独立旋转,旋转不会跨组打乱幅度分布,既不破坏分组带来的精度收益,又允许逐组定制通道对、进一步提高并行度。约束换来的是工程上干净的并行,代价(单轮只剩 \(n/2\) 个角度参数、表达力下降)由下一个设计补回。
3. 多轮独立旋转串联通道缩放:把表达力补回来
一轮独立旋转只有 \(n/2\) 个可调角度,仅为全正交阵参数量的 \(\tfrac{1}{n-1}\),拟合能力被严重压缩,单独用并不足以摆平复杂的异常值分布。ParoQuant 顺序叠加 \(K\) 轮独立旋转(默认 \(K=8\)),每轮各自挑通道对(随机选、且跳过此前已用过的对以增加组合多样性)、各自优化角度,多轮复合后等效于一个表达力足够强的稀疏正交变换;旋转之外再乘一个对角缩放阵 \(\text{diag}(\boldsymbol{\alpha})\) 直接均衡各通道的平均幅度,补上旋转处理不了的纯尺度差异。最终变换写作
旋转负责"转向"、缩放负责"调幅",两者配合把权重变得对 4-bit 量化更友好。多轮旋转还能融进单次内核、一次性载入内存,叠这么多轮在推理时几乎不加开销。
损失函数 / 训练策略¶
优化目标是逐层的量化重建误差 \(\mathcal{L}(Q) = \|Q(D)(\mathbf{X'}) - D(\mathbf{X})\|\),即让量化后该层的输出尽量贴近原始输出。训练分两阶段:先固定权重、只优化旋转角度 \(\Theta\) 和缩放因子 \(\boldsymbol{\alpha}\) 把变换调到位,再用类似 QAT 的方式微调权重以及量化参数(步长 \(s\)、零点 \(z\))。每层用 AdamW 跑 10 个 epoch,校准数据从 WikiText2、C4、RedPajama 三个数据集均匀采样以避免过拟合单一分布。推理侧则把这套变换写成一个三级并行的 GPU 内核——沿 token、通道组、旋转对三个维度并行,多个独立旋转融合成单次 kernel 调用,这正是端到端加速能接近 AWQ 的原因。
实验关键数据¶
主实验(困惑度 - W4G128 量化)¶
| 模型 | 方法 | WikiText2 PPL | C4 PPL | 推理加速 |
|---|---|---|---|---|
| LLaMA-3-8B | FP16 | 5.54 | 7.10 | 1.0× |
| AWQ | 5.92 | 7.42 | 2.4× | |
| QTIP | 5.69 | 7.22 | 1.7× | |
| ParoQuant | 5.68 | 7.17 | 2.2× | |
| Qwen3-4B | AWQ | 7.36 | 7.89 | 2.4× |
| QTIP | 7.09 | 7.68 | 1.7× | |
| ParoQuant | 7.03 | 7.63 | 2.2× |
推理任务精度(DeepSeek-R1-distilled LLaMA-3.1-8B)¶
| 方法 | MMLU-Pro | GPQA Diamond | AIME-24 | AIME-25 | 平均 |
|---|---|---|---|---|---|
| FP16 | 52.4 | 43.9 | 56.7 | 40.0 | 48.3 |
| AWQ | 49.3 | 40.4 | 46.7 | 26.7 | 40.8 |
| ParoQuant | 52.5 | 41.4 | 53.3 | 36.7 | 46.0 |
关键发现¶
- ParoQuant 在推理任务上平均比 AWQ 提升 2.4%,开销不到 10%
- 精度匹配 QTIP(向量量化 SOTA),但速度快约 25%
- 在 Qwen3 系列(1.7B-14B)上效果尤其显著,小模型量化更具挑战
亮点与洞察¶
- 算法-系统协同设计:独立旋转的约束既保证了数学优化空间,又天然适合 GPU 并行
- 分析精辟:仅 10% 的通道对就能匹配全旋转效果,揭示了正交变换的冗余性
- 对推理 LLM 特别关注,结合长链思维的量化误差累积问题分析透彻
- 在线旋转内核利用共享内存和寄存器,多个独立旋转可融合为单次 kernel 调用
局限与展望¶
- 目前主要验证 4-bit 线性量化,未探索 2-3 bit 场景
- 独立旋转的通道对选择策略(随机+去重)可能非最优
- 旋转数 K=8 是经验值,不同模型可能需要不同 K
- 未开源时可能限制社区采用
相关工作与启发¶
- 与 QuaRot/SpinQuant 的区别:ParoQuant 使用可优化的独立 Givens 旋转而非固定 Hadamard 变换
- 与 AWQ 的区别:在通道缩放基础上增加旋转变换,大幅提升异常值抑制能力
- 启示:推理 LLM 时代,量化方法需要重新权衡精度和效率
评分¶
- 新颖性: ⭐⭐⭐⭐ 独立 Givens 旋转的设计新颖实用
- 实验充分度: ⭐⭐⭐⭐⭐ 多模型多任务多指标全面验证
- 写作质量: ⭐⭐⭐⭐ 动机分析清楚,但公式较多
- 价值: ⭐⭐⭐⭐⭐ 推理 LLM 量化的实用解决方案