ParoQuant: Pairwise Rotation Quantization for Efficient Reasoning LLM Inference¶

会议: ICLR 2026
arXiv: 2511.10645
代码: 项目页
领域: 模型压缩
关键词: 后训练量化, Givens旋转, 推理LLM, 量化效率, 算法-系统协同设计

一句话总结¶

提出 ParoQuant，通过硬件高效且可优化的独立 Givens 旋转与通道缩放相结合来消除权重异常值，在推理 LLM 上实现高精度低开销的 4-bit 权重量化。

研究背景与动机¶

LLM 量化面临精度和效率的两难： - AWQ：快速但精度损失大（如 Qwen3-4B 在 MMLU-Pro 上降 2.8%），推理 LLM 的长链思维使量化误差逐步累积 - QTIP：精度高但比 AWQ 慢约 30%，因为 Hadamard 变换引入了显著开销 - 推理模型需要生成数万 token，对量化的精度和效率要求更高

核心观察：

旋转有效抑制异常值，但全旋转矩阵计算代价大

稀疏参数化的旋转同样有效——仅保留 top-10% 通道对即可匹配全旋转效果

方法详解¶

整体框架¶

ParoQuant 要解决的是 4-bit 权重量化里的异常值（outlier）难题：权重里少数幅度极大的通道会撑大整组的动态范围，逼着量化步长变粗、误差变大，而推理 LLM 动辄生成上万 token，这种误差会沿着长链思维不断累积。它的核心是一个叫缩放成对旋转（Scaled Pairwise Rotation）的可学习变换：先用一串轻量的成对（Givens）旋转把异常值"摊平"到相邻通道，再用一组通道缩放因子拉齐各通道的平均幅度，让每个量化组内的动态范围都收窄，最后才做 4-bit 量化。整个变换由稀疏的 Givens 旋转和一个对角缩放阵组成，既能逐层优化以最小化量化重建误差，又能融进一个高并行的 GPU 内核里在线执行，从而在精度上逼近向量量化、在速度上接近 AWQ。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    W["原始权重 W<br/>(含异常值通道)"] --> ROT["稀疏 Givens 旋转<br/>只选 top-10% 通道对"]
    ROT --> IND["独立旋转约束<br/>同轮通道不重叠 → GPU 并行<br/>+ 对齐分组量化边界"]
    IND --> SER["K 轮独立旋转串联<br/>+ 通道缩放 diag(α)<br/>转向调幅, 表达力补回"]
    SER --> WF["量化友好的权重<br/>各通道幅度齐, 动态范围窄"]
    WF --> Q["4-bit 线性量化"]
    Q --> OUT["部署: 三级并行融合内核<br/>沿 token / 通道组 / 旋转对"]
    OPT["两阶段优化<br/>① 调 Θ,α ② 微调权重与 s,z"] -.->|逐层最小化重建误差| SER

关键设计¶

1. 稀疏 Givens 旋转：用少量通道对替代全旋转矩阵

抑制异常值最直接的办法是给权重乘一个正交旋转矩阵，但任意 \(n\times n\) 正交阵都可分解成最多 \(\tfrac{1}{2}n(n-1)\) 个 Givens 旋转（即沿两条坐标轴张成的平面内旋转），相当于把所有通道对依次转一遍，计算量是 \(O(n^2)\)，正是 QTIP/QuaRot 慢的根源。ParoQuant 改用一组稀疏的平面旋转：只挑选一小撮通道对 \(\mathcal{P} = \{(i_1,j_1), \ldots, (i_m,j_m)\}\)，对每一对 \((i,j)\) 在二维平面上旋转角度 \(\theta_k\)，即 \(\mathbf{W}^{(k)}[i,:] = \cos\theta_k \cdot \mathbf{W}^{(k-1)}[i,:] - \sin\theta_k \cdot \mathbf{W}^{(k-1)}[j,:]\)，原地几条向量化的乘加就能算完，不再有全矩阵乘法。论文的直觉是异常通道和正常通道之间的旋转最能消异常值，并用实验验证：只优化幅度差最大的 top-10% 通道对，消异常值的效果就几乎匹配全旋转矩阵，说明正交变换在这件事上本就高度冗余。

2. 独立旋转：让所有旋转对天然并行、且兼容分组量化

一堆 Givens 旋转若有通道被多个对共享就会产生依赖——此时旋转不可交换、施加顺序有讲究，只能串行执行，GPU 利用率上不去。ParoQuant 加了一条约束（独立对）：同一轮里每个通道至多出现在一个旋转对中（任意两对 \(P_k \cap P_l = \emptyset\)），互不重叠。这样一轮内的所有旋转彼此独立、可一次性并行算完；同时这个划分天然对齐分组量化的边界——每个量化组内部各跑一套独立旋转，旋转不会跨组打乱幅度分布，既不破坏分组带来的精度收益，又允许逐组定制通道对、进一步提高并行度。约束换来的是工程上干净的并行，代价（单轮只剩 \(n/2\) 个角度参数、表达力下降）由下一个设计补回。

3. 多轮独立旋转串联通道缩放：把表达力补回来

一轮独立旋转只有 \(n/2\) 个可调角度，仅为全正交阵参数量的 \(\tfrac{1}{n-1}\)，拟合能力被严重压缩，单独用并不足以摆平复杂的异常值分布。ParoQuant 顺序叠加 \(K\) 轮独立旋转（默认 \(K=8\)），每轮各自挑通道对（随机选、且跳过此前已用过的对以增加组合多样性）、各自优化角度，多轮复合后等效于一个表达力足够强的稀疏正交变换；旋转之外再乘一个对角缩放阵 \(\text{diag}(\boldsymbol{\alpha})\) 直接均衡各通道的平均幅度，补上旋转处理不了的纯尺度差异。最终变换写作

\[T_{\mathcal{P},\Theta,\boldsymbol{\alpha}}(\mathbf{W}) = \left(\prod_{t=1}^K R(\mathcal{P}_t, \Theta_t)\right) \cdot \text{diag}(\boldsymbol{\alpha}) \cdot \mathbf{W}\]

旋转负责"转向"、缩放负责"调幅"，两者配合把权重变得对 4-bit 量化更友好。多轮旋转还能融进单次内核、一次性载入内存，叠这么多轮在推理时几乎不加开销。

损失函数 / 训练策略¶

优化目标是逐层的量化重建误差 \(\mathcal{L}(Q) = \|Q(D)(\mathbf{X'}) - D(\mathbf{X})\|\)，即让量化后该层的输出尽量贴近原始输出。训练分两阶段：先固定权重、只优化旋转角度 \(\Theta\) 和缩放因子 \(\boldsymbol{\alpha}\) 把变换调到位，再用类似 QAT 的方式微调权重以及量化参数（步长 \(s\)、零点 \(z\)）。每层用 AdamW 跑 10 个 epoch，校准数据从 WikiText2、C4、RedPajama 三个数据集均匀采样以避免过拟合单一分布。推理侧则把这套变换写成一个三级并行的 GPU 内核——沿 token、通道组、旋转对三个维度并行，多个独立旋转融合成单次 kernel 调用，这正是端到端加速能接近 AWQ 的原因。

实验关键数据¶

主实验（困惑度 - W4G128 量化）¶

模型	方法	WikiText2 PPL	C4 PPL	推理加速
LLaMA-3-8B	FP16	5.54	7.10	1.0×
	AWQ	5.92	7.42	2.4×
	QTIP	5.69	7.22	1.7×
	ParoQuant	5.68	7.17	2.2×
Qwen3-4B	AWQ	7.36	7.89	2.4×
	QTIP	7.09	7.68	1.7×
	ParoQuant	7.03	7.63	2.2×

推理任务精度（DeepSeek-R1-distilled LLaMA-3.1-8B）¶

方法	MMLU-Pro	GPQA Diamond	AIME-24	AIME-25	平均
FP16	52.4	43.9	56.7	40.0	48.3
AWQ	49.3	40.4	46.7	26.7	40.8
ParoQuant	52.5	41.4	53.3	36.7	46.0

关键发现¶

ParoQuant 在推理任务上平均比 AWQ 提升 2.4%，开销不到 10%
精度匹配 QTIP（向量量化 SOTA），但速度快约 25%
在 Qwen3 系列（1.7B-14B）上效果尤其显著，小模型量化更具挑战

亮点与洞察¶

算法-系统协同设计：独立旋转的约束既保证了数学优化空间，又天然适合 GPU 并行
分析精辟：仅 10% 的通道对就能匹配全旋转效果，揭示了正交变换的冗余性
对推理 LLM 特别关注，结合长链思维的量化误差累积问题分析透彻
在线旋转内核利用共享内存和寄存器，多个独立旋转可融合为单次 kernel 调用

局限与展望¶

目前主要验证 4-bit 线性量化，未探索 2-3 bit 场景
独立旋转的通道对选择策略（随机+去重）可能非最优
旋转数 K=8 是经验值，不同模型可能需要不同 K
未开源时可能限制社区采用

评分¶

新颖性: ⭐⭐⭐⭐ 独立 Givens 旋转的设计新颖实用
实验充分度: ⭐⭐⭐⭐⭐ 多模型多任务多指标全面验证
写作质量: ⭐⭐⭐⭐ 动机分析清楚，但公式较多
价值: ⭐⭐⭐⭐⭐ 推理 LLM 量化的实用解决方案