LampQ: Towards Accurate Layer-wise Mixed Precision Quantization for Vision Transformers¶

会议: AAAI 2026
arXiv: 2511.10004
代码: 无
领域: 目标检测 / 模型压缩
关键词: 混合精度量化, Vision Transformer, 层自适应, Fisher信息, 整数线性规划

一句话总结¶

本文提出 LampQ，一种基于度量（metric-based）的逐层混合精度量化方法，通过类型感知的 Fisher 信息度量衡量 ViT 各层对量化的敏感度，结合整数线性规划优化比特宽度分配并迭代更新，在图像分类、目标检测和零样本量化等多个任务上取得 SOTA 性能。

研究背景与动机¶

领域现状：Vision Transformer（ViT）在视觉任务上取得了卓越性能，但其巨大的参数量和计算需求限制了边缘部署。量化是主要的压缩手段之一，将浮点权重和激活映射到低比特整数表示。

现有痛点：现有量化方法多采用统一精度（如所有层都量化到 4-bit），忽略了 ViT 不同组件（注意力层、FFN 层、嵌入层等）对量化的敏感度差异巨大。混合精度量化（MPQ）是一种解决方案，但针对 ViT 的 MPQ 方法存在三个主要限制：（1）量化粒度过粗（如按模块而非按层分配比特）；（2）不同类型组件之间的敏感度度量尺度不可比（attention 和 FFN 的 Fisher 信息量级差异很大）；（3）比特分配不考虑量化后的实际误差。

核心矛盾：ViT 的不同组件对量化的敏感度差异巨大，但现有方法无法精确度量这种差异，导致比特分配次优。

本文目标：（1）实现逐层的精细粒度混合精度量化；（2）设计可跨组件类型比较的敏感度度量；（3）优化比特分配以最小化整体量化误差。

切入角度：使用类型感知的 Fisher 信息矩阵来归一化不同类型组件的敏感度，使其可以在统一尺度上比较。

核心 idea：类型感知 Fisher 度量 + 整数线性规划最优比特分配 + 迭代细化 = 精确的逐层混合精度量化。

方法详解¶

整体框架¶

LampQ 的 pipeline：（1）用类型感知 Fisher 度量计算每层的量化敏感度；（2）用整数线性规划在比特预算约束下求解最优比特分配；（3）迭代更新比特分配以进一步精细化。最终输出混合精度量化的 ViT 模型。

关键设计¶

类型感知 Fisher 度量（Type-Aware Fisher Metric）:
- 功能：跨组件类型的可比较量化敏感度衡量。
- 核心思路：对每层计算 Fisher 信息矩阵的迹 \(\text{tr}(F_l)\) 作为敏感度基础指标。但不同类型组件（attention Q/K/V、FFN up/down、嵌入层等）的 Fisher 量级差异大，直接比较会偏向某些类型。LampQ 引入类型感知归一化——对同类型的层进行组内归一化，使所有层的敏感度在统一尺度上可比。
- 设计动机：这是 ViT MPQ 区别于 CNN MPQ 的关键问题——CNN 的层类型相对均匀，而 ViT 包含多种截然不同的组件类型。
整数线性规划比特分配（ILP Bit Allocation）:
- 功能：在总比特预算约束下找到最优的逐层比特分配。
- 核心思路：将比特分配问题建模为整数线性规划：目标函数最小化加权量化误差（由 Fisher 度量给出），约束包括总比特预算和每层的比特范围（如 2-8 bit）。ILP 求解器可以在合理时间内找到精确最优解（因为变量数等于层数，规模不大）。
- 设计动机：启发式比特分配（如贪心、Top-k）可能陷入局部最优。ILP 提供了全局最优保证。
迭代比特分配更新:
- 功能：补偿初始 Fisher 度量与实际量化误差的偏差。
- 核心思路：初始 Fisher 度量是在全精度模型上计算的，但量化后模型的统计特性会变化。LampQ 在首次比特分配后，用量化模型重新估计 Fisher 度量，再次执行 ILP 求解，迭代更新比特分配。通常 2-3 轮迭代即可收敛。
- 设计动机：一次性分配可能因 Fisher 估计不准而次优；迭代更新使度量更准确地反映量化后的实际情况。

损失函数 / 训练策略¶

LampQ 是后训练量化（PTQ）方法，不需要重新训练。量化过程中使用少量校准数据计算 Fisher 信息和量化参数。

实验关键数据¶

主实验¶

任务	模型	指标	LampQ	统一精度量化	提升
图像分类	ViT/DeiT	Top-1 Acc	SOTA	基线	显著
目标检测	ViT-based Det	mAP	SOTA	基线	显著
零样本量化	Various	Acc	SOTA	基线	显著

消融实验¶

配置	性能	说明
LampQ (Full)	最佳	类型感知Fisher + ILP + 迭代
w/o 类型感知归一化	下降	不同类型层的敏感度不可比
贪心替代ILP	次优	局部最优vs全局最优
无迭代更新	略差	首轮度量不够准确

关键发现¶

类型感知归一化是关键创新——没有它，MPQ 会严重偏向某些类型的层。
ILP 比贪心分配一致更好，且求解时间可接受（层数通常在数十到数百量级）。
在低比特（如平均 4-bit）下，LampQ 的优势更加明显——此时比特分配的优化空间更大。
方法在三种不同任务上一致有效，泛化性好。

亮点与洞察¶

类型感知归一化解决了 ViT MPQ 的根本问题——使不同类型组件的敏感度可以在同一标尺下比较，这对实际应用至关重要。
ILP 的使用在量化领域少见但非常有效——利用了比特分配问题规模适中（层数有限）的特点。
后训练量化+混合精度的组合使得方法可以即时应用于已有模型。

局限与展望¶

逐层粒度可能不够精细——同一层内不同通道的敏感度也可能不同。
Fisher 信息的计算需要校准数据，零数据场景下不可用。
未考虑硬件对混合精度的支持限制——某些硬件可能只支持特定的比特宽度组合。
可以探索与知识蒸馏结合的量化感知训练版本。

评分¶

新颖性: ⭐⭐⭐⭐ 类型感知Fisher + ILP的组合方案新颖
实验充分度: ⭐⭐⭐⭐⭐ 三种任务+多种模型+完整消融
写作质量: ⭐⭐⭐⭐ 问题分析透彻，方法描述清晰
价值: ⭐⭐⭐⭐ 对ViT量化部署有直接实用价值