Fine-Grained Post-Training Quantization for Large Vision Language Models with Quantization-Aware Integrated Gradients¶

会议: CVPR 2026
arXiv: 2603.17809
代码: https://github.com/ucas-xiang/QIG
领域: 多模态VLM
关键词: 后训练量化, LVLM压缩, token级敏感度, 积分梯度, 模型加速

一句话总结¶

提出量化感知积分梯度（QIG），将 LVLM 量化的灵敏度分析从模态级推进到 token 级，利用公理化归因原理精确量化每个 token 对量化误差的贡献，在 W4A8 和 W3A16 设置下显著提升量化模型精度，且几乎无额外计算开销。

领域现状：LVLM（如 LLaVA、InternVL、Qwen-VL）在多模态任务中表现出色，但模型体积大、推理慢，后训练量化（PTQ）是常用的加速手段。

现有痛点：现有 LVLM 量化方法（如 MBQ）仅在模态级别衡量 token 敏感度（视觉 vs 文本），忽略了跨 token 的复杂交互以及 token 间的量化敏感度差异。

核心矛盾：随着 token 在模型中逐层交互，模态边界逐渐模糊，同一模态内不同 token 的量化敏感度也存在巨大差异（massive activations、layer heterogeneity、sub-layer divergence、token variability 四个现象）。

本文目标 如何在 token 级别精确估计量化敏感度，并利用这些信息指导更精细的 channel-wise equalization。

切入角度：从机械可解释性中的公理化归因出发，利用积分梯度量化每个 token 从量化参考到实际输入的敏感度。

核心idea：用 Quantization-aware Integrated Gradients（QIG）替代模态级敏感度估计，在 token 级别指导量化校准。

输入多模态序列（视觉+文本+特殊token）→ 在校准阶段计算每个 token 的 QIG 分数 → IQR 裁剪和归一化 → 将 token 重要度系数 \(\lambda_i\) 融入 channel-wise equalization 的优化目标 → 搜索最优量化缩放因子。

Quantization-aware Integrated Gradients (QIG):
- 功能：在 token 级别量化每个 token 对量化误差的贡献
- 核心思路：不同于经典 IG 归因全精度预测，QIG 归因的是全精度模型和量化模型之间的输出差异。沿 \(x^q\)（量化输入）到 \(x\)（实际输入）的路径积分梯度：\(QIG(x) = (x - x^q) \int_0^1 \frac{\partial(f(x_\alpha, w) - f(x_\alpha, w^q))}{\partial x_\alpha} d\alpha\)
- 设计动机：梯度和注意力等常用代理与量化误差的相关性弱，perturbation-based 方法虽准确但计算代价高。QIG 直接与 PTQ 误差关联，且满足完备性公理
IQR 裁剪稳定化:
- 功能：抑制 QIG 分数中的极端值
- 核心思路：用四分位距裁剪 \(C(QIG_i) = \text{clip}(QIG_i, Q_1 - 1.5 \cdot IQR, Q_3 + 1.5 \cdot IQR)\)，然后归一化得到 \(\lambda_i\)
- 设计动机：原始 QIG 分布重尾，少数极端 token 会主导优化
Token 级加权 Channel-Wise Equalization:
- 功能：将 token 重要度系数 \(\lambda_i\) 融入 CWE 优化目标
- 核心思路：\(\mathbf{E}^* = \arg\min_{\mathbf{E}} \sum_{i=1}^T \lambda_i \|Q_W(\mathbf{W}*\mathbf{E}) Q_X(\mathbf{E}^{-1}*\mathbf{X}_i) - \mathbf{W}\mathbf{X}_i\|_2^2\)
- 设计动机：让缩放因子搜索偏向更敏感的 token，整体框架不变但精度更高

设置	方法	VizWiz	MMMU	ChartQA	AI2D	ScienceQA	平均
FP16	-	60.41	49.22	80.04	81.31	95.88	73.37
W3A16	MBQ	57.99	44.00	76.84	78.47	94.89	70.44
W3A16	QIG	62.82	45.78	77.20	79.11	95.29	72.04
W4A8	MBQ	58.13	44.78	74.92	78.27	94.70	70.16
W4A8	QIG	59.10	45.00	74.52	78.30	94.25	70.23