MASQuant: Modality-Aware Smoothing Quantization for Multimodal Large Language Models¶
会议: CVPR 2026
arXiv: 2603.04800
代码: https://github.com/alibaba/EfficientAI
领域: 多模态VLM
关键词: 后训练量化, 多模态LLM, 平滑量化, 跨模态补偿, 低秩分解
一句话总结¶
揭示了通道平滑量化(如 SmoothQuant)直接应用于 MLLM 时的"平滑失配"问题——不同模态激活幅度差异巨大导致非主导模态被过度平滑,提出 MASQuant 通过模态感知平滑因子和基于 SVD 白化的跨模态低秩补偿解决该问题。
研究背景与动机¶
领域现状:后训练量化(PTQ)是部署大模型的关键技术。基于计算不变性的通道平滑方法(SmoothQuant、AWQ 等)在纯文本 LLM 上表现优异,通过通道缩放因子重分配激活离群值。
现有痛点:直接将通道平滑应用于 MLLM 时,视觉 token 的激活幅度通常比文本 token 大 10-100 倍。统一的平滑因子由主导模态(通常是视觉)决定,导致非主导模态(文本、音频)被过度平滑,信号被压缩,产生严重量化误差——即"平滑失配"(Smoothing Misalignment)。
核心矛盾:为每个模态学习独立平滑因子解决了失配问题,但需要为每个模态存储独立的量化权重,完全违背了量化压缩的初衷。
本文目标:能否在保持单一量化权重的前提下,实现模态感知的平滑量化?
切入角度:观察到不同模态平滑后的权重差异是低秩的(可数学证明),因此可用轻量低秩矩阵补偿。
核心 idea:学习模态特异平滑因子 + 以文本模态为基准存储一套量化权重 + 用 SVD 白化低秩补偿其他模态。
方法详解¶
整体框架¶
MASQuant 想解决的是把通道平滑量化搬到 MLLM 上时的"平滑失配":视觉 token 的激活幅度比文本大 10–100 倍,一套统一的平滑因子被主导模态绑架,文本、音频这些非主导模态被压得几乎没信号,量化误差随之爆炸。它的破法分两步——先让每个模态各自学一套最优平滑因子,从根上消除失配(模态感知平滑 MAS);再用一个低秩补偿把"每模态一套平滑权重"重新压回"单套量化权重 + 轻量补丁"(跨模态补偿 CMC)。这样既拿到了模态感知带来的精度,又没把量化本该省下的存储重新吐回去。整套流程是校准期搭好两套东西、推理期分模态走两条路:
%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400, 'subGraphTitleMargin': {'top': 8, 'bottom': 16}}}}%%
flowchart TD
A["多模态校准激活<br/>文本 / 视觉 / 音频(幅度差 10–100×)"] --> S1
subgraph S1["模态感知平滑(MAS)"]
direction TB
B["每模态独立初始化平滑因子 S_m"] --> C["最小化模态加权量化重建损失<br/>直接优化整条 S_m 向量"]
end
S1 --> S2
subgraph S2["跨模态补偿(CMC)"]
direction TB
D["以文本 S_t·W 为唯一基准量化权重"] --> E["其他模态残差<br/>ΔW = S_m·W − Q(S_t·W)"]
E --> F["白化变换 T 后截断 SVD<br/>得低秩补丁 L1, L2"]
end
S2 --> G["推理:两条路共享同一份量化主权重"]
G -->|文本 token| H["基准路径<br/>Q(X_t·S_t⁻¹)·Q(S_t·W)"]
G -->|非文本 token| I["基准路径 + 低秩补偿<br/>… + X_m·S_m⁻¹·L1·L2"]
关键设计¶
1. 模态感知平滑(Modality-Aware Smoothing, MAS):让每个模态各自学最优平滑因子,而不是共用一套
失配的根源在于单一平滑因子 \(\mathbf{S}\) 由幅度最大的模态说了算,其余模态只能被动接受。MASQuant 干脆为每个模态 \(m\) 单独学一套平滑因子 \(\mathbf{S}_m\):先用经典初始化 \(s_i^m = \sqrt{\max_t|x_{t,i}^m| / \max_j|w_{j,i}|}\) 给一个起点,再直接最小化按模态加权的量化重建损失 \(\sum_{m} \lambda_m \cdot \mathcal{L}_{MAE}(\mathbf{S}_m, \mathbf{X}_m, \mathbf{W})\),把平滑因子本身优化到位。和 SmoothQuant、AWQ 去搜一个标量超参 \(\beta\) 不同,这里优化的是整条平滑因子向量,相当于直接逼近通道平滑能达到的精度上限。为什么非得给每个模态独立因子,论文用 SQNR 退化给了定量解释:统一平滑下非主导模态的信噪比会掉
其中 \(\alpha_i\) 是模态间的激活范围比。模态幅度差越悬殊,\(\Delta\) 越负、失配越严重——这恰好量化了"视觉主导时文本被淹没"的直觉。
2. 跨模态补偿(Cross-Modal Compensation, CMC):用单套量化权重 + 低秩补丁,把 MAS 的多套权重重新压回去
MAS 把精度救回来了,却带来新麻烦:每个模态一套 \(\mathbf{S}_m\) 就意味着 \(Q(\mathbf{S}_m\mathbf{W})\) 是各不相同的量化权重,存 N 套权重等于把量化的压缩收益全赔进去。CMC 只存文本模态那套 \(Q(\mathbf{S}_t\mathbf{W})\) 当基准,其余模态用一个补丁找回差异。以视觉为例,它和基准的残差是 \(\Delta\mathbf{W} = \mathbf{S}_v \mathbf{W} - Q(\mathbf{S}_t \mathbf{W})\)。直接对 \(\Delta\mathbf{W}\) 做 SVD 压不下去(它本身没有低秩结构),关键一步是先做白化变换 \(\mathbf{T} = (\mathbf{P}\Lambda^{1/2})^\top\),变换后的 \(\mathbf{T}(\Delta\mathbf{W})\) 才显出很强的低秩特性,截断 SVD 就能用两个瘦矩阵把它逼近出来:
论文进一步证明,这个"白化 + 截断"的组合恰好最小化了输出端的重建误差 \(\|\mathbf{X}_v \mathbf{S}_v^{-1}(\Delta\mathbf{W} - \mathbf{L})\|_F^2\),所以补偿不是凑出来的工程 trick,而是有理论保证的最优低秩近似。最终非文本模态只多背一对低秩矩阵,主权重仍是唯一的那份量化版本。
一个完整示例:两类 token 走完同一层¶
设想同一层里同时来了文本 token 和视觉 token。文本 token 走基准路径,平滑、量化、相乘一气呵成:
视觉 token 则用自己学到的 \(\mathbf{S}_v\) 去平滑激活,但权重侧仍复用文本那套量化权重 \(Q(\mathbf{S}_t\mathbf{W})\),二者之间被压掉的那部分由低秩补丁补回来:
可以看到两条路径共享同一份量化主权重,差别只在前面各自用了本模态的平滑因子、后面给非文本模态多挂了一项轻量的低秩乘法。再扩到三模态(如加音频),无非是又多挂一对 \(\mathbf{L}_1^m\mathbf{L}_2^m\),主权重自始至终只存一份。
实验关键数据¶
主实验(Qwen2.5-VL 系列)¶
| 方法 | Bits | MMMU | OCRBench | ScienceQA | TextVQA | Avg |
|---|---|---|---|---|---|---|
| FP16 | W16A16 | 基线 | 基线 | 基线 | 基线 | 100% |
| SmoothQuant | W8A8 | 下降明显 | 下降 | 下降 | 下降 | - |
| MASQuant | W8A8 | 最优 | 最优 | 最优 | 最优 | SOTA |
跨架构验证¶
| 模型类型 | 说明 |
|---|---|
| 双模态 VLM | Qwen2.5-VL-3B/7B 上一致优于 SmoothQuant、AWQ |
| 三模态 Omni | Qwen2.5-Omni-3B 上同样有效,音频模态也受益 |
消融实验¶
- MAS 单独使用即显著提升 SQNR(图 2 验证定理 1)
- CMC 的低秩近似质量随秩增加快速收敛
- 白化后残差的低秩特性远优于直接 SVD
亮点¶
- 首次形式化定义 MLLM 量化中的“平滑失配”问题并给出 SQNR 理论分析(定理 1)
- 数学证明跨模态激活差异的低秩特性,使 CMC 有理论保证(定理 2)
- 框架同时适用于双模态(视觉-文本)和三模态(视觉-文本-音频)MLLM
- 保持单一量化权重,额外存储开销极低(仅低秩矩阵)
- 在 Qwen2.5-VL 和 Qwen2.5-Omni 上均一致优于现有通道平滑 PTQ 方法
消融实验¶
- 仅用 MAS(不加 CMC):不同模态需存储独立量化权重,但量化精度最优
- 仅用 CMC(不改平滑):修补效果有限,因底层平滑失配未解决
- MAS + CMC(完整方案):在单一权重约束下逼近 MAS 的精度上限
- CMC 低秩补偿:秩 16-32 通常足以恢复 90%+ 的精度差距
- 白化后 \(\mathbf{T}(\Delta\mathbf{W})\) 的奇异值衰减远快于直接 SVD,验证了低秩假设
局限与展望¶
- 校准阶段需要收集各模态数据来分别优化平滑因子,增加预处理复杂度
- 低秩补偿的秩 \(r\) 选择需要在精度和额外存储之间权衡
- 当前仅验证了 W8A8 和 W4A8 设置,更激进的低位宽(如 W2A4)效果未知
- 非文本模态推理时需要额外的矩阵乘法 \(\mathbf{X}_m \mathbf{S}_m^{-1} \cdot \mathbf{L}_1^m \mathbf{L}_2^m\),有少量延迟开销
- 可考虑将模态感知思想推广到旋转基方法(如 QuaRot、SpinQuant)
- 三模态及以上场景中低秩补偿矩阵数量线性增长,需要内存管理优化
实现细节¶
- MAS 优化使用 Adam,通常 100-200 次迭代即可收敛
- CMC 低秩矩阵以 FP16 存储,相比完整权重矩阵占用可忽略不计