MASQuant: Modality-Aware Smoothing Quantization for Multimodal Large Language Models¶

会议: CVPR 2026
arXiv: 2603.04800
代码: https://github.com/alibaba/EfficientAI
领域: 多模态VLM
关键词: 后训练量化, 多模态LLM, 平滑量化, 跨模态补偿, 低秩分解

一句话总结¶

揭示了通道平滑量化（如 SmoothQuant）直接应用于 MLLM 时的"平滑失配"问题——不同模态激活幅度差异巨大导致非主导模态被过度平滑，提出 MASQuant 通过模态感知平滑因子和基于 SVD 白化的跨模态低秩补偿解决该问题。

研究背景与动机¶

领域现状：后训练量化（PTQ）是部署大模型的关键技术。基于计算不变性的通道平滑方法（SmoothQuant、AWQ 等）在纯文本 LLM 上表现优异，通过通道缩放因子重分配激活离群值。

现有痛点：直接将通道平滑应用于 MLLM 时，视觉 token 的激活幅度通常比文本 token 大 10-100 倍。统一的平滑因子由主导模态（通常是视觉）决定，导致非主导模态（文本、音频）被过度平滑，信号被压缩，产生严重量化误差——即"平滑失配"（Smoothing Misalignment）。

核心矛盾：为每个模态学习独立平滑因子解决了失配问题，但需要为每个模态存储独立的量化权重，完全违背了量化压缩的初衷。

本文目标：能否在保持单一量化权重的前提下，实现模态感知的平滑量化？

切入角度：观察到不同模态平滑后的权重差异是低秩的（可数学证明），因此可用轻量低秩矩阵补偿。

核心 idea：学习模态特异平滑因子 + 以文本模态为基准存储一套量化权重 + 用 SVD 白化低秩补偿其他模态。

方法详解¶

整体框架¶

MASQuant 想解决的是把通道平滑量化搬到 MLLM 上时的"平滑失配"：视觉 token 的激活幅度比文本大 10–100 倍，一套统一的平滑因子被主导模态绑架，文本、音频这些非主导模态被压得几乎没信号，量化误差随之爆炸。它的破法分两步——先让每个模态各自学一套最优平滑因子，从根上消除失配（模态感知平滑 MAS）；再用一个低秩补偿把"每模态一套平滑权重"重新压回"单套量化权重 + 轻量补丁"（跨模态补偿 CMC）。这样既拿到了模态感知带来的精度，又没把量化本该省下的存储重新吐回去。整套流程是校准期搭好两套东西、推理期分模态走两条路：

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400, 'subGraphTitleMargin': {'top': 8, 'bottom': 16}}}}%%
flowchart TD
    A["多模态校准激活<br/>文本 / 视觉 / 音频（幅度差 10–100×）"] --> S1
    subgraph S1["模态感知平滑（MAS）"]
        direction TB
        B["每模态独立初始化平滑因子 S_m"] --> C["最小化模态加权量化重建损失<br/>直接优化整条 S_m 向量"]
    end
    S1 --> S2
    subgraph S2["跨模态补偿（CMC）"]
        direction TB
        D["以文本 S_t·W 为唯一基准量化权重"] --> E["其他模态残差<br/>ΔW = S_m·W − Q(S_t·W)"]
        E --> F["白化变换 T 后截断 SVD<br/>得低秩补丁 L1, L2"]
    end
    S2 --> G["推理：两条路共享同一份量化主权重"]
    G -->|文本 token| H["基准路径<br/>Q(X_t·S_t⁻¹)·Q(S_t·W)"]
    G -->|非文本 token| I["基准路径 + 低秩补偿<br/>… + X_m·S_m⁻¹·L1·L2"]

关键设计¶

1. 模态感知平滑（Modality-Aware Smoothing, MAS）：让每个模态各自学最优平滑因子，而不是共用一套

失配的根源在于单一平滑因子 \(\mathbf{S}\) 由幅度最大的模态说了算，其余模态只能被动接受。MASQuant 干脆为每个模态 \(m\) 单独学一套平滑因子 \(\mathbf{S}_m\)：先用经典初始化 \(s_i^m = \sqrt{\max_t|x_{t,i}^m| / \max_j|w_{j,i}|}\) 给一个起点，再直接最小化按模态加权的量化重建损失 \(\sum_{m} \lambda_m \cdot \mathcal{L}_{MAE}(\mathbf{S}_m, \mathbf{X}_m, \mathbf{W})\)，把平滑因子本身优化到位。和 SmoothQuant、AWQ 去搜一个标量超参 \(\beta\) 不同，这里优化的是整条平滑因子向量，相当于直接逼近通道平滑能达到的精度上限。为什么非得给每个模态独立因子，论文用 SQNR 退化给了定量解释：统一平滑下非主导模态的信噪比会掉

\[\Delta = 10\log_{10}\left(\frac{d\,(\min_i \alpha_i^2)}{\sum_i 1/\alpha_i^2}\right)\]

其中 \(\alpha_i\) 是模态间的激活范围比。模态幅度差越悬殊，\(\Delta\) 越负、失配越严重——这恰好量化了"视觉主导时文本被淹没"的直觉。

2. 跨模态补偿（Cross-Modal Compensation, CMC）：用单套量化权重 + 低秩补丁，把 MAS 的多套权重重新压回去

MAS 把精度救回来了，却带来新麻烦：每个模态一套 \(\mathbf{S}_m\) 就意味着 \(Q(\mathbf{S}_m\mathbf{W})\) 是各不相同的量化权重，存 N 套权重等于把量化的压缩收益全赔进去。CMC 只存文本模态那套 \(Q(\mathbf{S}_t\mathbf{W})\) 当基准，其余模态用一个补丁找回差异。以视觉为例，它和基准的残差是 \(\Delta\mathbf{W} = \mathbf{S}_v \mathbf{W} - Q(\mathbf{S}_t \mathbf{W})\)。直接对 \(\Delta\mathbf{W}\) 做 SVD 压不下去（它本身没有低秩结构），关键一步是先做白化变换 \(\mathbf{T} = (\mathbf{P}\Lambda^{1/2})^\top\)，变换后的 \(\mathbf{T}(\Delta\mathbf{W})\) 才显出很强的低秩特性，截断 SVD 就能用两个瘦矩阵把它逼近出来：

\[\Delta\mathbf{W} \approx \mathbf{L}_1 \mathbf{L}_2,\quad \mathbf{L}_1 = \mathbf{T}^{-1}\mathbf{U}_r,\ \ \mathbf{L}_2 = \Sigma_r \mathbf{V}_r^\top\]

论文进一步证明，这个"白化 + 截断"的组合恰好最小化了输出端的重建误差 \(\|\mathbf{X}_v \mathbf{S}_v^{-1}(\Delta\mathbf{W} - \mathbf{L})\|_F^2\)，所以补偿不是凑出来的工程 trick，而是有理论保证的最优低秩近似。最终非文本模态只多背一对低秩矩阵，主权重仍是唯一的那份量化版本。

一个完整示例：两类 token 走完同一层¶

设想同一层里同时来了文本 token 和视觉 token。文本 token 走基准路径，平滑、量化、相乘一气呵成：

\[\mathbf{Y} = Q(\mathbf{X}_t \mathbf{S}_t^{-1}) \cdot Q(\mathbf{S}_t \mathbf{W})\]

视觉 token 则用自己学到的 \(\mathbf{S}_v\) 去平滑激活，但权重侧仍复用文本那套量化权重 \(Q(\mathbf{S}_t\mathbf{W})\)，二者之间被压掉的那部分由低秩补丁补回来：

\[\mathbf{Y} = Q(\mathbf{X}_v \mathbf{S}_v^{-1}) \cdot Q(\mathbf{S}_t \mathbf{W}) + \mathbf{X}_v \mathbf{S}_v^{-1} \cdot \mathbf{L}_1^v \mathbf{L}_2^v\]

可以看到两条路径共享同一份量化主权重，差别只在前面各自用了本模态的平滑因子、后面给非文本模态多挂了一项轻量的低秩乘法。再扩到三模态（如加音频），无非是又多挂一对 \(\mathbf{L}_1^m\mathbf{L}_2^m\)，主权重自始至终只存一份。

实验关键数据¶

主实验（Qwen2.5-VL 系列）¶

方法	Bits	MMMU	OCRBench	ScienceQA	TextVQA	Avg
FP16	W16A16	基线	基线	基线	基线	100%
SmoothQuant	W8A8	下降明显	下降	下降	下降	-
MASQuant	W8A8	最优	最优	最优	最优	SOTA

跨架构验证¶

模型类型	说明
双模态 VLM	Qwen2.5-VL-3B/7B 上一致优于 SmoothQuant、AWQ
三模态 Omni	Qwen2.5-Omni-3B 上同样有效，音频模态也受益

消融实验¶

MAS 单独使用即显著提升 SQNR（图 2 验证定理 1）
CMC 的低秩近似质量随秩增加快速收敛
白化后残差的低秩特性远优于直接 SVD

亮点¶

首次形式化定义 MLLM 量化中的“平滑失配”问题并给出 SQNR 理论分析（定理 1）
数学证明跨模态激活差异的低秩特性，使 CMC 有理论保证（定理 2）
框架同时适用于双模态（视觉-文本）和三模态（视觉-文本-音频）MLLM
保持单一量化权重，额外存储开销极低（仅低秩矩阵）
在 Qwen2.5-VL 和 Qwen2.5-Omni 上均一致优于现有通道平滑 PTQ 方法

消融实验¶

仅用 MAS（不加 CMC）：不同模态需存储独立量化权重，但量化精度最优
仅用 CMC（不改平滑）：修补效果有限，因底层平滑失配未解决
MAS + CMC（完整方案）：在单一权重约束下逼近 MAS 的精度上限
CMC 低秩补偿：秩 16-32 通常足以恢复 90%+ 的精度差距
白化后 \(\mathbf{T}(\Delta\mathbf{W})\) 的奇异值衰减远快于直接 SVD，验证了低秩假设

局限与展望¶

校准阶段需要收集各模态数据来分别优化平滑因子，增加预处理复杂度
低秩补偿的秩 \(r\) 选择需要在精度和额外存储之间权衡
当前仅验证了 W8A8 和 W4A8 设置，更激进的低位宽（如 W2A4）效果未知
非文本模态推理时需要额外的矩阵乘法 \(\mathbf{X}_m \mathbf{S}_m^{-1} \cdot \mathbf{L}_1^m \mathbf{L}_2^m\)，有少量延迟开销
可考虑将模态感知思想推广到旋转基方法（如 QuaRot、SpinQuant）
三模态及以上场景中低秩补偿矩阵数量线性增长，需要内存管理优化

实现细节¶

MAS 优化使用 Adam，通常 100-200 次迭代即可收敛
CMC 低秩矩阵以 FP16 存储，相比完整权重矩阵占用可忽略不计

MASQuant: Modality-Aware Smoothing Quantization for Multimodal Large Language Models¶

一句话总结¶

研究背景与动机¶

方法详解¶

整体框架¶

关键设计¶

一个完整示例：两类 token 走完同一层¶

实验关键数据¶

主实验（Qwen2.5-VL 系列）¶

跨架构验证¶

消融实验¶

亮点¶

消融实验¶

局限与展望¶

实现细节¶

相关论文¶