Mostly Text, Smart Visuals: Asymmetric Text-Visual Pruning for Large Vision-Language Models¶
会议: CVPR 2026
arXiv: 2603.16001
代码: https://github.com/LezJ/ATV-Pruning
领域: 多模态VLM
关键词: 权重剪枝, LVLM, 模态不对称, 校准策略, 稀疏化
一句话总结¶
通过 MoT 探针实验揭示 LVLM 中文本通路和视觉通路对剪枝的不对称敏感性——文本通路高度敏感必须用文本 token 校准、视觉通路高度冗余可承受 60% 稀疏度,据此提出 ATV-Pruning 使用全部文本 token + 逐层自适应选择的少量视觉 token 构建校准池。
研究背景与动机¶
领域现状:LVLM 参数量庞大,权重剪枝是降低部署成本的有效手段。SparseGPT 和 Wanda 在纯文本 LLM 上效果好,后者通过权重幅度 × 激活范数评估重要性。但直接应用于 LVLM 效果欠佳。
现有痛点:现有 LVLM 剪枝方法(如 TAMP)虽然考虑了多模态,但仍在统一框架内混合处理文本和视觉 token,忽略了两种模态在剪枝下的根本行为差异——(1) 文本和视觉激活在表征空间中占据不同聚类区域(t-SNE 可视化);(2) 仅用文本 vs 仅用视觉校准得到的剪枝 mask IoU 分布很宽。
核心矛盾:模态不可知的校准策略稀释了保护文本相关权重所必需的语言信号。
本文目标:如何针对不同模态通路的不同敏感性设计校准策略?
切入角度:通过 MoT(Mixture-of-Transformer)分析探针显式解耦文本和视觉通路,独立研究各自的剪枝敏感性。
核心 idea:文本通路用全部文本 token 校准(保敏感性),视觉通路仅需少量高显著性视觉 token 补充(利用冗余性)。
方法详解¶
整体框架¶
ATV-Pruning 基于 Wanda 的激活感知剪枝框架,核心改进在校准池构建:\(\mathcal{S}_{cal} = \mathcal{T} \cup \mathcal{V}_{sub}\),其中 \(\mathcal{T}\) 包含所有文本 token,\(\mathcal{V}_{sub}\) 是逐层自适应选择的视觉 token 子集。
关键设计¶
-
MoT 灵敏度分析探针(动机实验):
- 功能:解耦文本/视觉通路并独立评估剪枝敏感性
- 核心思路:将 Transformer block 的 QKV 和 FFN 复制为文本和视觉两条通路,分别使用文本/视觉/混合校准池剪枝,对比性能
- 关键发现 A:文本通路极其敏感,60% 稀疏度下文本校准保留 84.65%,视觉校准崩塌至 50.92%,混合校准仅 64.97%
- 关键发现 B:视觉通路极度冗余,60% 稀疏度下任何校准方式都保留 99.25%+ 性能
-
模态感知校准池:
- 功能:自适应构建包含全部文本 token 和少量视觉 token 的校准池
- 核心思路:根据发现 A,文本 token 全部保留以保护语言能力;根据发现 B,仅需少量视觉 token 补充捕获视觉特异权重
-
逐层自适应视觉 token 选择:
- 功能:在每个 Transformer block 选择最重要的视觉 token
- 显著性度量:使用 token 表征漂移(visual drift)\(s_v = 1 - \cos(\mathbf{X}_{in,v}, \mathbf{X}_{out,v})\)
- 直觉:如果某个 block 显著更新了一个视觉 token 的表征,说明该 token 在此 block 中积极参与计算,应被纳入校准
- 选择 drift 最大的 top-k 视觉 token 加入校准池
损失函数 / 训练策略¶
- 使用 Wanda 的重要性评分 \(\mathbf{I}_{ij} = |\mathbf{W}_{ij}| \cdot \|\mathbf{X}_j\|_2\)
- 按行剪去最低 \(\rho\%\) 得到非结构化稀疏模型
- 无需重训练,属于 post-hoc 剪枝
实验关键数据¶
MoT 探针实验(LLaVA-NeXT)¶
| 通路 | 校准源 | 50% 稀疏度均值 | 60% 稀疏度均值 |
|---|---|---|---|
| 文本通路 | 文本 | 98.26% | 84.65% |
| 文本通路 | 视觉 | 94.33% | 50.92% |
| 文本通路 | 混合 | 95.86% | 64.97% |
| 视觉通路 | 文本 | 100.27% | 100.05% |
| 视觉通路 | 视觉 | 99.37% | 99.25% |
| 视觉通路 | 混合 | 100.14% | 99.57% |
主实验(9 个多模态基准)¶
| 方法 | 稀疏度 | 多基准平均 | vs Wanda | vs TAMP |
|---|---|---|---|---|
| ATV-Pruning | 50% | 最优 | 显著优于 | 超过 |
| ATV-Pruning | 60% | 最优 | 大幅优于 | 超过 |
亮点¶
- MoT 探针实验设计精巧,首次定量揭示 LVLM 中文本/视觉通路的不对称剪枝敏感性
- 方法极其简洁——在 Wanda 基础上只改了校准 token 的选取方式,实现简单但效果显著
- 发现视觉通路 60% 稀疏度下性能几乎不损失,是非常有价值的经验发现
- Visual drift 作为 token 显著性度量既直观又有效且计算开销低
- 在 9 个标准多模态基准上全面超越 Wanda、SparseGPT、TAMP 等基线
- Finding B 表明 LVLM 的视觉处理参数存在大量冗余,为模型压缩提供了新视角
实验补充¶
- 在 LLaVA-NeXT 和 Qwen2-VL 等多个模型上验证,结果一致
- 50% 稀疏度下 ATV-Pruning 在 MMBench 上保留 90%+ 性能,明显优于 vanilla Wanda
- 在 SQA-img 上的优势最为突出,因为该基准对文本推理能力要求最高
- visual token 比例从 5% 到 30% 均可工作,默认 10% 即可达到最佳 trade-off
局限与展望¶
- Visual drift 计算需要额外的前向传播开销(虽然是一次性的校准阶段)
- 视觉 token 选择的 top-k 比例需要超参调优,不同模型/任务的最优比例可能不同
- 当前仅验证非结构化稀疏,结构化剪枝(如通道剪枝)场景值得探索
- 可继续探索将不对称思想应用到量化、知识蒸馏等其他压缩技术
- MoT 探针的解耦是分析用的,实际剪枝仍是在共享权重上操作,探针与实施之间可能存在差异
- 对于视频输入的 LVLM,视觉 token 数量剧增,选择策略的可扩展性需验证
- VizWiz 上剪枝后性能反升的现象值得更深入理解