Mostly Text, Smart Visuals: Asymmetric Text-Visual Pruning for Large Vision-Language Models¶

会议: CVPR 2026
arXiv: 2603.16001
代码: https://github.com/LezJ/ATV-Pruning
领域: 多模态VLM
关键词: 权重剪枝, LVLM, 模态不对称, 校准策略, 稀疏化

一句话总结¶

通过 MoT 探针实验揭示 LVLM 中文本通路和视觉通路对剪枝的不对称敏感性——文本通路高度敏感必须用文本 token 校准、视觉通路高度冗余可承受 60% 稀疏度，据此提出 ATV-Pruning 使用全部文本 token + 逐层自适应选择的少量视觉 token 构建校准池。

研究背景与动机¶

领域现状：LVLM 参数量庞大，权重剪枝是降低部署成本的有效手段。SparseGPT 和 Wanda 在纯文本 LLM 上效果好，后者通过权重幅度 × 激活范数评估重要性。但直接应用于 LVLM 效果欠佳。

现有痛点：现有 LVLM 剪枝方法（如 TAMP）虽然考虑了多模态，但仍在统一框架内混合处理文本和视觉 token，忽略了两种模态在剪枝下的根本行为差异——(1) 文本和视觉激活在表征空间中占据不同聚类区域（t-SNE 可视化）；(2) 仅用文本 vs 仅用视觉校准得到的剪枝 mask IoU 分布很宽。

核心矛盾：模态不可知的校准策略稀释了保护文本相关权重所必需的语言信号。

本文目标：如何针对不同模态通路的不同敏感性设计校准策略？

切入角度：通过 MoT（Mixture-of-Transformer）分析探针显式解耦文本和视觉通路，独立研究各自的剪枝敏感性。

核心 idea：文本通路用全部文本 token 校准（保敏感性），视觉通路仅需少量高显著性视觉 token 补充（利用冗余性）。

方法详解¶

整体框架¶

ATV-Pruning 基于 Wanda 的激活感知剪枝框架，核心改进在校准池构建：\(\mathcal{S}_{cal} = \mathcal{T} \cup \mathcal{V}_{sub}\)，其中 \(\mathcal{T}\) 包含所有文本 token，\(\mathcal{V}_{sub}\) 是逐层自适应选择的视觉 token 子集。

关键设计¶

MoT 灵敏度分析探针（动机实验）：
- 功能：解耦文本/视觉通路并独立评估剪枝敏感性
- 核心思路：将 Transformer block 的 QKV 和 FFN 复制为文本和视觉两条通路，分别使用文本/视觉/混合校准池剪枝，对比性能
- 关键发现 A：文本通路极其敏感，60% 稀疏度下文本校准保留 84.65%，视觉校准崩塌至 50.92%，混合校准仅 64.97%
- 关键发现 B：视觉通路极度冗余，60% 稀疏度下任何校准方式都保留 99.25%+ 性能
模态感知校准池：
- 功能：自适应构建包含全部文本 token 和少量视觉 token 的校准池
- 核心思路：根据发现 A，文本 token 全部保留以保护语言能力；根据发现 B，仅需少量视觉 token 补充捕获视觉特异权重
逐层自适应视觉 token 选择：
- 功能：在每个 Transformer block 选择最重要的视觉 token
- 显著性度量：使用 token 表征漂移（visual drift）\(s_v = 1 - \cos(\mathbf{X}_{in,v}, \mathbf{X}_{out,v})\)
- 直觉：如果某个 block 显著更新了一个视觉 token 的表征，说明该 token 在此 block 中积极参与计算，应被纳入校准
- 选择 drift 最大的 top-k 视觉 token 加入校准池

损失函数 / 训练策略¶

使用 Wanda 的重要性评分 \(\mathbf{I}_{ij} = |\mathbf{W}_{ij}| \cdot \|\mathbf{X}_j\|_2\)
按行剪去最低 \(\rho\%\) 得到非结构化稀疏模型
无需重训练，属于 post-hoc 剪枝

实验关键数据¶

MoT 探针实验（LLaVA-NeXT）¶

通路	校准源	50% 稀疏度均值	60% 稀疏度均值
文本通路	文本	98.26%	84.65%
文本通路	视觉	94.33%	50.92%
文本通路	混合	95.86%	64.97%
视觉通路	文本	100.27%	100.05%
视觉通路	视觉	99.37%	99.25%
视觉通路	混合	100.14%	99.57%

主实验（9 个多模态基准）¶

方法	稀疏度	多基准平均	vs Wanda	vs TAMP
ATV-Pruning	50%	最优	显著优于	超过
ATV-Pruning	60%	最优	大幅优于	超过

亮点¶

MoT 探针实验设计精巧，首次定量揭示 LVLM 中文本/视觉通路的不对称剪枝敏感性
方法极其简洁——在 Wanda 基础上只改了校准 token 的选取方式，实现简单但效果显著
发现视觉通路 60% 稀疏度下性能几乎不损失，是非常有价值的经验发现
Visual drift 作为 token 显著性度量既直观又有效且计算开销低
在 9 个标准多模态基准上全面超越 Wanda、SparseGPT、TAMP 等基线
Finding B 表明 LVLM 的视觉处理参数存在大量冗余，为模型压缩提供了新视角

实验补充¶

在 LLaVA-NeXT 和 Qwen2-VL 等多个模型上验证，结果一致
50% 稀疏度下 ATV-Pruning 在 MMBench 上保留 90%+ 性能，明显优于 vanilla Wanda
在 SQA-img 上的优势最为突出，因为该基准对文本推理能力要求最高
visual token 比例从 5% 到 30% 均可工作，默认 10% 即可达到最佳 trade-off

局限与展望¶

Visual drift 计算需要额外的前向传播开销（虽然是一次性的校准阶段）
视觉 token 选择的 top-k 比例需要超参调优，不同模型/任务的最优比例可能不同
当前仅验证非结构化稀疏，结构化剪枝（如通道剪枝）场景值得探索
可继续探索将不对称思想应用到量化、知识蒸馏等其他压缩技术
MoT 探针的解耦是分析用的，实际剪枝仍是在共享权重上操作，探针与实施之间可能存在差异
对于视频输入的 LVLM，视觉 token 数量剧增，选择策略的可扩展性需验证
VizWiz 上剪枝后性能反升的现象值得更深入理解