跳转至

Mostly Text, Smart Visuals: Asymmetric Text-Visual Pruning for Large Vision-Language Models

会议: CVPR 2026
arXiv: 2603.16001
代码: https://github.com/LezJ/ATV-Pruning
领域: 多模态VLM
关键词: 权重剪枝, LVLM, 模态不对称, 校准策略, 稀疏化

一句话总结

通过 MoT 探针实验揭示 LVLM 中文本通路和视觉通路对剪枝的不对称敏感性——文本通路高度敏感必须用文本 token 校准、视觉通路高度冗余可承受 60% 稀疏度,据此提出 ATV-Pruning 使用全部文本 token + 逐层自适应选择的少量视觉 token 构建校准池。

研究背景与动机

领域现状:LVLM 参数量庞大,权重剪枝是降低部署成本的有效手段。SparseGPT 和 Wanda 在纯文本 LLM 上效果好,后者通过权重幅度 × 激活范数评估重要性。但直接应用于 LVLM 效果欠佳。

现有痛点:现有 LVLM 剪枝方法(如 TAMP)虽然考虑了多模态,但仍在统一框架内混合处理文本和视觉 token,忽略了两种模态在剪枝下的根本行为差异——(1) 文本和视觉激活在表征空间中占据不同聚类区域(t-SNE 可视化);(2) 仅用文本 vs 仅用视觉校准得到的剪枝 mask IoU 分布很宽。

核心矛盾:模态不可知的校准策略稀释了保护文本相关权重所必需的语言信号。

本文目标:如何针对不同模态通路的不同敏感性设计校准策略?

切入角度:通过 MoT(Mixture-of-Transformer)分析探针显式解耦文本和视觉通路,独立研究各自的剪枝敏感性。

核心 idea:文本通路用全部文本 token 校准(保敏感性),视觉通路仅需少量高显著性视觉 token 补充(利用冗余性)。

方法详解

整体框架

ATV-Pruning 基于 Wanda 的激活感知剪枝框架,核心改进在校准池构建:\(\mathcal{S}_{cal} = \mathcal{T} \cup \mathcal{V}_{sub}\),其中 \(\mathcal{T}\) 包含所有文本 token,\(\mathcal{V}_{sub}\) 是逐层自适应选择的视觉 token 子集。

关键设计

  1. MoT 灵敏度分析探针(动机实验)

    • 功能:解耦文本/视觉通路并独立评估剪枝敏感性
    • 核心思路:将 Transformer block 的 QKV 和 FFN 复制为文本和视觉两条通路,分别使用文本/视觉/混合校准池剪枝,对比性能
    • 关键发现 A:文本通路极其敏感,60% 稀疏度下文本校准保留 84.65%,视觉校准崩塌至 50.92%,混合校准仅 64.97%
    • 关键发现 B:视觉通路极度冗余,60% 稀疏度下任何校准方式都保留 99.25%+ 性能
  2. 模态感知校准池

    • 功能:自适应构建包含全部文本 token 和少量视觉 token 的校准池
    • 核心思路:根据发现 A,文本 token 全部保留以保护语言能力;根据发现 B,仅需少量视觉 token 补充捕获视觉特异权重
  3. 逐层自适应视觉 token 选择

    • 功能:在每个 Transformer block 选择最重要的视觉 token
    • 显著性度量:使用 token 表征漂移(visual drift)\(s_v = 1 - \cos(\mathbf{X}_{in,v}, \mathbf{X}_{out,v})\)
    • 直觉:如果某个 block 显著更新了一个视觉 token 的表征,说明该 token 在此 block 中积极参与计算,应被纳入校准
    • 选择 drift 最大的 top-k 视觉 token 加入校准池

损失函数 / 训练策略

  • 使用 Wanda 的重要性评分 \(\mathbf{I}_{ij} = |\mathbf{W}_{ij}| \cdot \|\mathbf{X}_j\|_2\)
  • 按行剪去最低 \(\rho\%\) 得到非结构化稀疏模型
  • 无需重训练,属于 post-hoc 剪枝

实验关键数据

MoT 探针实验(LLaVA-NeXT)

通路 校准源 50% 稀疏度均值 60% 稀疏度均值
文本通路 文本 98.26% 84.65%
文本通路 视觉 94.33% 50.92%
文本通路 混合 95.86% 64.97%
视觉通路 文本 100.27% 100.05%
视觉通路 视觉 99.37% 99.25%
视觉通路 混合 100.14% 99.57%

主实验(9 个多模态基准)

方法 稀疏度 多基准平均 vs Wanda vs TAMP
ATV-Pruning 50% 最优 显著优于 超过
ATV-Pruning 60% 最优 大幅优于 超过

亮点

  • MoT 探针实验设计精巧,首次定量揭示 LVLM 中文本/视觉通路的不对称剪枝敏感性
  • 方法极其简洁——在 Wanda 基础上只改了校准 token 的选取方式,实现简单但效果显著
  • 发现视觉通路 60% 稀疏度下性能几乎不损失,是非常有价值的经验发现
  • Visual drift 作为 token 显著性度量既直观又有效且计算开销低
  • 在 9 个标准多模态基准上全面超越 Wanda、SparseGPT、TAMP 等基线
  • Finding B 表明 LVLM 的视觉处理参数存在大量冗余,为模型压缩提供了新视角

实验补充

  • 在 LLaVA-NeXT 和 Qwen2-VL 等多个模型上验证,结果一致
  • 50% 稀疏度下 ATV-Pruning 在 MMBench 上保留 90%+ 性能,明显优于 vanilla Wanda
  • 在 SQA-img 上的优势最为突出,因为该基准对文本推理能力要求最高
  • visual token 比例从 5% 到 30% 均可工作,默认 10% 即可达到最佳 trade-off

局限与展望

  • Visual drift 计算需要额外的前向传播开销(虽然是一次性的校准阶段)
  • 视觉 token 选择的 top-k 比例需要超参调优,不同模型/任务的最优比例可能不同
  • 当前仅验证非结构化稀疏,结构化剪枝(如通道剪枝)场景值得探索
  • 可继续探索将不对称思想应用到量化、知识蒸馏等其他压缩技术
  • MoT 探针的解耦是分析用的,实际剪枝仍是在共享权重上操作,探针与实施之间可能存在差异
  • 对于视频输入的 LVLM,视觉 token 数量剧增,选择策略的可扩展性需验证
  • VizWiz 上剪枝后性能反升的现象值得更深入理解