跳转至

RedundancyLens: Revealing and Exploiting Visual Token Processing Redundancy for Efficient Decoder-Only MLLMs

会议: ACL 2025
arXiv: 2501.19036
代码: https://github.com/L-Hugh/RedundancyLens
领域: Multimodal VLM / 视觉Token效率
关键词: 视觉Token冗余、Decoder-only MLLM、免训练加速、动态FFN、稀疏注意力

一句话总结

提出 RedundancyLens 框架,系统揭示了 decoder-only MLLM 中视觉 token 在自注意力和 FFN 操作上存在大量结构化、聚簇式冗余,并利用这一发现实现免训练推理加速,与现有 token 压缩方法正交且可组合。

背景与动机

当前 MLLM 架构面临性能与效率的两难:

  • Decoder-only 架构(如 LLaVA):视觉 token 与文本 token 拼接后统一经过 LLM 的自注意力和 FFN 层处理,性能好但效率低
  • Cross-attention 架构(如 Flamingo):视觉 token 不经过 LLM 主体的自注意力和 FFN,效率高但性能较差

关键观察:在 decoder-only 架构中,视觉 token 数量通常远超文本 token(占比超过 90%),因此视觉 token 的自注意力和 FFN 操作消耗了绝大部分计算资源。那么一个自然的问题是:是否每一层都需要对视觉 token 进行完整的自注意力和 FFN 计算?

直接训练新架构验证成本太高,因此作者提出免训练的分析框架,通过逐步减少计算量来揭示冗余模式。

方法详解

1. Probe-Activated Dynamic FFN(探针激活动态FFN)

受 MoE 启发,仅激活 FFN 中的部分参数来处理视觉 token,但无需训练 router。核心思想是利用少量采样 token 作为"探针"来决定激活哪些参数。

给定视觉输入 \(X \in \mathbb{R}^{N \times d_{\text{model}}}\),标准 FFN 操作为:

\[H = \text{ReLU}(XW_1 + \mathbf{b_1}) \in \mathbb{R}^{N \times d_{\text{ff}}}\]
\[Y = HW_2 + \mathbf{b_2} \in \mathbb{R}^{N \times d_{\text{model}}}\]

Probe-Activated Dynamic FFN 的步骤:

  1. 采样探针:从 \(N\) 个视觉 token 中随机采样 \(M\) 个(\(M \ll N\)),计算采样 token 的隐藏表示: $\(H^{\text{sample}} = \text{ReLU}(X^{\text{sample}} W_1 + \mathbf{b_1})\)$

  2. 计算激活重要性:对采样 token 的隐藏表示取绝对值后求均值,得到每个 FFN 维度的重要性分数: $\(\bar{\mathbf{h}} = \frac{1}{M} \sum_{i=1}^{M} |H_i^{\text{sample}}| \in \mathbb{R}^{d_{\text{ff}}}\)$

  3. 选择 Top-K 维度:选出重要性最高的 \(K\) 个维度 \(S = \text{Top}_K(\bar{\mathbf{h}})\),仅激活对应的权重子集: $\(W_1^{\text{act}} = W_1[:, S] \in \mathbb{R}^{d_{\text{model}} \times K}, \quad W_2^{\text{act}} = W_2[S, :] \in \mathbb{R}^{K \times d_{\text{model}}}\)$

  4. 前向传播:用激活的子集参数计算所有视觉 token 的输出: $\(H^{\text{act}} = \text{ReLU}(XW_1^{\text{act}} + \mathbf{b_1}^{\text{act}}), \quad Y = H^{\text{act}} W_2^{\text{act}} + \mathbf{b_2}\)$

此方法仅对视觉 token 使用部分 FFN 参数(默认 \(K = 20\%\)),文本 token 仍使用完整 FFN。

2. Hollow Attention(空心注意力)

自定义的稀疏注意力模式,核心改动:

  • 视觉 token 之间的全局注意力 → 局部注意力(每个视觉 token 只关注前 \(R_A\) 个视觉 token,默认 \(R_A = 256\),约对应一张子图的 token 数)
  • 视觉 token 到文本 token 的注意力 → 保持不变
  • 文本 token 的注意力 → 保持不变(仍可关注所有 token)

由于视觉 token 远多于文本 token,这有效消除了大部分注意力计算开销。

3. 层排序算法(Layer Ranking Algorithm)

贪心搜索策略,确定哪些层的冗余度最高,优先对其施加计算缩减:

  • 构建紧凑验证集(从多个数据集采样约 2350 个实例)
  • 贪心迭代:每轮从未排序层中选出使模型性能影响最小的层加入已排序列表
  • 采用混合策略:最后 \(L_p\) 层按位置降序预分配(后层冗余度更高),其余层用搜索算法排序
  • 惩罚系数 \(\alpha = 2\):若减计算后性能下降,惩罚加倍,鼓励选择不影响性能的层

实验结果

实验设置

  • 模型:InternVL2-8B(32层)、Qwen2-VL-7B(28层)、MiniCPM-V 2.6(28层)、LLaVA-OneVision-7B(28层)
  • 8 个基准测试:OCRBench、DocVQA、InfoVQA、ChartQA、TextVQA、MME、MMStar、HallusionBench
  • 硬件:NVIDIA A100 GPU
  • 对比方法:FastV(token剪枝)、VTW(token加权)

表1:免训练加速方法对比(InternVL2-8B)

方法 FLOPs比 OCRBench DocVQA ChartQA MME MMStar
原始模型 100% 793 91.6 83.2 2210 61.3
FastV (R=30%) 72% 793 90.6 82.9 2181 60.7
Ours 72% 801 91.3 83.1 2212 61.7
FastV (R=50%) 53% 768 85.4 80.6 2195 59.3
Ours + FastV 52% 797 90.3 83.0 2192 60.9

表2:免训练加速方法对比(Qwen2-VL-7B)

方法 FLOPs比 OCRBench DocVQA ChartQA TextVQA MME
原始模型 100% 865 94.5 83.2 84.3 2322
FastV (R=30%) 72% 829 94.4 82.6 84.0 2306
Ours 71% 859 94.5 83.0 84.6 2309
FastV (R=50%) 53% 766 93.4 79.4 83.6 2309
Ours + FastV 53% 832 94.3 81.8 84.2 2310

关键发现

  1. 大量冗余:对约一半的层施加视觉 token 计算缩减后,模型性能基本不变甚至提高
  2. 仅限视觉 token:对文本 token 施加同样缩减会导致性能骤降,说明冗余是视觉 token 独有的
  3. 结构化聚簇:冗余层倾向于集中在模型后半部分(尤其是最后几层)
  4. FFN 比 Attention 敏感:当缩减层数超过一半时,FFN 缩减导致的性能下降比注意力缩减更大
  5. 正交互补:与 token 压缩方法(FastV)组合后,50% FLOPs 下性能远优于单独使用 FastV

消融实验

  • FFN 激活参数比例:激活比例越高,可缩减的层数越多;20% 是效率与效果的良好平衡点
  • 注意力范围 \(R_A\)\(R_A = 256\) 时在多数基准上效果最优
  • 层排序策略:混合策略(位置+搜索)优于纯位置或纯搜索策略

亮点

  • 🔍 揭示了一个重要的架构洞察:decoder-only MLLM 中视觉 token 的处理存在大规模结构化冗余,这为未来架构设计提供了有价值的参考
  • 🔧 免训练:无需重新训练即可实现约 30% FLOPs 减少,实用性强
  • 正交性:与 token 压缩方法正交,可组合使用实现更大加速(约 50% FLOPs 减少)
  • 📊 全面验证:在 4 个 SOTA 模型、8 个基准上验证,结论一致性强

局限性

  1. 层排序搜索成本:需要构建验证集并进行数百次评估,计算开销不可忽略
  2. 贪心搜索非最优:受限于验证集规模和搜索策略,可能无法找到最优的层组合
  3. 冗余原因未深入探究:仅验证了冗余的存在,未从理论层面解释为何特定层对视觉 token 冗余
  4. 实际加速未充分验证:主要报告 FLOPs 减少,未详细报告实际推理延迟的改善

相关工作

  • MLLM 架构: LLaVA、Flamingo、NVLM(对比 decoder-only vs cross-attention)、InternLM-XComposer2-4KHD
  • 视觉 Token 压缩: FastV(基于注意力分数剪枝)、VTW(token加权)、ZipVL(动态稀疏化)
  • 高效推理: MoE(混合专家)、稀疏注意力(BigBird)

评分

⭐⭐⭐⭐ (4/5)

  • 创新性: ⭐⭐⭐⭐ — 从"每 token 计算量缩减"角度切入,与主流 token 压缩方法互补,视角新颖
  • 实验充分度: ⭐⭐⭐⭐⭐ — 4 个 SOTA 模型、8 个基准,消融全面
  • 写作清晰度: ⭐⭐⭐⭐ — 统一视角对比两种架构的分析清晰
  • 实用价值: ⭐⭐⭐⭐ — 免训练、可组合,但层排序搜索有额外成本
  • 影响力: ⭐⭐⭐⭐ — 揭示的冗余模式对未来 MLLM 架构设计有指导意义