RedundancyLens: Revealing and Exploiting Visual Token Processing Redundancy for Efficient Decoder-Only MLLMs¶
会议: ACL 2025
arXiv: 2501.19036
代码: https://github.com/L-Hugh/RedundancyLens
领域: Multimodal VLM / 视觉Token效率
关键词: 视觉Token冗余、Decoder-only MLLM、免训练加速、动态FFN、稀疏注意力
一句话总结¶
提出 RedundancyLens 框架,系统揭示了 decoder-only MLLM 中视觉 token 在自注意力和 FFN 操作上存在大量结构化、聚簇式冗余,并利用这一发现实现免训练推理加速,与现有 token 压缩方法正交且可组合。
背景与动机¶
当前 MLLM 架构面临性能与效率的两难:
- Decoder-only 架构(如 LLaVA):视觉 token 与文本 token 拼接后统一经过 LLM 的自注意力和 FFN 层处理,性能好但效率低
- Cross-attention 架构(如 Flamingo):视觉 token 不经过 LLM 主体的自注意力和 FFN,效率高但性能较差
关键观察:在 decoder-only 架构中,视觉 token 数量通常远超文本 token(占比超过 90%),因此视觉 token 的自注意力和 FFN 操作消耗了绝大部分计算资源。那么一个自然的问题是:是否每一层都需要对视觉 token 进行完整的自注意力和 FFN 计算?
直接训练新架构验证成本太高,因此作者提出免训练的分析框架,通过逐步减少计算量来揭示冗余模式。
方法详解¶
1. Probe-Activated Dynamic FFN(探针激活动态FFN)¶
受 MoE 启发,仅激活 FFN 中的部分参数来处理视觉 token,但无需训练 router。核心思想是利用少量采样 token 作为"探针"来决定激活哪些参数。
给定视觉输入 \(X \in \mathbb{R}^{N \times d_{\text{model}}}\),标准 FFN 操作为:
Probe-Activated Dynamic FFN 的步骤:
-
采样探针:从 \(N\) 个视觉 token 中随机采样 \(M\) 个(\(M \ll N\)),计算采样 token 的隐藏表示: $\(H^{\text{sample}} = \text{ReLU}(X^{\text{sample}} W_1 + \mathbf{b_1})\)$
-
计算激活重要性:对采样 token 的隐藏表示取绝对值后求均值,得到每个 FFN 维度的重要性分数: $\(\bar{\mathbf{h}} = \frac{1}{M} \sum_{i=1}^{M} |H_i^{\text{sample}}| \in \mathbb{R}^{d_{\text{ff}}}\)$
-
选择 Top-K 维度:选出重要性最高的 \(K\) 个维度 \(S = \text{Top}_K(\bar{\mathbf{h}})\),仅激活对应的权重子集: $\(W_1^{\text{act}} = W_1[:, S] \in \mathbb{R}^{d_{\text{model}} \times K}, \quad W_2^{\text{act}} = W_2[S, :] \in \mathbb{R}^{K \times d_{\text{model}}}\)$
-
前向传播:用激活的子集参数计算所有视觉 token 的输出: $\(H^{\text{act}} = \text{ReLU}(XW_1^{\text{act}} + \mathbf{b_1}^{\text{act}}), \quad Y = H^{\text{act}} W_2^{\text{act}} + \mathbf{b_2}\)$
此方法仅对视觉 token 使用部分 FFN 参数(默认 \(K = 20\%\)),文本 token 仍使用完整 FFN。
2. Hollow Attention(空心注意力)¶
自定义的稀疏注意力模式,核心改动:
- 视觉 token 之间的全局注意力 → 局部注意力(每个视觉 token 只关注前 \(R_A\) 个视觉 token,默认 \(R_A = 256\),约对应一张子图的 token 数)
- 视觉 token 到文本 token 的注意力 → 保持不变
- 文本 token 的注意力 → 保持不变(仍可关注所有 token)
由于视觉 token 远多于文本 token,这有效消除了大部分注意力计算开销。
3. 层排序算法(Layer Ranking Algorithm)¶
贪心搜索策略,确定哪些层的冗余度最高,优先对其施加计算缩减:
- 构建紧凑验证集(从多个数据集采样约 2350 个实例)
- 贪心迭代:每轮从未排序层中选出使模型性能影响最小的层加入已排序列表
- 采用混合策略:最后 \(L_p\) 层按位置降序预分配(后层冗余度更高),其余层用搜索算法排序
- 惩罚系数 \(\alpha = 2\):若减计算后性能下降,惩罚加倍,鼓励选择不影响性能的层
实验结果¶
实验设置¶
- 模型:InternVL2-8B(32层)、Qwen2-VL-7B(28层)、MiniCPM-V 2.6(28层)、LLaVA-OneVision-7B(28层)
- 8 个基准测试:OCRBench、DocVQA、InfoVQA、ChartQA、TextVQA、MME、MMStar、HallusionBench
- 硬件:NVIDIA A100 GPU
- 对比方法:FastV(token剪枝)、VTW(token加权)
表1:免训练加速方法对比(InternVL2-8B)¶
| 方法 | FLOPs比 | OCRBench | DocVQA | ChartQA | MME | MMStar |
|---|---|---|---|---|---|---|
| 原始模型 | 100% | 793 | 91.6 | 83.2 | 2210 | 61.3 |
| FastV (R=30%) | 72% | 793 | 90.6 | 82.9 | 2181 | 60.7 |
| Ours | 72% | 801 | 91.3 | 83.1 | 2212 | 61.7 |
| FastV (R=50%) | 53% | 768 | 85.4 | 80.6 | 2195 | 59.3 |
| Ours + FastV | 52% | 797 | 90.3 | 83.0 | 2192 | 60.9 |
表2:免训练加速方法对比(Qwen2-VL-7B)¶
| 方法 | FLOPs比 | OCRBench | DocVQA | ChartQA | TextVQA | MME |
|---|---|---|---|---|---|---|
| 原始模型 | 100% | 865 | 94.5 | 83.2 | 84.3 | 2322 |
| FastV (R=30%) | 72% | 829 | 94.4 | 82.6 | 84.0 | 2306 |
| Ours | 71% | 859 | 94.5 | 83.0 | 84.6 | 2309 |
| FastV (R=50%) | 53% | 766 | 93.4 | 79.4 | 83.6 | 2309 |
| Ours + FastV | 53% | 832 | 94.3 | 81.8 | 84.2 | 2310 |
关键发现¶
- 大量冗余:对约一半的层施加视觉 token 计算缩减后,模型性能基本不变甚至提高
- 仅限视觉 token:对文本 token 施加同样缩减会导致性能骤降,说明冗余是视觉 token 独有的
- 结构化聚簇:冗余层倾向于集中在模型后半部分(尤其是最后几层)
- FFN 比 Attention 敏感:当缩减层数超过一半时,FFN 缩减导致的性能下降比注意力缩减更大
- 正交互补:与 token 压缩方法(FastV)组合后,50% FLOPs 下性能远优于单独使用 FastV
消融实验¶
- FFN 激活参数比例:激活比例越高,可缩减的层数越多;20% 是效率与效果的良好平衡点
- 注意力范围 \(R_A\):\(R_A = 256\) 时在多数基准上效果最优
- 层排序策略:混合策略(位置+搜索)优于纯位置或纯搜索策略
亮点¶
- 🔍 揭示了一个重要的架构洞察:decoder-only MLLM 中视觉 token 的处理存在大规模结构化冗余,这为未来架构设计提供了有价值的参考
- 🔧 免训练:无需重新训练即可实现约 30% FLOPs 减少,实用性强
- ➕ 正交性:与 token 压缩方法正交,可组合使用实现更大加速(约 50% FLOPs 减少)
- 📊 全面验证:在 4 个 SOTA 模型、8 个基准上验证,结论一致性强
局限性¶
- 层排序搜索成本:需要构建验证集并进行数百次评估,计算开销不可忽略
- 贪心搜索非最优:受限于验证集规模和搜索策略,可能无法找到最优的层组合
- 冗余原因未深入探究:仅验证了冗余的存在,未从理论层面解释为何特定层对视觉 token 冗余
- 实际加速未充分验证:主要报告 FLOPs 减少,未详细报告实际推理延迟的改善
相关工作¶
- MLLM 架构: LLaVA、Flamingo、NVLM(对比 decoder-only vs cross-attention)、InternLM-XComposer2-4KHD
- 视觉 Token 压缩: FastV(基于注意力分数剪枝)、VTW(token加权)、ZipVL(动态稀疏化)
- 高效推理: MoE(混合专家)、稀疏注意力(BigBird)
评分¶
⭐⭐⭐⭐ (4/5)
- 创新性: ⭐⭐⭐⭐ — 从"每 token 计算量缩减"角度切入,与主流 token 压缩方法互补,视角新颖
- 实验充分度: ⭐⭐⭐⭐⭐ — 4 个 SOTA 模型、8 个基准,消融全面
- 写作清晰度: ⭐⭐⭐⭐ — 统一视角对比两种架构的分析清晰
- 实用价值: ⭐⭐⭐⭐ — 免训练、可组合,但层排序搜索有额外成本
- 影响力: ⭐⭐⭐⭐ — 揭示的冗余模式对未来 MLLM 架构设计有指导意义