RedundancyLens: Revealing and Exploiting Visual Token Processing Redundancy for Efficient Decoder-Only MLLMs¶

会议: ACL 2025
arXiv: 2501.19036
代码: https://github.com/L-Hugh/RedundancyLens
领域: Multimodal VLM / 视觉Token效率
关键词: 视觉Token冗余、Decoder-only MLLM、免训练加速、动态FFN、稀疏注意力

一句话总结¶

提出 RedundancyLens 框架，系统揭示了 decoder-only MLLM 中视觉 token 在自注意力和 FFN 操作上存在大量结构化、聚簇式冗余，并利用这一发现实现免训练推理加速，与现有 token 压缩方法正交且可组合。

背景与动机¶

当前 MLLM 架构面临性能与效率的两难：

Decoder-only 架构（如 LLaVA）：视觉 token 与文本 token 拼接后统一经过 LLM 的自注意力和 FFN 层处理，性能好但效率低
Cross-attention 架构（如 Flamingo）：视觉 token 不经过 LLM 主体的自注意力和 FFN，效率高但性能较差

关键观察：在 decoder-only 架构中，视觉 token 数量通常远超文本 token（占比超过 90%），因此视觉 token 的自注意力和 FFN 操作消耗了绝大部分计算资源。那么一个自然的问题是：是否每一层都需要对视觉 token 进行完整的自注意力和 FFN 计算？

直接训练新架构验证成本太高，因此作者提出免训练的分析框架，通过逐步减少计算量来揭示冗余模式。

方法详解¶

1. Probe-Activated Dynamic FFN（探针激活动态FFN）¶

受 MoE 启发，仅激活 FFN 中的部分参数来处理视觉 token，但无需训练 router。核心思想是利用少量采样 token 作为"探针"来决定激活哪些参数。

给定视觉输入 $X \in \mathbb{R}^{N \times d_{\text{model}}}$，标准 FFN 操作为：

\[H = \text{ReLU}(XW_1 + \mathbf{b_1}) \in \mathbb{R}^{N \times d_{\text{ff}}}\]

\[Y = HW_2 + \mathbf{b_2} \in \mathbb{R}^{N \times d_{\text{model}}}\]

Probe-Activated Dynamic FFN 的步骤：

采样探针：从 $N$ 个视觉 token 中随机采样 $M$ 个（$M \ll N$），计算采样 token 的隐藏表示： $$H^{\text{sample}} = \text{ReLU}(X^{\text{sample}} W_1 + \mathbf{b_1})$$
计算激活重要性：对采样 token 的隐藏表示取绝对值后求均值，得到每个 FFN 维度的重要性分数： $$\bar{\mathbf{h}} = \frac{1}{M} \sum_{i=1}^{M} |H_i^{\text{sample}}| \in \mathbb{R}^{d_{\text{ff}}}$$
选择 Top-K 维度：选出重要性最高的 $K$ 个维度 $S = \text{Top}_K(\bar{\mathbf{h}})$，仅激活对应的权重子集： $$W_1^{\text{act}} = W_1[:, S] \in \mathbb{R}^{d_{\text{model}} \times K}, \quad W_2^{\text{act}} = W_2[S, :] \in \mathbb{R}^{K \times d_{\text{model}}}$$
前向传播：用激活的子集参数计算所有视觉 token 的输出： $$H^{\text{act}} = \text{ReLU}(XW_1^{\text{act}} + \mathbf{b_1}^{\text{act}}), \quad Y = H^{\text{act}} W_2^{\text{act}} + \mathbf{b_2}$$

此方法仅对视觉 token 使用部分 FFN 参数（默认 $K = 20\%$），文本 token 仍使用完整 FFN。

2. Hollow Attention（空心注意力）¶

自定义的稀疏注意力模式，核心改动：

视觉 token 之间的全局注意力 → 局部注意力（每个视觉 token 只关注前 $R_A$ 个视觉 token，默认 $R_A = 256$，约对应一张子图的 token 数）
视觉 token 到文本 token 的注意力 → 保持不变
文本 token 的注意力 → 保持不变（仍可关注所有 token）

由于视觉 token 远多于文本 token，这有效消除了大部分注意力计算开销。

3. 层排序算法（Layer Ranking Algorithm）¶

贪心搜索策略，确定哪些层的冗余度最高，优先对其施加计算缩减：

构建紧凑验证集（从多个数据集采样约 2350 个实例）
贪心迭代：每轮从未排序层中选出使模型性能影响最小的层加入已排序列表
采用混合策略：最后 $L_p$ 层按位置降序预分配（后层冗余度更高），其余层用搜索算法排序
惩罚系数 $\alpha = 2$：若减计算后性能下降，惩罚加倍，鼓励选择不影响性能的层

实验结果¶

实验设置¶

模型：InternVL2-8B（32层）、Qwen2-VL-7B（28层）、MiniCPM-V 2.6（28层）、LLaVA-OneVision-7B（28层）
8 个基准测试：OCRBench、DocVQA、InfoVQA、ChartQA、TextVQA、MME、MMStar、HallusionBench
硬件：NVIDIA A100 GPU
对比方法：FastV（token剪枝）、VTW（token加权）

表1：免训练加速方法对比（InternVL2-8B）¶

方法	FLOPs比	OCRBench	DocVQA	ChartQA	MME	MMStar
原始模型	100%	793	91.6	83.2	2210	61.3
FastV (R=30%)	72%	793	90.6	82.9	2181	60.7
Ours	72%	801	91.3	83.1	2212	61.7
FastV (R=50%)	53%	768	85.4	80.6	2195	59.3
Ours + FastV	52%	797	90.3	83.0	2192	60.9

表2：免训练加速方法对比（Qwen2-VL-7B）¶

方法	FLOPs比	OCRBench	DocVQA	ChartQA	TextVQA	MME
原始模型	100%	865	94.5	83.2	84.3	2322
FastV (R=30%)	72%	829	94.4	82.6	84.0	2306
Ours	71%	859	94.5	83.0	84.6	2309
FastV (R=50%)	53%	766	93.4	79.4	83.6	2309
Ours + FastV	53%	832	94.3	81.8	84.2	2310

关键发现¶

大量冗余：对约一半的层施加视觉 token 计算缩减后，模型性能基本不变甚至提高
仅限视觉 token：对文本 token 施加同样缩减会导致性能骤降，说明冗余是视觉 token 独有的
结构化聚簇：冗余层倾向于集中在模型后半部分（尤其是最后几层）
FFN 比 Attention 敏感：当缩减层数超过一半时，FFN 缩减导致的性能下降比注意力缩减更大
正交互补：与 token 压缩方法（FastV）组合后，50% FLOPs 下性能远优于单独使用 FastV

消融实验¶

FFN 激活参数比例：激活比例越高，可缩减的层数越多；20% 是效率与效果的良好平衡点
注意力范围 $R_A$：$R_A = 256$ 时在多数基准上效果最优
层排序策略：混合策略（位置+搜索）优于纯位置或纯搜索策略

亮点¶

🔍 揭示了一个重要的架构洞察：decoder-only MLLM 中视觉 token 的处理存在大规模结构化冗余，这为未来架构设计提供了有价值的参考
🔧 免训练：无需重新训练即可实现约 30% FLOPs 减少，实用性强
➕ 正交性：与 token 压缩方法正交，可组合使用实现更大加速（约 50% FLOPs 减少）
📊 全面验证：在 4 个 SOTA 模型、8 个基准上验证，结论一致性强

局限性¶

层排序搜索成本：需要构建验证集并进行数百次评估，计算开销不可忽略
贪心搜索非最优：受限于验证集规模和搜索策略，可能无法找到最优的层组合
冗余原因未深入探究：仅验证了冗余的存在，未从理论层面解释为何特定层对视觉 token 冗余
实际加速未充分验证：主要报告 FLOPs 减少，未详细报告实际推理延迟的改善

评分¶

⭐⭐⭐⭐ (4/5)

创新性: ⭐⭐⭐⭐ — 从"每 token 计算量缩减"角度切入，与主流 token 压缩方法互补，视角新颖
实验充分度: ⭐⭐⭐⭐⭐ — 4 个 SOTA 模型、8 个基准，消融全面
写作清晰度: ⭐⭐⭐⭐ — 统一视角对比两种架构的分析清晰
实用价值: ⭐⭐⭐⭐ — 免训练、可组合，但层排序搜索有额外成本
影响力: ⭐⭐⭐⭐ — 揭示的冗余模式对未来 MLLM 架构设计有指导意义