From Inheritance to Saturation: Disentangling the Evolution of Visual Redundancy for Architecture-Aware MLLM Inference Acceleration¶
会议: ACL 2026
arXiv: 2604.16462
代码: https://github.com/civilizwa/HalfV
领域: 多模态VLM / 推理加速
关键词: 视觉冗余, MLLM加速, 架构感知, token剪枝, 矩阵熵
一句话总结¶
揭示 MLLM 推理中视觉冗余的两种来源——ViT 密集 tokenization 导致的固有冗余(IVR)和深层语义饱和导致的次生冗余(SSR,且其表现形式因骨干架构不同而异),提出 HalfV 框架分别处理两类冗余,在 Qwen2.5-VL 上实现4.1倍 FLOPs 加速且保留96.8%性能。
研究背景与动机¶
领域现状:高分辨率 MLLM 因视觉 token 爆炸导致推理计算成本极高。现有加速方法包括 token 级剪枝和层级稀疏。
现有痛点:现有加速策略存在严重的"骨干依赖性"——在 Vicuna/Mistral 架构(如 LLaVA)上表现良好,但迁移到 Qwen 架构时性能退化5.7%-22.4%。通过控制变量实验(使用相同视觉前端的 LLaVA-Next),证实瓶颈在于不同 LLM 骨干处理视觉信息的内在机制不同。
核心矛盾:不同骨干架构对视觉信息的处理方式根本不同,但现有方法假设"一种策略适用于所有架构"。需要理解不同架构中视觉冗余的本质差异,才能设计通用的加速方案。
本文目标:用截断矩阵熵作为探针,系统追踪视觉信息在不同架构中的演变,据此设计架构感知的加速框架。
切入角度:利用截断矩阵熵追踪视觉表示的特征值谱演变,发现了跨架构通用的三阶段推理生命周期(模态对齐→全局聚合→视觉饱和)。
核心 idea:将视觉冗余解耦为通用的 IVR(来自 ViT 密集 tokenization)和架构依赖的 SSR(来自深层饱和),前者用统一剪枝策略处理,后者根据架构特异性表现自适应处理(Vicuna/Mistral 的层级不活跃 vs Qwen 的极端 token 稀疏)。
方法详解¶
整体框架¶
HalfV 分两步:(1)在 Stage II 起始处对所有架构统一执行一次性 token 剪枝,消除 IVR;(2)在 Stage III 根据架构特异性处理 SSR——对 Vicuna/Mistral 架构复用 KV 缓存跳过层计算,对 Qwen 架构只保留 top-5% 主导 token 参与计算。
关键设计¶
-
三阶段推理生命周期的发现:
- 功能:提供跨架构通用的视觉信息处理模型
- 核心思路:用截断矩阵熵追踪视觉和文本表示在各层的演变。Stage I(模态对齐)——视觉熵高且稳定,文本熵快速压缩,注意力从均衡转为文本主导。Stage II(全局聚合)——视觉熵开始下降,分散的视觉证据被聚合到关键语义区域,对局部扰动高度敏感(仅1% token 被抑制就导致严重退化)。Stage III(视觉饱和)——视觉上下文饱和,额外计算边际收益递减
- 设计动机:需要一个统一的理论框架来解释为什么不同架构对相同的加速策略反应不同
-
固有视觉冗余(IVR)的统一处理:
- 功能:在 Stage II 起始的最优时机消除 ViT 产生的空间冗余
- 核心思路:通过边际效用 \(\text{MU}_{l,r} = -\Delta\mathcal{M} / (\Delta\mathcal{C} + \epsilon)\) 分析发现,Stage II 的起始层是一次性剪枝的最佳位置(MU=0.21 vs 其他位置的0.29-0.87)。在此处剪枝既避免了 Stage I 的对齐干扰,又利用了 Stage II 之前高冗余的视觉表示
- 设计动机:Stage II 对局部扰动极其敏感,不能在聚合过程中逐层剪枝,但可以在其开始前一次性剪枝
-
次生饱和冗余(SSR)的架构感知处理:
- 功能:根据架构特异性表现选择最优加速策略
- 核心思路:Vicuna/Mistral 的 SSR 表现为层级不活跃(KL 散度 \(\approx 0\),整层无信息增益),可直接复用 KV 缓存跳过计算。Qwen 的 SSR 表现为极端 token 稀疏(层仍活跃但信息流塌缩到极少数主导 token),需保留 top-5% token 的全精度计算。实验验证:Vicuna 上抑制全部视觉更新效果好(OCRBench +13.1%),但 Qwen 上灾难性失败(-86.2%);反过来 Qwen 上保留5% token 几乎无损(-0.1%~-2.4%),证实了两种架构的 SSR 本质不同
- 设计动机:一刀切的加速策略在不同架构上必然失败,必须根据 SSR 的具体表现形式选择对应策略
损失函数 / 训练策略¶
HalfV 是无训练的推理时加速方法。仅需在小量数据(100样本)上运行预分析确定三阶段边界。在 LLaVA-1.5v-7B(Vicuna)、LLaVA-1.5v-7B(Mistral)和 Qwen2.5-VL-7B 上评估,基准包括 GQA、MME、POPE、SQA、AI2D 等。
实验关键数据¶
主实验¶
| 模型 | 方法 | FLOPs 加速 | 平均性能保留 |
|---|---|---|---|
| Qwen2.5-VL | HoloV (现有方法) | 高 | 差 (退化5.7-22.4%) |
| Qwen2.5-VL | HalfV | 4.1× | 96.8% |
| LLaVA-1.5v (Vicuna) | HalfV | 高 | 优秀 |
| LLaVA-1.5v (Mistral) | HalfV | 高 | 优秀 |
消融实验¶
| 配置 | 效果 | 说明 |
|---|---|---|
| 仅 IVR 处理 | 中等加速 | 通用剪枝有效但不充分 |
| 仅 SSR 处理 | 有限加速 | 只处理深层冗余 |
| IVR + SSR (完整 HalfV) | 最优 | 两阶段互补 |
| 错误的 SSR 策略 | 灾难性退化 | 验证架构感知的必要性 |
关键发现¶
- 现有方法在 Qwen 上退化的根因是 SSR 的表现形式不同——Qwen 的深层仍活跃但极度稀疏,不能简单跳过层
- Stage II 的起始层是一次性剪枝的最优时机(边际效用最低)
- 仅1% token 被抑制就导致 Stage II 性能崩溃,证实了全局聚合过程的高度耦合
- 三阶段生命周期在所有测试架构上都一致,但 SSR 的表现架构依赖
亮点与洞察¶
- "骨干依赖性"问题的系统揭示和解释:首次证实 MLLM 加速方法失败的根因是骨干架构差异而非视觉前端差异,并通过矩阵熵分析给出了机理解释
- IVR/SSR 解耦的框架优雅:将复杂的视觉冗余分解为两个独立可处理的组件,且给出了各自的最优处理策略
- 边际效用分析定位最优剪枝时机:定量而非启发式地确定剪枝层,具有方法论价值
局限与展望¶
- 预分析阶段需要100个样本确定阶段边界,不同数据分布可能影响边界位置
- 仅在 Vicuna、Mistral、Qwen 三类骨干上验证,更多架构的 SSR 表现未知
- 极端 token 稀疏策略中 top-5% 的比例可能需要针对不同任务调整
- 未与最新的动态 token 管理方法进行比较
相关工作与启发¶
- vs HoloV/DART(token剪枝方法): 这些方法隐含假设所有架构的冗余模式相同,在 Qwen 上严重退化。HalfV 通过架构感知的 SSR 处理解决了这一问题
- vs ShortV(层级方法): ShortV 假设深层可跳过,对 Vicuna 成立但对 Qwen 不成立。HalfV 区分了"层不活跃"和"token 稀疏"两种 SSR 模式
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ IVR/SSR 解耦和架构感知的分析是原创性贡献,三阶段生命周期的发现有独立价值
- 实验充分度: ⭐⭐⭐⭐⭐ 三种架构+8个基准+边际效用分析+SSR 交叉验证,非常充分
- 写作质量: ⭐⭐⭐⭐ 分析深入、图表丰富,但部分描述较技术化
代码: 待确认
领域: multimodal_vlm
关键词: 待补充
一句话总结¶
待深读论文后补充
研究背景与动机¶
待深读论文后补充
方法详解¶
待深读论文后补充
实验关键数据¶
待深读论文后补充
亮点与洞察¶
待深读论文后补充
局限性 / 可改进方向¶
待深读论文后补充
相关工作与启发¶
待深读论文后补充
评分¶
- 新颖性: 待评
- 实验充分度: 待评
- 写作质量: 待评
- 价值: 待评