From Inheritance to Saturation: Disentangling the Evolution of Visual Redundancy for Architecture-Aware MLLM Inference Acceleration¶

会议: ACL 2026
arXiv: 2604.16462
代码: https://github.com/civilizwa/HalfV
领域: 多模态VLM / 推理加速
关键词: 视觉冗余, MLLM加速, 架构感知, token剪枝, 矩阵熵

一句话总结¶

揭示 MLLM 推理中视觉冗余的两种来源——ViT 密集 tokenization 导致的固有冗余（IVR）和深层语义饱和导致的次生冗余（SSR，且其表现形式因骨干架构不同而异），提出 HalfV 框架分别处理两类冗余，在 Qwen2.5-VL 上实现4.1倍 FLOPs 加速且保留96.8%性能。

研究背景与动机¶

领域现状：高分辨率 MLLM 因视觉 token 爆炸导致推理计算成本极高。现有加速方法包括 token 级剪枝和层级稀疏。

现有痛点：现有加速策略存在严重的"骨干依赖性"——在 Vicuna/Mistral 架构（如 LLaVA）上表现良好，但迁移到 Qwen 架构时性能退化5.7%-22.4%。通过控制变量实验（使用相同视觉前端的 LLaVA-Next），证实瓶颈在于不同 LLM 骨干处理视觉信息的内在机制不同。

核心矛盾：不同骨干架构对视觉信息的处理方式根本不同，但现有方法假设"一种策略适用于所有架构"。需要理解不同架构中视觉冗余的本质差异，才能设计通用的加速方案。

本文目标：用截断矩阵熵作为探针，系统追踪视觉信息在不同架构中的演变，据此设计架构感知的加速框架。

切入角度：利用截断矩阵熵追踪视觉表示的特征值谱演变，发现了跨架构通用的三阶段推理生命周期（模态对齐→全局聚合→视觉饱和）。

核心 idea：将视觉冗余解耦为通用的 IVR（来自 ViT 密集 tokenization）和架构依赖的 SSR（来自深层饱和），前者用统一剪枝策略处理，后者根据架构特异性表现自适应处理（Vicuna/Mistral 的层级不活跃 vs Qwen 的极端 token 稀疏）。

方法详解¶

整体框架¶

HalfV 分两步：（1）在 Stage II 起始处对所有架构统一执行一次性 token 剪枝，消除 IVR；（2）在 Stage III 根据架构特异性处理 SSR——对 Vicuna/Mistral 架构复用 KV 缓存跳过层计算，对 Qwen 架构只保留 top-5% 主导 token 参与计算。这一切的前提，是先用截断矩阵熵这把"尺子"把推理过程切成三阶段、读出 IVR 与 SSR 各自该在哪一段下手。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400, 'subGraphTitleMargin': {'top': 8, 'bottom': 16}}}}%%
flowchart TD
    A["视觉 token + 文本 token 输入"] --> LIFE
    subgraph LIFE["三阶段推理生命周期（截断矩阵熵探针定位三段）"]
        direction TB
        B["Stage I 模态对齐<br/>视觉熵高而稳、文本熵被压缩"]
        C["Stage II 全局聚合<br/>视觉证据聚合，对扰动极敏感"]
        D["Stage III 视觉饱和<br/>上下文饱和，边际收益递减"]
        B --> C --> D
    end
    LIFE --> IVR["固有视觉冗余 IVR<br/>Stage II 起点边际效用最低，一次性剪枝"]
    IVR --> SSR{"次生饱和冗余 SSR<br/>Stage III 按骨干饱和形式分流"}
    SSR -->|"Vicuna/Mistral：整层不活跃"| E["复用 KV 缓存跳过层计算"]
    SSR -->|"Qwen：token 极端稀疏"| F["保留 top-5% 主导 token"]
    E --> G["加速推理输出"]
    F --> G

关键设计¶

1. 三阶段推理生命周期：用矩阵熵把视觉信息的演变拆成可对齐的三段

要解释"为什么同一套加速策略换个骨干就崩"，先得有一把跨架构通用的尺子。作者用截断矩阵熵分别追踪视觉与文本表示在各层的特征值谱演变，发现无论 Vicuna、Mistral 还是 Qwen，都会经历同样的三段。Stage I（模态对齐）视觉熵高而稳定、文本熵被快速压缩，注意力从均衡迅速转为文本主导；Stage II（全局聚合）视觉熵开始下降，分散的视觉证据被聚合到关键语义区域，此时整段对局部扰动极度敏感——只抑制 1% 的 token 就能引发严重退化；Stage III（视觉饱和）视觉上下文已经饱和，再算下去边际收益递减。

这把尺子的价值在于，它把"冗余"从一个笼统的词拆成了有时间轴的过程，让后面两个设计能各自挑准下手的层：IVR 该在哪一层一次性剪掉，SSR 又在哪一段才真正出现，都能从熵曲线上读出来。

2. 固有视觉冗余（IVR）：在 Stage II 起点一次性剪枝，避开聚合的敏感区

ViT 的密集 tokenization 天生带来大量空间冗余，这部分冗余跟骨干无关、所有架构都有，所以可以用同一招处理。难点在于"何时剪"——Stage II 对局部扰动太敏感，逐层剪会破坏正在进行的证据聚合。作者用边际效用 \(\text{MU}_{l,r} = -\Delta\mathcal{M} / (\Delta\mathcal{C} + \epsilon)\) 量化"每省一点算力损失多少信息"，发现 Stage II 的起始层是唯一的甜点位（MU=0.21，明显低于其他位置的 0.29–0.87）。

之所以是这一层：它正好卡在 Stage I 的对齐已经完成、Stage II 的敏感聚合尚未开始之间，此时视觉表示冗余度最高、信息最不脆弱，一次性剪掉大批 token 既不干扰对齐、也不破坏后续聚合，是定量而非启发式地选出来的最优时机。

3. 次生饱和冗余（SSR）：按骨干的饱和表现形式分流，而不是一刀切

SSR 是深层语义饱和后产生的冗余，关键在于它的表现形式因骨干而异——这正是现有方法跨架构失效的根因。Vicuna/Mistral 的 SSR 表现为整层不活跃（相邻层 KL 散度 \(\approx 0\)，没有信息增益），于是可以直接复用 KV 缓存跳过这些层的计算；Qwen 的 SSR 则表现为极端 token 稀疏：层本身仍然活跃，但信息流塌缩到极少数主导 token 上，必须保留 top-5% token 的全精度计算、其余才能省。

实验把这两种形态的差异钉得很死：在 Vicuna 上抑制全部视觉更新反而更好（OCRBench +13.1%），同样的操作搬到 Qwen 上却灾难性崩溃（−86.2%）；反过来，Qwen 上只保留 5% token 几乎无损（−0.1%~−2.4%）。这组对照说明 SSR 不能用单一策略概括——HalfV 据此在 Stage III 给两类骨干分别派对应的加速方式，而不是假设"深层都能跳"。

损失函数 / 训练策略¶

HalfV 是无训练的推理时加速方法。仅需在小量数据（100样本）上运行预分析确定三阶段边界。在 LLaVA-1.5v-7B（Vicuna）、LLaVA-1.5v-7B（Mistral）和 Qwen2.5-VL-7B 上评估，基准包括 GQA、MME、POPE、SQA、AI2D 等。

实验关键数据¶

主实验¶

模型	方法	FLOPs 加速	平均性能保留
Qwen2.5-VL	HoloV (现有方法)	高	差 (退化5.7-22.4%)
Qwen2.5-VL	HalfV	4.1×	96.8%
LLaVA-1.5v (Vicuna)	HalfV	高	优秀
LLaVA-1.5v (Mistral)	HalfV	高	优秀

消融实验¶

配置	效果	说明
仅 IVR 处理	中等加速	通用剪枝有效但不充分
仅 SSR 处理	有限加速	只处理深层冗余
IVR + SSR (完整 HalfV)	最优	两阶段互补
错误的 SSR 策略	灾难性退化	验证架构感知的必要性

关键发现¶

现有方法在 Qwen 上退化的根因是 SSR 的表现形式不同——Qwen 的深层仍活跃但极度稀疏，不能简单跳过层
Stage II 的起始层是一次性剪枝的最优时机（边际效用最低）
仅1% token 被抑制就导致 Stage II 性能崩溃，证实了全局聚合过程的高度耦合
三阶段生命周期在所有测试架构上都一致，但 SSR 的表现架构依赖

亮点与洞察¶

"骨干依赖性"问题的系统揭示和解释：首次证实 MLLM 加速方法失败的根因是骨干架构差异而非视觉前端差异，并通过矩阵熵分析给出了机理解释
IVR/SSR 解耦的框架优雅：将复杂的视觉冗余分解为两个独立可处理的组件，且给出了各自的最优处理策略
边际效用分析定位最优剪枝时机：定量而非启发式地确定剪枝层，具有方法论价值

局限与展望¶

预分析阶段需要100个样本确定阶段边界，不同数据分布可能影响边界位置
仅在 Vicuna、Mistral、Qwen 三类骨干上验证，更多架构的 SSR 表现未知
极端 token 稀疏策略中 top-5% 的比例可能需要针对不同任务调整
未与最新的动态 token 管理方法进行比较

评分¶

新颖性: ⭐⭐⭐⭐⭐ IVR/SSR 解耦和架构感知的分析是原创性贡献，三阶段生命周期的发现有独立价值
实验充分度: ⭐⭐⭐⭐⭐ 三种架构+8个基准+边际效用分析+SSR 交叉验证，非常充分
写作质量: ⭐⭐⭐⭐ 分析深入、图表丰富，但部分描述较技术化