VisionPulse:多模态推理中的动态视觉稀疏化¶
会议: ICML 2026
arXiv: 2605.31457
代码: 待确认
领域: 多模态 VLM
关键词: 视觉令牌剪枝, 推理效率, 动态预算分配, 多模态推理
一句话总结¶
VisionPulse 提出训练无关的步级视觉令牌动态剪枝框架——根据每个解码步骤中变化的视觉依赖性自适应调整保留令牌数,仅保留 5% 视觉令牌的同时维持推理精度,将推理长度缩短 11.2%。
研究背景与动机¶
领域现状:大型多模态模型在多步推理任务中表现出色但推理时延成为关键瓶颈。现有视觉令牌压缩方法主要在预填充阶段进行单次剪枝。
现有痛点:这种"静态剪枝"假设选择的视觉令牌在整个推理过程中保持相关性不变。预填充阶段模型对视觉的注意力很低,此时选择的固定子集可能丢弃后续推理步骤中变得关键的令牌,同时在文本主导步骤中仍保留冗余视觉上下文。
核心矛盾:视觉证据需求在推理过程中高度依赖于当前推理状态而非保持恒定。某些步骤需广泛视觉证据,其他步骤主要由语言推理驱动。
本文目标:设计步级动态视觉令牌剪枝框架,能在每个解码步骤根据当前视觉依赖性调整保留的令牌集合。
切入角度:通过实证分析发现模型在每个解码步骤的视觉注意力质量与有效激活的视觉令牌数量之间存在强正相关关系。这一轻量级信号可用于预测每一步的最优预算。
核心 idea:将视觉令牌剪枝从"预填充一次性决策"改为"逐步动态选择",利用视觉注意力质量计算每一步令牌保留预算。
方法详解¶
整体框架¶
训练无关框架,在解码阶段对每个生成步骤进行自适应视觉令牌选择。在每个解码步骤 \(t\) 计算视觉注意力质量 \(M_{\mathrm{vis}}^{t}\),将其转化为令牌保留预算 \(K_t\),根据当前查询令牌与视觉令牌注意力分数选 top-\(K_t\) 最关键令牌。
关键设计¶
-
步级动态视觉令牌剪枝:
- 功能:在每个解码步骤而非仅在预填充阶段进行视觉令牌选择。
- 核心思路:对视觉令牌集合 \(X_v = \{v_1, ..., v_N\}\) 在第 \(t\) 步计算重要性 \(S_i^t = \frac{1}{H}\sum_{h=1}^{H}A_{t,h}^{(l_a)}(q_t, v_i)\)。从 \(N\) 个令牌中选具有最高分数的前 \(K_t\) 个:\(X_v^t = \{v_i \mid i \in \text{Top-}K_t(\{S_i^t\}_{i=1}^N)\}\)。关键区别是 \(K_t\) 不是固定值。
- 设计动机:不同推理步骤对视觉信息需求差异巨大;静态剪枝忽视这种差异,步级剪枝精确追踪"何时需要多少视觉令牌"细粒度需求。
-
视觉注意力质量引导的动态预算分配:
- 功能:根据每一步视觉依赖程度自动计算令牌保留预算。
- 核心思路:视觉注意力质量 \(M_{\mathrm{vis}}^{t} = \frac{1}{H}\sum_{h=1}^{H}m_{t,h}^{\mathrm{vis}}\),其中 \(m_{t,h}^{\mathrm{vis}} = \sum_{i=1}^{N_v}A_{t,h}^{(l_a)}(q_t, v_i)\)。实证 \(M_{\mathrm{vis}}^{t}\) 与激活令牌数 0.82-0.95 强正相关。直接将 \(M_{\mathrm{vis}}^{t}\) 转化为预算 \(K_t = M_{\mathrm{vis,max}}^t \cdot N_v\)。温度缩放 \(\tau < 1\) 控制剪枝激进程度。
- 设计动机:使用注意力质量轻量级信号避免复杂令牌重要性预测器;动态预算自适应在高需求步骤保留更多令牌,低需求步骤激进剪枝。
-
推理计算成本分析与耦合瓶颈识别:
- 功能:量化多模态推理中视觉冗余的双重成本。
- 核心思路:总 FLOPs \(\mathcal{F}_{\text{total}} \approx L \cdot [(p+v)(8d^2+4md)+4d(p+v)^2]_{\text{prefill}} + L \cdot \sum_{t=1}^{g}[(8d^2+4md)+4d(p+v+t)]_{\text{decoding}}\)。解码阶段成本与生成长度 \(g\) 和初始上下文 \((p+v)\) 均呈二次复杂度,\(v \gg p\) 多模态场景中视觉令牌主导。
- 设计动机:保留完整视觉上下文不仅增加计算还诱导模型在每步受到与查询无关视觉线索影响,导致生成不必要推理步骤甚至错误推理路径。
实验关键数据¶
主实验¶
| 方法 | 视觉令牌保留比 | CharXiv 生成长 ↓ | 精度 ↑ | InfoVQA 生成长 ↓ | 精度 ↑ | ChartQA 生成长 ↓ | 精度 ↑ | 平均长度变化 | 平均精度 |
|---|---|---|---|---|---|---|---|---|---|
| 基准(全令牌) | 100% | 4068.0 | 47.60% | 623.1 | 84.37% | 510.0 | 77.12% | - | - |
| VisionZip | ≤10% | 4986.2 | 13.90% | 2533.3 | 22.66% | 2039.7 | 30.24% | +54.2% | -39.7% |
| FastV | ≤10% | 5960.1 | 12.70% | 2963.6 | 20.63% | 1485.5 | 16.28% | +63.2% | -47.6% |
| LOOK-M | ≤10% | 5555.2 | 19.80% | 2694.1 | 40.94% | 2007.1 | 57.68% | +54.2% | -24.5% |
| VisionPulse | ≤10% | 3770.7 | 47.30% | 530.7 | 83.62% | 422.9 | 76.72% | -12.3% | -0.6% |
| VisionPulse | ≤5% | 3645.1 | 45.20% | 665.0 | 81.90% | 510.0 | 75.16% | -11.2% | -1.8% |
消融¶
| 配置 | 平均视觉保留比 | RealWorld QA 精度 | MMVet 精度 | MIA-Bench 精度 | 平均生成长度缩减 | 平均精度变化 |
|---|---|---|---|---|---|---|
| 完整模型 | 100% | 72.81% | 60.96% | 93.44% | - | - |
| FastV 静态 | 5.0% | 54.12% | 24.27% | 75.03% | +22.2% | -32.5% |
| VisionPulse 固定 1% | ~1% | 71.90% | 49.17% | 92.03% | +27.9% | -6.2% |
| VisionPulse 固定 5% | 5.0% | 72.81% | 59.45% | 93.22% | -7.6% | -0.8% |
| VisionPulse 随机预算 | 3.0% | 69.28% | 58.02% | 91.49% | +0.2% | -3.7% |
| VisionPulse 动态预算 | 1.9% | 72.54% | 59.00% | 95.09% | -16.6% | -0.3% |
关键发现¶
- 在 ≤5% 视觉令牌保留极端剪枝设定下,VisionPulse 几乎完全保留原始性能(精度仅下降 0.3-1.8%),而现有静态剪枝方法精度下降达 24.5%-50.9%。
- VisionPulse 基于每一步实际需求移除真正无关视觉信息,使推理长度平均缩短 11.2%-12.3%。
- 不正确剪枝策略出现矛盾现象:既减少精度又增加推理成本(LOOK-M 5% 保留下生成长度增加 108% 精度仍下降 38.6%)。
- 动态预算在平均 1.9% 保留率下保持精度只下降 0.3%。
亮点与洞察¶
- 关键洞察的实证支撑:图 1 可视化展示视觉注意力质量动态变化,从经验现象出发推导方法设计。
- 计算优雅的预算分配机制:用视觉注意力质量这一轻量级信号预测每步令牌保留数,避免复杂学习器。
- 耦合瓶颈的发现与解决:揭示冗余视觉信息不仅增加计算还能诱导错误推理。
- 方法的通用性与可迁移性:建立在 FastV 重要性计算之上但原理上可适配任何其他令牌评分方案。
局限与展望¶
- 仅在推理时生效,无法通过联合学习进一步优化。
- 温度参数手工调整。
- 计算成本分析的简化(假设均匀层间复杂度分布)。
- 主要测试 CoT 推理任务,其他多模态任务效果需验证。
- 改进:多层级剪枝;自适应温度调度器;融入多模态指令微调阶段。
相关工作与启发¶
- vs VisionZip:单次剪枝;本文中间层逐步剪枝捕捉变化需求。
- vs FastV:单次决策升级为多步自适应;精度保留从 60%-70% 提升到 98%+。
- vs LOOK-M:本文在更细粒度(每个生成步骤)和更动态维度上超越。
- 启发:"步级多模态需求"观点可推广到文本令牌动态选择或联合多模态预算分配。
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 从"固定剪枝"到"步级动态剪枝"是根本性观念转变。
- 实验充分度: ⭐⭐⭐⭐⭐ 7 基准 + 7 对比方法 + 充分消融 + 跨 LMM 骨干验证。
- 写作质量: ⭐⭐⭐⭐⭐ 逻辑链条清晰,关键发现用对比鲜明的表格呈现。
- 价值: ⭐⭐⭐⭐⭐ 直接降低推理成本、提升推理可靠性,训练无关易于部署。