⚡ VLM Efficiency¶
📹 ICCV2025 · 11 篇论文解读
📌 同领域跨会议浏览: 📷 CVPR2026 (63) · 🧪 ICML2026 (4) · 💬 ACL2026 (6) · 🔬 ICLR2026 (8) · 🤖 AAAI2026 (5) · 🧠 NeurIPS2025 (8)
🔥 高频主题: 多模态 ×10 · 压缩/编码 ×3 · 模型压缩 ×2 · LLM ×2
- AirCache: Activating Inter-Modal Relevancy KV Cache Compression for Efficient Large Vision-Language Model Inference
-
提出 AirCache,一种面向 LVLM 的 KV Cache 压缩方法,通过精英观察窗口(Elite Observation Window)评估视觉 token 重要性,结合基于重要性分数分布强度与偏度的自适应层级预算分配,在仅保留 10% 视觉 KV Cache 时性能损失不超过 1%,解码延迟降低 29%-66%。
- AirCache: Activating Inter-modal Relevancy KV Cache Compression for Efficient Large Vision-Language Model Inference
-
提出AirCache,通过精英观测窗口(利用文本自注意力筛选关键文本token评估视觉token重要性)和自适应层间预算分配(基于重要性分数分布的强度和偏度),实现仅保留10%视觉KV缓存即可保持模型性能,解码延迟降低29%-66%。
- Dynamic-VLM: Simple Dynamic Visual Token Compression for VideoLLM
-
提出 Dynamic-VLM,通过动态视觉Token压缩器根据视频长度灵活调整每帧Token数量,配合200万级高质量合成视频QA数据集,在 VideoMME 上比 LLaVA-OneVision 提升 2.7%,在 MuirBench 上提升 10.7%。
- Feather the Throttle: Revisiting Visual Token Pruning for Vision-Language Model Acceleration
-
揭示了 VLM 中早期视觉 token 剪枝存在系统性位置偏差(RoPE 导致倾向保留图像底部 token),并提出 FEATHER 方法通过去除 RoPE + 均匀采样 + 多阶段剪枝解决该问题,在定位任务上实现 5× 以上性能提升。
- FOLDER: Accelerating Multi-modal Large Language Models with Enhanced Performance
-
提出 FOLDER——一种即插即用的视觉 token 压缩模块,通过系统分析信息损失的三个关键因素(压缩影响、传播效应、聚合方式),在视觉编码器的最后几层进行激进的 token 合并,实现最多 70% 的 token 削减,同时保持甚至提升模型性能。
- Growing a Twig to Accelerate Large Vision-Language Models
-
提出 TwigVLM,通过在 VLM 早期层上"生长"一个轻量级 twig 模块,同时实现 twig 引导的视觉 token 剪枝(TTP,prefilling 加速)和自推测解码(SSD,decoding 加速),在 LLaVA-1.5-7B 上剪枝 88.9% 视觉 token 后保留 96% 精度,长回答生成速度提升 154%,在精度和速度上均大幅超越现有方法。
- LLaVA-PruMerge: Adaptive Token Reduction for Efficient Large Multimodal Models
-
利用视觉编码器中CLS token与空间token之间注意力分数的稀疏性,自适应地剪枝和合并视觉token,在仅保留5.5%视觉token的情况下维持LMM的可比性能。
- MaTVLM: Hybrid Mamba-Transformer for Efficient Vision-Language Modeling
-
提出MaTVLM,将预训练VLM中部分Transformer层替换为Mamba-2层并通过单阶段知识蒸馏训练,在保持竞争性性能的同时实现3.6倍推理加速和27.5%显存降低。
- METEOR: Multi-Encoder Collaborative Token Pruning for Efficient Vision Language Models
-
METEOR 提出首个面向多编码器 MLLM 的三阶段渐进式 token 剪枝框架:在编码阶段用特征秩分配各编码器的稀疏比例,在融合阶段通过协同剪枝消除跨编码器冗余,在解码阶段根据文本提示自适应调整剪枝比例,将视觉 token 减少 76% 而性能仅降 0.3%。
- ShortV: Efficient Multimodal Large Language Models by Freezing Visual Tokens in Ineffective Layers
-
发现 MLLM 中存在显著的层级冗余——多数层对视觉 token 的变换贡献极小,据此提出 ShortV:在约 60% 的层中冻结视觉 token(跳过其注意力和 FFN 计算),在 LLaVA-NeXT-13B 上实现 50% FLOPs 减少,性能几乎无损。方法免训练,且与 token 剪枝方法正交可叠加。
- SparseVILA: Decoupling Visual Sparsity for Efficient VLM Inference
-
提出SparseVILA——首个解耦prefill和decode阶段视觉稀疏性的VLM推理加速框架:prefill阶段进行query-agnostic的冗余token剪枝,decode阶段进行query-aware的相关token检索,实现最高4.0×prefill加速、2.5×decode吞吐提升、2.6×端到端加速,同时在多轮对话场景中保持精度(现有方法因永久删除token而在多轮中急剧退化)。