跳转至

⚡ VLM Efficiency

🧪 ICML2025 · 3 篇论文解读

📌 同领域跨会议浏览: 📷 CVPR2026 (63) · 🧪 ICML2026 (4) · 💬 ACL2026 (6) · 🔬 ICLR2026 (8) · 🤖 AAAI2026 (5) · 🧠 NeurIPS2025 (8)

🔥 高频主题: 多模态 ×2

CoreMatching: A Co-adaptive Sparse Inference Framework with Token and Neuron Pruning for Comprehensive Acceleration of Vision-Language Models

首次揭示 VLM 中 token 稀疏与神经元稀疏之间的内在关联——核心神经元与核心 token 相互决定、相互强化,并据此提出 CoreMatching 协同稀疏推理框架,在 pre-filling 和 decoding 两阶段同时实现加速,达到 5× FLOPs 降低和 10× 整体加速。

MMInference: Accelerating Pre-filling for Long-Context VLMs via Modality-Aware Permutation Sparse Attention

本文提出 MMInference,通过“模态感知的置换稀疏注意力 + 头级离线模式搜索 + 在线动态索引 + 定制 GPU Kernel”,在不改模型不微调的前提下,将长上下文 VLM 的 prefill 阶段在 1M token 场景最高加速到 8.3x,同时尽量保持任务精度。

SparseVLM: Visual Token Sparsification for Efficient Vision-Language Model Inference

SparseVLM 提出了首个文本引导的免训练视觉 token 稀疏化框架,通过选择与视觉相关的文本 token 作为"评分者"来评估视觉 token 的重要性,结合自适应剪枝比率和 token 回收机制,在 LLaVA 上仅保留 192 个 token(减少 66.7%)时维持 99.1% 的原始性能。