跳转至

⚡ VLM Efficiency

🤖 AAAI2026 · 5 篇论文解读

📌 同领域跨会议浏览: 📷 CVPR2026 (63) · 🧪 ICML2026 (4) · 💬 ACL2026 (6) · 🔬 ICLR2026 (8) · 🧠 NeurIPS2025 (8) · 📹 ICCV2025 (11)

🔥 高频主题: 多模态 ×3 · 压缩/编码 ×2

EM-KD: Distilling Efficient Multimodal Large Language Model with Unbalanced Vision Tokens

提出EM-KD框架,通过Hungarian算法解决teacher-student间视觉token数量不平衡问题,结合视觉语义蒸馏(VSD)和视觉-语言亲和力蒸馏(VLAD)将vanilla teacher的知识迁移到高效student MLLM,在11个benchmark上以144 token/patch达到50.4均分,超越576 token的LLaVA-NeXT(49.4)同时推理速度提升近2倍。

Filter, Correlate, Compress: Training-Free Token Reduction for MLLM Acceleration

提出FiCoCo三阶段框架(Filter-Correlate-Compress),通过集成视觉感知+语义感知冗余度量筛选丢弃token,利用token间相关性自适应回收信息,实现training-free的MLLM加速。在LLaVA-NeXT上达14.7×FLOPs压缩同时保留93.6%性能,在5种MLLM架构上全面超越FastV、SparseVLM等SOTA。

Global Compression Commander: Plug-and-Play Inference Acceleration for High-Resolution Large Vision-Language Models

提出GlobalCom²,一个即插即用、无需训练的token压缩框架,专为动态裁剪(dynamic cropping)结构的高分辨率VLM设计:利用全局缩略图(thumbnail)作为"指挥官"引导局部裁剪区域(crop)的差异化压缩,在压缩90%视觉token的同时保持>90%原始性能。

Rethinking Visual Token Reduction in LVLMs under Cross-Modal Misalignment

揭示了 LVLM 中文本引导视觉token重要性评估的三种跨模态失配问题(因果、语义、空间),提出 VisionDrop——一个仅依赖视觉自注意力的免训练渐进式token剪枝框架,跨视觉编码器和 LLM 解码器多阶段压缩,在保留 5.6% token 时仍能维持 91%+ 原始性能。

TinyChemVL: Advancing Chemical Vision-Language Models via Efficient Visual Token Reduction and Complex Reaction Tasks

TinyChemVL 是一个仅4B参数的化学领域VLM,通过自适应token合并与剪枝策略将视觉token压缩至原来的1/16,并引入反应级别任务和基准ChemRxn-V,在分子和反应级别的视觉化学任务上达到SOTA性能,同时显著提升推理和训练速度。