跳转至

⚡ VLM Efficiency

💬 ACL2025 · 8 篇论文解读

📌 同领域跨会议浏览: 📷 CVPR2026 (63) · 🧪 ICML2026 (4) · 💬 ACL2026 (6) · 🔬 ICLR2026 (8) · 🤖 AAAI2026 (5) · 🧠 NeurIPS2025 (8)

🔥 高频主题: 多模态 ×7 · 模型压缩 ×2 · LLM ×2

EffiVLM-Bench: A Comprehensive Benchmark for Evaluating Training-Free Acceleration in Large Vision-Language Models

提出 EffiVLM-Bench 统一评估框架,从性能、泛化性、忠实度和效率四个维度系统评估 LVLM 免训练加速方法(token 压缩 + 参数压缩),覆盖 3 个前沿模型和 17 个基准任务,揭示各方法在不同压缩率下的 Pareto 最优权衡。

Hierarchical Safety Realignment: Lightweight Restoration of Safety in Pruned Large Vision-Language Models

提出层次化安全重对齐方法HSR,通过先识别安全关键注意力头、再在这些头中定位并恢复被剪枝的安全关键神经元,以极低参数开销(万分之几)显著恢复被剪枝LVLM丢失的安全性能。

HotelMatch-LLM: Joint Multi-Task Training of Small and Large Language Models for Efficient Multimodal Hotel Retrieval

提出 HotelMatch-LLM,用 SLM 编码 query + LLM 编码酒店文档的非对称架构,配合三目标多任务优化(检索对齐 + MLM地理预测 + 视觉设施识别)和 patch 级 mean pooling 多图处理,在旅行领域多模态检索任务上显著超过 MARVEL/VISTA 等 SOTA。

MadaKV: Adaptive Modality-Perception KV Cache Eviction for Efficient Multimodal Long-Context Inference

本文提出MadaKV,一种模态感知的KV缓存逐出策略,通过模态偏好自适应(MPA)和层级压缩补偿(HCC)两个组件,在保持多模态长上下文任务性能的同时,显著降低KV缓存内存占用(80-95%)和解码延迟(1.3-1.5倍加速)。

OMGM: Orchestrate Multiple Granularities and Modalities for Efficient Multimodal Retrieval

提出OMGM——一个面向知识密集型视觉问答(KB-VQA)的多模态RAG系统,通过粗到细三步检索策略协调查询与知识库在不同粒度和模态间的匹配,在InfoSeek和E-VQA上取得SOTA检索性能和极具竞争力的问答结果。

RedundancyLens: Revealing and Exploiting Visual Token Processing Redundancy for Efficient Decoder-Only MLLMs

提出 RedundancyLens 框架,系统揭示了 decoder-only MLLM 中视觉 token 在自注意力和 FFN 操作上存在大量结构化、聚簇式冗余,并利用这一发现实现免训练推理加速,与现有 token 压缩方法正交且可组合。

Sharper and Faster mean Better: Towards More Efficient Vision-Language Model for Hour-scale Long Video Understanding

提出Sophia模型处理小时级长视频:通过Shot-adaptive Frame Pruning(基于镜头分割的两阶段帧剪枝)精准选择查询相关帧,结合O(N)复杂度的Hierarchical Attention替代全注意力,在8个长视频benchmark中6个SOTA,且注意力FLOPs仅为InternVL2的1/8.5。

Token Pruning in Multimodal Large Language Models: Are We Solving the Right Problem?

通过大规模基准实验揭示了当前MLLM视觉token剪枝方法的多个根本性问题:精心设计的剪枝策略(FastV、SparseVLM)在多数基准上甚至不如随机选择和池化等朴素方法,原因在于注意力评分的位置偏差、对语言信息的误用、重要性与冗余性的失衡以及评估指标的不可靠。