⚡ VLM Efficiency¶
💬 ACL2026 · 6 篇论文解读
📌 同领域跨会议浏览: 📷 CVPR2026 (63) · 🧪 ICML2026 (4) · 🔬 ICLR2026 (8) · 🤖 AAAI2026 (5) · 🧠 NeurIPS2025 (8) · 📹 ICCV2025 (11)
🔥 高频主题: 多模态 ×2
- APB-V: Accelerating Long-Video Understanding via Sequence-Parallelism-aware Approximate Attention
-
APB-V 用面向序列并行的近似注意力和系统级负载均衡加速长视频 LMM 推理,在保留完整视觉 embedding 的同时,在 64 帧 1440p 设置下相对 FlashAttn、ZigZagRing 和 APB 分别达到 12.72×、1.70× 和 1.18× 加速,且没有显著性能损失。
- From Inheritance to Saturation: Disentangling the Evolution of Visual Redundancy for Architecture-Aware MLLM Inference Acceleration
-
揭示 MLLM 推理中视觉冗余的两种来源——ViT 密集 tokenization 导致的固有冗余(IVR)和深层语义饱和导致的次生冗余(SSR,且其表现形式因骨干架构不同而异),提出 HalfV 框架分别处理两类冗余,在 Qwen2.5-VL 上实现4.1倍 FLOPs 加速且保留96.8%性能。
- HERMES: KV Cache as Hierarchical Memory for Efficient Streaming Video Understanding
-
本文提出 HERMES,基于对 MLLM 解码器层级注意力偏好的机制性分析,将 KV 缓存概念化为层级记忆框架(浅层=感觉记忆、中层=工作记忆、深层=长期记忆),实现免训练的高效流式视频理解,在减少 68% 视频 token 的条件下仍保持或提升准确率,TTFT 延迟仅 <30ms,比前 SOTA 快 10 倍。
- HiPrune: Hierarchical Attention for Efficient Token Pruning in Vision-Language Models
-
本文发现视觉编码器中存在层级注意力模式——中层关注主体对象、深层关注全局信息,据此提出 HiPrune,一种免训练、模型无关的视觉 token 剪枝方法,通过选择三类 token(Anchor/Buffer/Register)保留不同层级的视觉信息,仅用 1/3 token 保持 99.3% 性能,FLOPs 减少 58.7%。
- MACS: Modality-Aware Capacity Scaling for Efficient Multimodal MoE Inference
-
针对 MoE 多模态大模型在专家并行(EP)推理下被"最慢专家"拖累的 straggler 问题,MACS 用视觉 token 的熵当作语义重要性权重来重估专家负载,并按 batch 的实时模态构成动态缩放各专家容量,是一个无需训练的推理框架,在 12 个多模态基准上几乎不掉点(平均保留 vanilla 99.7%)而显著优于按 token 计数的 CAI-MoE。
- ReGATE: Learning Faster and Better with Fewer Tokens in MLLMs
-
ReGATE 用冻结的 text-only teacher 估计哪些输出 token 需要视觉信息,再结合 student 的历史学习难度动态选择训练 token,让 MLLM 在不改架构、不加参数的情况下用更少 token 更快训练,并在多个图像和视频 benchmark 上达到或超过标准微调。