跳转至

⚡ VLM Efficiency

📷 CVPR2026 · 63 篇论文解读

📌 同领域跨会议浏览: 🧪 ICML2026 (4) · 💬 ACL2026 (6) · 🔬 ICLR2026 (8) · 🤖 AAAI2026 (5) · 🧠 NeurIPS2025 (8) · 📹 ICCV2025 (11)

🔥 高频主题: 多模态 ×31 · 模型压缩 ×21 · 压缩/编码 ×9 · LLM ×7 · 扩散模型 ×3

Accelerating Streaming Video Large Language Models via Hierarchical Token Compression

针对流式视频大模型(streaming VideoLLM)实时部署慢的问题,提出即插即用的两级 token 压缩框架 STC:STC-Cacher 在 ViT 编码阶段缓存并复用相邻帧的静态特征、只重算动态 token,STC-Pruner 在进 LLM 之前用「时空双锚点」剪掉冗余 token,在 ReKV 上保留约 99% 精度的同时把 ViT 编码延迟降 24.5%、LLM 预填充延迟降 45.3%。

Adapting Lightweight Image-based Counting Models for Video Crowd Counting

这篇论文不给视频人群计数(VCC)加任何时序模块,而是把"相邻帧的人数变化应当有界"这一时空先验,解析地写成一个基于特征函数(ChF)频域的统计正则器,只在训练时约束一个轻量图像计数(ICC)模型,推理仍是单帧——在六个数据集上做到 SOTA 精度的同时把推理帧率拉到 99.5 fps。

AdaptVision: Efficient Vision-Language Models via Adaptive Visual Acquisition

提出 AdaptVision,通过由粗到精的主动视觉机制和强化学习训练,让 VLM 自主决定每个样本所需的最少视觉 token 数量,配合解耦式多轮策略优化 (DTPO) 实现效率与精度的最优平衡。

ApET: Approximation-Error Guided Token Compression for Efficient VLMs

从信息论角度提出基于线性近似重建误差的视觉 token 重要性评估方法,不依赖 attention 权重,天然兼容 FlashAttention,在 LLaVA-1.5 上压缩 88.9% 视觉 token 仍保持 95.2% 性能。

Attention-aware Inference Optimizations for Large Vision-Language Models with Memory-efficient Decoding

AttentionPack 利用 LVLM 的 KV cache(尤其是视觉 token)天然低秩这一观察,先用 SVD 在「合并多头 + 区分视觉/文本」的方式下把 cache 沿隐藏维压缩,再用一套基于累积注意力分数的「注意力感知部分解压」按需选秩,在几乎不掉点的前提下把显存降到原来的 1/5~1/8,从而支持更大 batch / 更长上下文、解码吞吐提升最高 74%。

Better, Stronger, Faster: Tackling the Trilemma in MLLM-based Segmentation with Simultaneous Textual Mask Prediction

STAMP 把 MLLM 分割重述为对所有图像 patch 的并行"填空"分类任务,用一次非自回归前向同时预测整张掩码,从而在不损害对话能力的前提下同时拿到高分割精度和快推理速度,破解了 MLLM 分割长期存在的"对话/性能/速度"三难。

Blink: Dynamic Visual Token Resolution for Enhanced Multimodal Understanding

提出 Blink 框架,通过在 MLLM 不同 Transformer 层动态扩展和丢弃视觉 token(模拟人类"快速眨眼"式扫描),在单次前向传播中自适应增强视觉感知能力,在多个多模态基准上提升 LLaVA-1.5 性能。

Co-Me: Confidence Guided Token Merging for Visual Geometric Transformers

Co-Me 给 VGGT、π3 这类视觉几何 Transformer 装上一个轻量的"置信度预测器",把网络自己认为不重要(低置信度)的 patch token 合并成一个 token 再送进后半段网络,从而在不重训、不改主干结构的前提下,对 attention 和 MLP 同时提速,VGGT 上最高加速 21.5×、精度几乎不掉。

CoIn: Coverage and Informativeness-Guided Token Reduction for Efficient Large Multimodal Models

把多模态大模型的视觉 token 削减重新建模成"最优子集选择"问题,用信息量(视觉显著性 + 跨模态对齐)打每个 token 的分、用覆盖度(log-det 体积)保证选出的子集张满特征空间,再用一次贪心子模优化端到端选出紧凑子集——无需训练、不依赖注意力、兼容 FlashAttention/KV cache,在 LLaVA-NeXT-7B 上削掉 94.4% 视觉 token 仍保留 86.7% 性能,prefill 提速 6.5×。

CORE: Compact Object-centric REpresentations as a New Paradigm for Token Merging in LVLMs

CORE 把 LVLM 的视觉 token 压缩从"按特征相似度逐个合并"换成"按物体合并"——用一个内置分割头给每个物体生成掩码,再把同一物体内的 token 加权平均成一个紧凑 token,配合质心排序保留空间次序;在六个基准上拿到固定率压缩 SOTA,极端压缩下仅保留 2.2% token 仍能维持基线 97.4% 性能。

Curvature-Aware Zeroth-Order Optimization for Memory-Efficient Test-Time Adaptation

针对设备端测试时自适应(TTA)需要省内存的场景,本文用只做前向、不做反向的零阶优化(ZO)来微调一个轻量 adapter,并利用「TTA 过程中 Hessian 持续低秩且缓变」这个观察,把各向同性的随机扰动换成曲率感知的各向异性扰动,大幅压低 ZO 梯度估计的方差——在 ImageNet-C 上达到 69.0% 的 SOTA,同时比 BP 方法省约 70% 显存。

Differentiable Vector Quantization for Rate-Distortion Optimization of Generative Image Compression

RDVQ 用一个"距离感知的软分布"代替向量量化里不可导的最近邻索引,让码率损失的梯度重新流回编码器,从而首次实现 VQ 压缩的端到端率失真联合优化;配合掩码自回归熵模型,在极低码率下用不到同类方法 20% 的参数量取得更优的感知质量(相比 RDEIC 在 DIV2K-val 上 DISTS 码率最多省 75.71%)。

DocPrune: Efficient Document Question Answering via Background, Question, and Comprehension-aware Token Pruning

DocPrune 针对"文档图像里大片背景 + 稀疏证据"的结构特性,提出一个免训练、渐进式的三阶段视觉 token 剪枝框架(去背景 → 去问题无关区域 → 按模型理解度自适应剪枝),在 M3DocRAG 上把编码器/解码器吞吐分别提升 3.0× / 3.3× 的同时 F1 还涨 1.0。

DUET-VLM: Dual Stage Unified Efficient Token Reduction for VLM Training and Inference

提出 DUET-VLM 双阶段视觉 token 压缩框架:第一阶段在视觉编码器内通过 V2V self-attention 选取 dominant tokens 并将剩余 tokens 通过注意力引导局部聚类合并为 contextual tokens;第二阶段在 LLM 内通过 T2V cross-attention 层级裁剪视觉 tokens。在 LLaVA-1.5-7B 上实现 67% token 压缩保持 99%+ 精度、89% 压缩保持 97%+ 精度,训练时间减少 31%。

Dynamic Token Reweighting for Robust Vision-Language Models

提出Dtr(Dynamic Token Reweighting),首个通过优化VLM的KV缓存来防御多模态越狱攻击的推理时防御方法,通过定义"反向安全偏移"(RSS)来识别导致安全退化的视觉token,动态调整其权重以恢复模型的安全对齐能力,同时保持良性任务性能。

EvoComp: Learning Visual Token Compression for Multimodal Large Language Models via Semantic-Guided Evolutionary Labeling

EvoComp 在 MLLM 的对齐模块和 LLM 之间插入一个轻量压缩器,用「进化算法搜出能让任务 loss 最小的 token 子集」当监督标签来训练它,从而在 3×~9× 压缩下保留 99.3%~94.9% 原始精度,并在手机 NPU 上实现最高 2.0× 加速。

Fine-Grained Post-Training Quantization for Large Vision Language Models with Quantization-Aware Integrated Gradients

提出量化感知积分梯度(QIG),将 LVLM 量化的灵敏度分析从模态级推进到 token 级,利用公理化归因原理精确量化每个 token 对量化误差的贡献,在 W4A8 和 W3A16 设置下显著提升量化模型精度,且几乎无额外计算开销。

FlashCache: Frequency-Domain-Guided Outlier-KV-Aware Multimodal KV Cache Compression

提出 FlashCache,首次从频域角度分析多模态 KV Cache 的重要性分布,发现偏离低频主成分的"离群 KV"编码了推理关键特征,通过 DCT 低通滤波识别并优先保留离群 KV + 动态逐层预算分配,在 80% KV 内存压缩下实现 1.69× 解码加速且基本不损失任务性能,天然兼容 FlashAttention。

FocusUI: Efficient UI Grounding via Position-Preserving Visual Token Selection

FocusUI 让 UI grounding 的 VLM 只保留与指令相关的少数视觉 token——先用「指令×patch」的显著性监督训一个轻量打分器挑出关键 patch,再用 POSPAD 把被丢弃的连续 token 压成一个保留末位坐标的占位标记,从而在仅留 30% 视觉 token 的情况下精度只掉 3.2%,推理快 1.44×、峰值显存降 17%。

GroundVTS: Visual Token Sampling in Multimodal Large Language Models for Video Temporal Grounding

提出 GroundVTS,一种在视频大语言模型中进行查询引导的细粒度视觉token采样架构,通过在 token 级别自适应保留与查询相关的时空信息,在 Charades-STA 上 mIoU 提升 18.4 点,QVHighlights 上 mAP 提升 20.6 点。

HAWK: Head Importance-Aware Visual Token Pruning in Multimodal Models

提出 HAWK,一种基于注意力头重要性感知的视觉 token 剪枝方法,通过离线计算各注意力头对视觉理解的贡献权重,并结合文本引导的注意力分数动态评估每个视觉 token 的重要性,在 Qwen2.5-VL 上剪枝 80.2% 视觉 token 后仍保留 96.0% 原始性能,同时减少 26% 推理延迟。

Hi-Lo Prune: Look at What You'll Lose before Pruning with Hierarchical Token Selection

本文针对多模态大模型(MLLM)视觉 token 过多导致推理昂贵的问题,提出免训练剪枝方法 Hi-Lo Prune——核心理念"剪之前先看看你会丢什么":先用粗到细的分层选择定出保留 token 集和"最值得保留的待剪 token"候选集,再用 Prune-Aware Fusion 在浅层把候选集的信息迁移进保留 token,最后在指定层一次性删除其余 token,在 Qwen2/2.5/3-VL 与 LLaVA 上即便剪掉 90% token 仍稳超现有剪枝方法。

HTTM: Head-wise Temporal Token Merging for Faster VGGT

HTTM 是一种免训练的 token 合并方法,专为 VGGT 全局注意力层定制:通过「逐注意力头独立合并 + 时序重排的块内合并 + 跨头自适应离群点过滤」,在几乎不掉点的情况下把长序列 3D 重建推理加速最高 7×。

Hybrid Token Compression for Vision-Language Models

针对"把视觉 token 压到 1 个时,连续压缩丢语义、离散量化丢细节"的两难,HTC-VLM 用连续通道(ViT patch 保细节)+ 离散通道(MGVQ 量化出 4 个语义锚点)双路解耦,再经解耦注意力掩码与 <voco> 瓶颈把 580 个 token 压成 1 个,在 7 个基准上把性能保持率从 81.0% 提到 87.2%。

IF-Prune: Information-Flow Guided Token Pruning for Efficient Vision-Language Models

本文提出 IF-Prune,把视觉 token 重要性估计建模成摊销变分推断问题——用一个小 VLM 配上 token 级变分信息瓶颈,以每个视觉 token 隐变量后验与先验的 KL 散度作为重要性分来剪枝大 VLM,单次前向即可给出剪枝指导;仅保留 5% 视觉 token 时大模型仍维持 95% 原性能、较此前 SOTA 高出约 8%。

LazyVAR: Accelerating Visual Autoregressive Models via Scale-wise Token Pruning and Parallel Group Decoding

LazyVAR 发现 VAR 在相邻尺度上的聚合潜变量特征越往大尺度越相似,于是用「尺度更新指数」做免训练 token 剪枝、再把更新极小的几个尺度打包并行解码,把 Infinity-2B 文生图模型加速最高 2.94×(1024×1024 单卡 RTX 4090 仅 0.5 秒),生成质量几乎不掉。

LIFT and PLACE: A Simple, Stable, and Effective Knowledge Distillation Framework for Lightweight Diffusion Models

针对"大教师蒸馏小扩散学生时训练不稳定"的痛点,本文用线性回归把蒸馏误差拆成"粗易(低阶矩失配)"和"细难(非线性残差)"两部分,提出 LIFT 先粗对齐再细精修、PLACE 按空间难度分组做局部自适应,在 90% 剪枝(学生仅占教师 1.6% 参数)的极端压缩下把 FID 从常规 KD 的 50–200+ 拉回到 15.73。

LiteVGGT: Boosting Vanilla VGGT via Geometry-aware Cached Token Merging

针对 3D 基础模型 VGGT 在长序列上全局注意力的二次复杂度瓶颈,LiteVGGT 提出"几何感知 + 跨层缓存"的 token 合并策略——按几何重要性挑出关键 token 不动、把冗余 token 合并到锚点、并跨层复用合并索引,配合微调与 FP8 量化,在 1000 张图输入下相比 VGGT 提速约 10× 且几乎不掉点。

LS-ViT: Least-Squares Hessian Based Block Reconstruction for Low-Bit Post-Training Quantization of Vision Transformers

LS-ViT 把 ViT 块重建里"代表性 Hessian"的估计重新表述成一个最小二乘问题——用整个校准集上的 \((g, \Delta z)\) 对去拟合一个共享 Hessian,从而显式补回此前方法因"样本独立假设"而丢掉的协方差项,在 W2/A3、W2/A4 等超低比特下刷新 SOTA,且每个块只需一次反向传播,训练速度比 FIMA-Q 快 1.8–2.7 倍。

MASQuant: Modality-Aware Smoothing Quantization for Multimodal Large Language Models

揭示了通道平滑量化(如 SmoothQuant)直接应用于 MLLM 时的"平滑失配"问题——不同模态激活幅度差异巨大导致非主导模态被过度平滑,提出 MASQuant 通过模态感知平滑因子和基于 SVD 白化的跨模态低秩补偿解决该问题。

Merge3D: Efficient 3D Multimodal LLMs via Joint 2D-3D Token Merging

Merge3D 给"2D 语义 + 3D 几何"双编码器的 3D 视频 MLLM 设计了一个语义-几何联合 token 合并器(SemGeo Merger):用 2D 注意力选语义显著的主 token、再用 2D×3D 混合相似度把上下文 token 并进空间邻域里的主 token,在砍掉至多 70% 视觉 token、提速约 3× 的同时,把 3D 定位/描述/空间推理性能几乎保住。

MeToM: Metadata-Guided Token Merging for Efficient Video LLMs

MeToM 把视频编解码器里"白送"的码流元数据(残差能量、GoP 包大小)当作时空信息密度的零成本代理,用 RPM / BTM / MATM 三个模块在「tokenization 时、进 LLM 前、LLM 内部」三处分级地按内容复杂度自适应合并视觉 token,无需任何训练就在多个 Video LLM 上取得 2.65× 端到端推理加速且精度不降反升。

MiniCPM-V 4.5: Cooking Efficient MLLMs via Architecture, Data and Training Recipes

MiniCPM-V 4.5 用「统一 3D-Resampler 压缩视觉 token + 动态损坏统一文档/OCR 学习 + 短长双模式混合 RL」三招把一个 8B MLLM 做到既高效又强,在 OpenCompass 上以 77.0 分超过 GPT-4o-latest 和 Qwen2.5-VL 72B,且 VideoMME 推理只用约 10% 的时间。

MM-SeR: Multimodal Self-Refinement for Lightweight Image Captioning

作者先发现把 MLLM 里的 7B 语言模型换成 125M 的 OPT 也能在事实性图像描述上逼近大模型,再提出多模态自我精炼框架 MM-SeR——让这个轻量模型先生成粗描述、再用粗描述引导提取更细的视觉特征做二次精炼,在单句/详细描述乃至长视频问答上都拿到接近大模型的效果,同时参数省 93%、推理时间省 97%。

MoDES: Accelerating Mixture-of-Experts Multimodal Large Language Models via Dynamic Expert Skipping

提出 MoDES,首个面向 MoE 多模态大模型的训练免调专家跳过框架,通过全局调制的局部门控(GMLG)和双模态阈值(DMT)机制自适应跳过冗余专家,在跳过 88% 专家时仍保留 97%+ 原始性能,并实现 2.16× prefill 加速。

NuWa: Deriving Lightweight Class-Specific Vision Transformers for Edge Devices

针对「边缘设备只关心几个类别」这一被忽视的场景,NuWa 先用自知识净化(SKP)学一组二值 mask 删掉「对目标类有害的权重」,再把 MHA/MLP 的剪枝写成可求闭式解的优化问题,从而无需重训练就能从大 ViT 派生出比原模型在目标类上还更准、且推理更快的小 ViT,剪枝速度比最好的训练依赖方法快 33.69×、成本降低最多 99.83%。

OmniZip: Audio-Guided Dynamic Token Compression for Fast Omnimodal Large Language Models

OmniZip 是首个面向全模态大模型(OmniLLM)音视频联合理解的免训练 token 压缩框架:它用音频 token 的注意力分布作为「信息密度 / 事件边界」先验,在每个时间窗内动态地决定视频 token 的剪枝率,再用交错时空压缩模块(ISTC)压缩视频 token,在 Qwen2.5-Omni 上实现 3.42× prefill 加速、1.4× 显存下降,且几乎不掉点。

OmniZip: Learning a Unified and Lightweight Lossless Compressor for Multi-Modal Data

OmniZip 用一个仅几 M~百 M 参数的 RWKV 骨干,配上"模态统一分词 + 模态路由 MoE",做到一个模型无损压缩图像/文本/语音/触觉/基因/数据库七种模态,比 gzip 高 42%~62% 压缩率,还能在 MacBook CPU、iPhone NPU 上跑到约 1MB/s 的近实时速度。

One Layer's Trash is Another Layer's Treasure: Adaptive Layer-wise Visual Token Selection in LVLMs

针对大型视觉语言模型(LVLM)里视觉 token 太多拖慢推理的问题,ALVTS 不再像 FastV 那样在某一层一次性永久剪掉 token,而是在每个解码层都重新挑一遍——用一个低秩近似的轻量选择器给所有视觉 token 打分,重要的进层参与计算、不重要的直接跳过该层、之后再合并回完整序列,从而在压缩 89% token 的情况下保留 96.7% 的原始精度。

Prune2Drive: A Plug-and-Play Framework for Accelerating Vision-Language Models in Autonomous Driving

首个面向多视角自动驾驶 VLM 的即插即用 token 剪枝框架,通过 T-FPS(token 级最远点采样)保持语义与空间多样性,配合视图自适应剪枝率优化自动分配各摄像头 token 预算,在 DriveLM 上仅保留 10% token 即实现 6.40× prefill 加速且性能仅降 3%。

PS-SR: Pseudo-Single-Step Video Super-Resolution via Speculative Diffusion

PS-SR 把一个昂贵的多步扩散超分拆成「强 base 模型走 1 步 + 轻量 draft 模型推测式走 T−1 步」的非对称采样,再用频域更新规则强制后续步只注入高频细节、不动低频结构,从而在接近单步模型的速度下拿到多步扩散的画质与细节。

Quant Experts: Token-aware Adaptive Error Reconstruction with Mixture of Experts for Large Vision-Language Models Quantization

提出 Quant Experts (QE),一种基于 Mixture-of-Experts 的 token 感知自适应量化误差重建框架——将重要通道分为 token-independent(高频出现、全局性)和 token-dependent(低频出现、局部性)两组,分别用共享专家和路由专家的低秩适配器来补偿全局和局部量化误差,在 W4A6 到 W3A16 的多种量化设置下一致提升 VLM 性能。

QVGGT: Post-Training Quantized Visual Geometry Grounded Transformer

针对 1.26B 参数的前馈 3D 重建模型 VGGT,本文提出一套几何感知的后训练量化框架 QVGGT,用"逐块敏感度混合精度 + 相机 token 过滤补偿 + 任务感知尺度搜索"三步,在 W4A16 下做到几乎无损(CO3Dv2 相机位姿 AUC@30 89.4 vs FP16 89.5),同时内存降 3∼4.9×、最高 2.8× 硬件加速。

Rethinking Asymmetric Quantization: Hidden Symmetry in Vision Model Weights

作者发现视觉模型权重在剔除少数离群值后近似对称,据此提出 DASQ——把权重拆成「稠密对称核 + 稀疏离群」两个用对称量化(SymQ)表示的矩阵,从而去掉非对称量化(AsymQ)昂贵的零点,并在 ImageNet/COCO 上以更低 BOPs 超过现有 PTQ,还在 FPGA 上实现更高精度+更低功耗。

Rethinking Token Reduction for Large Vision-Language Models

针对多轮视觉问答(MT-VQA)场景,本文把视觉 token 裁剪与合并统一成一个"可学习的压缩映射 \(P\)",并训练一个仅依赖图像、能适配任意分辨率的元生成器 MetaCompress 来产出 \(P\),在 90% 压缩率下持续超过 FastV / PruMerge 等启发式方法,且推理效率逼近最快的等距采样基线。

S2D: Selective Spectral Decay for Quantization-Friendly Conditioning of Neural Activations

S2D 把激活离群值的根因定位到权重矩阵被"撑大"的少数主奇异值上,在微调阶段只对这几个最大奇异值做选择性谱衰减,从而在不重训练的前提下把模型调成"量化友好"的形态,W4A4 PTQ 在 ImageNet 上最多涨 7%。

Saliency-Driven Token Merging for Vision Transformers

SAD-TM 指出现有 token merging 只看「当前层」的注意力参数、而这些参数逐层剧烈变化,于是它改用一个跨层一致的判据:通过反传梯度算每个输入 patch 的显著性、再用 Pearson 相关找出「偏离全局梯度方向」的显著性离群 token,与类注意力加权融合后免训练地合并 token,并配一个「前几层不合并」的延迟合并策略,在 DeiT/MAE/LV-ViT 上几乎无损地砍掉 23%~45% FLOPs。

SCoRe: Salience-Coverage Reduction for Vision Token Pruning in Vision-Language Models

SCoRe 把 LVLM 的视觉 token 剪枝从"先按注意力 Top-k、再事后补多样性"的两段式启发式,重写成一个统一的"代表性优化问题",并证明它等价于经典的加权 k-Center 问题;用一个同时编码显著性和覆盖度的复合分数做贪心选择,训练无关、即插即用,在剪掉 94.4% token 时仍保留 95% 性能。

SegMo: Co-Designing Content-Aware Sparsity and Locally-Cohesive Segment Parallelism for Efficient VLM Inference

SegMo 针对长视频 VLM 的 token 爆炸与 \(O(N^2)\) Prefill 瓶颈,用「算法-系统协同设计」把算什么(内容感知稀疏化 CAS)与怎么算(局部内聚段并行 LSP)联合优化,凭 VLM 注意力的「局部内聚」特性把视频按场景切段并行、Prefill 期间零跨卡通信,在三个长视频基准上同时拿到 up to 12.00% 的精度提升和 up to 3.55× 的 Prefill 加速。

SODA: Sensitivity-Oriented Dynamic Acceleration for Diffusion Transformer

提出 SODA,通过离线细粒度敏感度建模 + 动态规划优化缓存间隔 + 统一自适应剪枝策略,在无需训练的条件下对 Diffusion Transformer 实现可控加速比下的高保真生成。

TimeViper: A Hybrid Mamba-Transformer Vision-Language Model for Efficient Long Video Understanding

TimeViper 用 Mamba-2 与自注意力混合的 9B 大模型当骨干,借助新发现的"视觉信息会逐层汇聚进指令 token"现象,提出在 LLM 内部用门控交叉注意力把冗余视觉 token 转移压缩进指令 token 的 TransV 模块,从而在单张 GPU 上处理上万帧的小时级长视频,且性能与 Transformer 系 MLLM 相当。

TransPrune: Token Transition Pruning for Efficient Large Vision-Language Model

TransPrune 提出用「token 在模型内部传播时表示发生的变化」(token transition)来判断视觉 token 是否重要,组合两个互补信号——只看 token 自身幅度/方向变化的 TTV 和看指令对图像注意力的 IGA——做免训练的渐进式剪枝,在 LLaVA-1.5/Next、Qwen2.5-VL 上把推理 TFLOPs 砍掉一半还几乎不掉点。

UniCompress: Token Compression for Unified Vision-Language Understanding and Generation

UniCompress 在现成离散 tokenizer 外面套一组轻量「全局元token 抽取 + 平均池化压缩 + 全局引导的自回归解压」模块,把统一理解-生成模型的视觉 token 数砍 4×,理解几乎不掉点、生成只小幅退化,且无需重训语言模型。

Variation-Aware Vision Token Dropping for Faster Large Vision-Language Models

提出 V2Drop,首次从 token 变化量(variation)视角出发,通过渐进式丢弃 LLM 内部变化量最小的"懒惰"视觉 token,实现无训练、无位置偏差、兼容高效算子的 LVLM 推理加速,在图像和视频理解任务中分别保留 94.0% 和 98.6% 原始性能,同时降低 LLM 生成延迟 31.5% 和 74.2%。

ViLearn: Accelerating Training Convergence of Image-to-3D Generation via Visibility Learning

ViLearn 把"单图到 3D"中可见区域重建不可见区域幻想两个本质不同的子任务在训练阶段显式拆开:先用预训练 VecSet 解码器的交叉注意力把无序 shape token 分成可见 / 不可见两组(VG),再用可见性感知的位置编码(VAPE)强化"图像 token ↔ 可见 token"的对应、弱化与不可见 token 的纠缠,从而在不改主干、不加推理开销的情况下把 VecSet 扩散模型的训练收敛速度提升最多 4.4 倍,且最终质量超过 vanilla 基线。

Vision-Oriented Lightweight Neural Architecture Search with Budget-Adaptive Evaluation

针对神经架构搜索(NAS)"准确但慢的 training-based" 与 "快但不可靠且只认某一类骨干的 training-free" 之间的两难,本文设计六个训练成本几乎可忽略的"视觉专用微型任务"作为架构质量代理,再用一个二次响应面在给定时间预算内自动分配数据量和训练轮数,把排序相关性和搜出架构的精度同时拉到 SOTA,且在 CNN / Transformer / Mamba 三大家族上都通用。

VLM-Pruner: Buffering for Spatial Sparsity in an Efficient VLM Centrifugal Token Pruning Paradigm

提出VLM-Pruner,一种免训练的离心式token剪枝方法,通过空间稀疏缓冲(BSS)准则平衡冗余消除与局部细节完整性,在88.9%剪枝率下跨5个VLM一致超越现有方法,同时实现端到端推理加速。

VLM-PTQ: Efficient Post-Training Quantization for Large Vision-Language Models

VLM-PTQ 把 GPTQ/GPTAQ 这类权重补偿量化方法迁移到视觉-语言模型时,发现它们有两个被忽略的毛病——非对称目标下"舍入到最近"并不是最优、以及视觉与文本通道被一视同仁地处理;论文用一个闭式修正项把量化目标挪到真正的最优点,再用模态感知的重要性向量重新分配通道权重,在 1B~72B 的 VLM 上把 3bit/2bit 量化精度显著拉高,且额外开销几乎可忽略。

VQRAE: Representation Quantization Autoencoders for Multimodal Understanding, Generation and Reconstruction

VQRAE 把 RAE(用预训练视觉基座当编码器的表示自编码器)做成向量量化版,一个 tokenizer 同时吐出连续语义特征供理解、离散 token 供生成与重建,并首次证明:量化语义特征时码本要用高维度(1536)才能 100% 利用、不塌缩,彻底摆脱了双编码器和 CNN 像素编码器。

VVS: Accelerating Speculative Decoding for Visual Autoregressive Generation via Partial Verification Skipping

VVS 第一次在视觉自回归生成的投机解码(SD)中"部分跳过验证"——靠免验证 token 选择 + 陈旧特征缓存复用 + 相似度驱动的跳过调度,把目标模型的前向次数最多砍掉 2.86×、端到端加速 1.76×,且图像质量基本不掉,打破了 SD"草稿一步、验证一步"无法显式减少前向次数的天花板。

What Do Visual Tokens Really Encode? Uncovering Sparsity and Redundancy in Multimodal Large Language Models

提出EmbedLens探针工具系统分析MLLM中视觉token的内部结构,发现视觉token分为sink/dead/alive三类(约40%为无用token),alive token已在进入LLM前编码丰富语义("预语言"特性),且LLM内部视觉计算对大多数任务冗余,直接中层注入即可。

When Token Pruning is Worse than Random: Understanding Visual Token Information in VLLMs

发现VLLM深层中现有token剪枝方法不如随机剪枝的现象,提出基于输出概率变化量化视觉token信息的方法,揭示了"信息地平线"——视觉token信息在某层均匀消散至零的临界层,其位置受任务视觉复杂度和模型能力动态影响,并证明简单集成随机剪枝能有效提升现有方法。

ZOO-Prune: Training-Free Token Pruning via Zeroth-Order Gradient Estimation in Vision-Language Models

ZOO-Prune 用「零阶梯度估计」在轻量的投影层(projection layer)上度量每个视觉 token 的「敏感度」,再把敏感度和特征多样性相乘成混合分数来贪心选 token,做到完全训练无关地剪掉至多 94.4% 的视觉 token、端到端推理提速 2.30×,且几乎不掉精度。