Unified Spatiotemporal Token Compression for Video-LLMs at Ultra-Low Retention¶
会议: CVPR 2026
arXiv: 2603.21957
代码: 无
领域: 视频理解 / 多模态VLM / LLM效率
关键词: 视觉token压缩, 视频大语言模型, 时空统一压缩, 推理加速, 无训练
一句话总结¶
提出统一时空token压缩方法,通过全局保留池联合评估token的贡献度和语义冗余度,并在LLM内部引入文本感知合并机制,在仅保留约2%视觉token的极端压缩下仍保留90.1%的基线性能,同时将FLOPs降至约2.6%。
研究背景与动机¶
-
领域现状:Video-LLM(如LLaVA-OneVision-7B)在复杂视频理解任务中表现优异,但单帧生成196个视觉token,32帧视频累计可达6272个token,其中大量高度冗余,导致推理延迟和显存消耗巨大。
-
现有痛点:当前无训练视频token压缩方法主要分三类——空间剪枝(VisionZip、PruMerge)、时间剪枝(DyCoke、TempMe)、分阶段时空方法(FastVid、HoliTom)。这些方法通常采用两阶段(先时间后空间或先空间后时间)的独立打分策略,隐式假设时空冗余可分离。
-
核心矛盾:在极低保留率(≤5%)下,时空可分离假设失效。分阶段决策容易导致时空资源分配不均衡——保留了非关键token却丢弃了关键token。例如FastVid在2%保留率下仅保留83.3%的原始性能。此外,LLM内部剪枝(如FastV、PDrop)仅使用最后一个token的注意力权重作为选择标准,引入位置偏差并削弱了关键查询词的语义影响。
-
本文目标:(a) 如何在全局约束下统一分配时空token以最大化信息贡献并最小化冗余?(b) 如何在LLM内部进一步根据查询相关性压缩token?
-
切入角度:将token压缩重新定义为全局时空token分配问题,而非分阶段独立处理。利用注意力权重和语义相似度联合评估所有token。
-
核心 idea:用统一的全局保留池替代两阶段压缩,结合贡献度-冗余度双指标选择token,配合回收池聚类合并和LLM内部文本感知合并,实现极低比例下的高效压缩。
方法详解¶
整体框架¶
方法包含两个核心组件:(1) LLM外部的统一时空token压缩模块——维护保留池和回收池,通过注意力分数和余弦相似度全局选择高贡献、低冗余的token放入保留池,未选中token通过DPC-KNN聚类合并后回填;(2) LLM内部的文本感知合并机制——基于文本到视觉token的交叉注意力和语义相似度,进一步保留与query最相关的视觉token。
关键设计¶
-
时空剪枝(Spatiotemporal Pruning):
- 功能:从所有视觉token中选出高贡献且低冗余的token
- 核心思路:首先利用CLS token的注意力分数 \(A_h = \text{Softmax}(Q_h K_h^\top / \sqrt{d})\) 量化每个token的贡献度,对于无CLS token的编码器(如SigLIP),计算每个token与所有其他token的平均注意力作为替代。选出top-k高注意力token后,计算每个候选token与保留池中已有token的最大余弦相似度 \(S = \max_{p \in \mathcal{P}} \frac{c \cdot p}{\|c\|\|p\|}\),只有相似度低于阈值 \(\tau\) 的才加入保留池,否则送入回收池。迭代进行直到保留池达到预设容量。
- 设计动机:注意力分数衡量贡献度,余弦相似度检测冗余,两者结合避免保留高注意力但高冗余的token,解决了两阶段方法时空分配不均的问题。
-
时空聚类合并(Spatiotemporal Clustering):
- 功能:保留回收池中token的语义信息,避免直接丢弃导致信息损失
- 核心思路:使用DPC-KNN聚类算法。对回收池中每个token计算局部密度 \(\rho_i\) 和到更高密度token的最短距离 \(\delta_i\),以决策分数 \(\gamma_i = \rho_i \times \delta_i\) 选出聚类中心,其余token分配到最近中心并取均值作为合并token,最后回填到保留池并按原始时空顺序排列。
- 设计动机:直接丢弃会损失语义完整性,通过聚类合并保留整体语义结构,使保留池中的token既有高贡献的精选token,也有通过聚类压缩后的补充信息。
-
文本感知合并(Text-Aware Merging):
- 功能:在LLM内部进一步根据文本查询的语义相关性压缩视觉token
- 核心思路:提取注意力矩阵中文本token到视觉token的子矩阵 \(A_{qv}\),计算每个视觉token的最大交叉注意力分数 \(A_m\) 并归一化;同时计算每个视觉token与所有文本token的最大余弦相似度 \(S_m(v_i)\)。最终决策分数 \(I(v_i) = (1-\lambda) \cdot A_m^{\text{norm}} + \lambda \cdot S_m^{\text{norm}}\) 综合两者。保留top-R%的token,被裁剪的token根据余弦相似度合并到最近的保留token中。
- 设计动机:仅使用最后一个token的注意力(如FastV)会引入位置偏差,受RoPE的相对位置编码影响更偏向相邻token。本方法利用所有文本token的attention在全局范围找到与query最相关的视觉信息,余弦相似度补充减少位置敏感性。
损失函数 / 训练策略¶
整个方法完全无训练(training-free),作为即插即用模块兼容现有Video-LLM,无需修改原始模型参数。超参数设置:相似度阈值 \(\tau=0.7\),聚类比率0.3,LLM内部从第18层开始激活,保留top 50%视觉token,\(\lambda=0.5\)。
实验关键数据¶
主实验¶
在LLaVA-OneVision-7B上的对比(5个benchmark平均分):
| 保留率 | 方法 | FLOPs(T) | MVBench | EgoSchema | MLVU | LVBench | VideoMME | 均分 | Score% |
|---|---|---|---|---|---|---|---|---|---|
| 100% | 原始 | 41.4 | 58.3 | 60.4 | 47.7 | 56.4 | 58.6 | 56.3 | 100% |
| 2% | FastVID | 1.2 | 48.0 | 52.3 | 37.6 | 47.3 | 49.2 | 46.9 | 83.3% |
| 2% | HoliTom | 1.1 | 52.6 | 57.2 | 37.4 | 48.5 | 51.1 | 49.4 | 87.7% |
| 2% | Ours | 1.1 | 52.8 | 57.6 | 40.3 | 50.8 | 51.8 | 50.7 | 90.1% |
跨骨干(LLaVA-Video-7B, 2%保留率):
| 方法 | FLOPs比 | MVBench | MLVU | VideoMME | 均分 | Score% |
|---|---|---|---|---|---|---|
| HoliTom | 1.7% | 50.2 | 39.9 | 55.3 | 48.5 | 82.5% |
| Ours | 1.7% | 50.1 | 40.8 | 56.2 | 48.8 | 83.0% |
消融实验¶
| 配置 | 5%保留率均分 | 2%保留率均分 | 说明 |
|---|---|---|---|
| Full model | 53.7 | 50.7 | 完整方法 |
| w/o 内部合并 | 53.4 | 50.4 | 去掉文本感知合并,掉0.3 |
| HoliTom(两阶段) | 52.9 | 49.4 | 两阶段基线,差距尤其在低保留率更大 |
关键发现¶
- 在极低保留率(2%,相当于每帧约4个token)下,相对于两阶段方法HoliTom提升2.4%(Score%: 87.7→90.1),验证了统一时空分配的优势
- 跨骨干实验(LLaVA-Video-7B、LLaVA-OV-0.5B、Qwen2.5-VL-7B)均有效,证明方法的通用性
- 文本感知合并在低保留率下贡献更明显,说明query引导的二次压缩在token极少时对保留关键信息更重要
- FLOPs可降至原始的约2.6%,实际端到端推理延迟和显存消耗大幅降低
亮点与洞察¶
- 全局保留池设计:将token压缩从分阶段独立优化变为全局联合优化,类似于将"局部贪心"升级为"全局视角",这个思路可迁移到任何涉及多维度资源分配的场景
- 回收池的聚类回填:不是简单丢弃低分token,而是聚类合并后回填,保留信息完整性——这是一个实用的"信息不浪费"原则
- 完全无训练的即插即用设计:无需微调模型权重,直接兼容多种Video-LLM,降低部署门槛
局限与展望¶
- 依赖视觉编码器的注意力分数质量,如果编码器本身注意力分布不理想,剪枝效果可能受限
- 相似度阈值 \(\tau\) 和聚类比率等超参数需要手动设置,未探索自适应调整
- 仅在多选题benchmark上评估,缺少开放式生成任务的评估(如视频描述)
- 文本感知合并需要在LLM内部操作,对于不开放中间层的API模型难以应用
相关工作与启发¶
- vs HoliTom: HoliTom用动态规划做帧分割+两阶段剪枝合并,本文用全局保留池统一处理。HoliTom在中等保留率表现不错但极低保留率下退化更快
- vs FastV: FastV仅在LLM内部用最后token的attention做剪枝,缺乏外部压缩,且受位置偏差影响。本文在外部和内部双重压缩,且用多token注意力避免偏差
- vs VisionZip: VisionZip仅做空间压缩,不处理时间冗余,在视频场景下效果有限
评分¶
- 新颖性: ⭐⭐⭐⭐ 全局统一时空分配的思路比两阶段更优雅,但核心技术组件(注意力选择+聚类合并)较常规
- 实验充分度: ⭐⭐⭐⭐⭐ 多骨干、多benchmark、多保留率的系统评估,消融实验覆盖全面
- 写作质量: ⭐⭐⭐⭐ 论文结构清晰,图示直观
- 价值: ⭐⭐⭐⭐ 对Video-LLM的实际部署有较高实用价值,2%保留率下90%性能对部署场景很有吸引力