Unified Spatiotemporal Token Compression for Video-LLMs at Ultra-Low Retention¶

会议: CVPR 2026
arXiv: 2603.21957
代码: 无
领域: 视频理解 / 多模态VLM / LLM效率
关键词: 视觉token压缩, 视频大语言模型, 时空统一压缩, 推理加速, 无训练

一句话总结¶

提出统一时空token压缩方法，通过全局保留池联合评估token的贡献度和语义冗余度，并在LLM内部引入文本感知合并机制，在仅保留约2%视觉token的极端压缩下仍保留90.1%的基线性能，同时将FLOPs降至约2.6%。

研究背景与动机¶

领域现状：Video-LLM（如LLaVA-OneVision-7B）在复杂视频理解任务中表现优异，但单帧生成196个视觉token，32帧视频累计可达6272个token，其中大量高度冗余，导致推理延迟和显存消耗巨大。
现有痛点：当前无训练视频token压缩方法主要分三类——空间剪枝（VisionZip、PruMerge）、时间剪枝（DyCoke、TempMe）、分阶段时空方法（FastVid、HoliTom）。这些方法通常采用两阶段（先时间后空间或先空间后时间）的独立打分策略，隐式假设时空冗余可分离。
核心矛盾：在极低保留率（≤5%）下，时空可分离假设失效。分阶段决策容易导致时空资源分配不均衡——保留了非关键token却丢弃了关键token。例如FastVid在2%保留率下仅保留83.3%的原始性能。此外，LLM内部剪枝（如FastV、PDrop）仅使用最后一个token的注意力权重作为选择标准，引入位置偏差并削弱了关键查询词的语义影响。
本文目标：(a) 如何在全局约束下统一分配时空token以最大化信息贡献并最小化冗余？(b) 如何在LLM内部进一步根据查询相关性压缩token？
切入角度：将token压缩重新定义为全局时空token分配问题，而非分阶段独立处理。利用注意力权重和语义相似度联合评估所有token。
核心 idea：用统一的全局保留池替代两阶段压缩，结合贡献度-冗余度双指标选择token，配合回收池聚类合并和LLM内部文本感知合并，实现极低比例下的高效压缩。

方法详解¶

整体框架¶

方法包含两个核心组件：(1) LLM外部的统一时空token压缩模块——维护保留池和回收池，通过注意力分数和余弦相似度全局选择高贡献、低冗余的token放入保留池，未选中token通过DPC-KNN聚类合并后回填；(2) LLM内部的文本感知合并机制——基于文本到视觉token的交叉注意力和语义相似度，进一步保留与query最相关的视觉token。

关键设计¶

时空剪枝（Spatiotemporal Pruning）:
- 功能：从所有视觉token中选出高贡献且低冗余的token
- 核心思路：首先利用CLS token的注意力分数 \(A_h = \text{Softmax}(Q_h K_h^\top / \sqrt{d})\) 量化每个token的贡献度，对于无CLS token的编码器（如SigLIP），计算每个token与所有其他token的平均注意力作为替代。选出top-k高注意力token后，计算每个候选token与保留池中已有token的最大余弦相似度 \(S = \max_{p \in \mathcal{P}} \frac{c \cdot p}{\|c\|\|p\|}\)，只有相似度低于阈值 \(\tau\) 的才加入保留池，否则送入回收池。迭代进行直到保留池达到预设容量。
- 设计动机：注意力分数衡量贡献度，余弦相似度检测冗余，两者结合避免保留高注意力但高冗余的token，解决了两阶段方法时空分配不均的问题。
时空聚类合并（Spatiotemporal Clustering）:
- 功能：保留回收池中token的语义信息，避免直接丢弃导致信息损失
- 核心思路：使用DPC-KNN聚类算法。对回收池中每个token计算局部密度 \(\rho_i\) 和到更高密度token的最短距离 \(\delta_i\)，以决策分数 \(\gamma_i = \rho_i \times \delta_i\) 选出聚类中心，其余token分配到最近中心并取均值作为合并token，最后回填到保留池并按原始时空顺序排列。
- 设计动机：直接丢弃会损失语义完整性，通过聚类合并保留整体语义结构，使保留池中的token既有高贡献的精选token，也有通过聚类压缩后的补充信息。
文本感知合并（Text-Aware Merging）:
- 功能：在LLM内部进一步根据文本查询的语义相关性压缩视觉token
- 核心思路：提取注意力矩阵中文本token到视觉token的子矩阵 \(A_{qv}\)，计算每个视觉token的最大交叉注意力分数 \(A_m\) 并归一化；同时计算每个视觉token与所有文本token的最大余弦相似度 \(S_m(v_i)\)。最终决策分数 \(I(v_i) = (1-\lambda) \cdot A_m^{\text{norm}} + \lambda \cdot S_m^{\text{norm}}\) 综合两者。保留top-R%的token，被裁剪的token根据余弦相似度合并到最近的保留token中。
- 设计动机：仅使用最后一个token的注意力（如FastV）会引入位置偏差，受RoPE的相对位置编码影响更偏向相邻token。本方法利用所有文本token的attention在全局范围找到与query最相关的视觉信息，余弦相似度补充减少位置敏感性。

损失函数 / 训练策略¶

整个方法完全无训练（training-free），作为即插即用模块兼容现有Video-LLM，无需修改原始模型参数。超参数设置：相似度阈值 \(\tau=0.7\)，聚类比率0.3，LLM内部从第18层开始激活，保留top 50%视觉token，\(\lambda=0.5\)。

实验关键数据¶

主实验¶

在LLaVA-OneVision-7B上的对比（5个benchmark平均分）：

保留率	方法	FLOPs(T)	MVBench	EgoSchema	MLVU	LVBench	VideoMME	均分	Score%
100%	原始	41.4	58.3	60.4	47.7	56.4	58.6	56.3	100%
2%	FastVID	1.2	48.0	52.3	37.6	47.3	49.2	46.9	83.3%
2%	HoliTom	1.1	52.6	57.2	37.4	48.5	51.1	49.4	87.7%
2%	Ours	1.1	52.8	57.6	40.3	50.8	51.8	50.7	90.1%

跨骨干（LLaVA-Video-7B, 2%保留率）：

方法	FLOPs比	MVBench	MLVU	VideoMME	均分	Score%
HoliTom	1.7%	50.2	39.9	55.3	48.5	82.5%
Ours	1.7%	50.1	40.8	56.2	48.8	83.0%

消融实验¶

配置	5%保留率均分	2%保留率均分	说明
Full model	53.7	50.7	完整方法
w/o 内部合并	53.4	50.4	去掉文本感知合并，掉0.3
HoliTom(两阶段)	52.9	49.4	两阶段基线，差距尤其在低保留率更大

关键发现¶

在极低保留率（2%，相当于每帧约4个token）下，相对于两阶段方法HoliTom提升2.4%（Score%: 87.7→90.1），验证了统一时空分配的优势
跨骨干实验（LLaVA-Video-7B、LLaVA-OV-0.5B、Qwen2.5-VL-7B）均有效，证明方法的通用性
文本感知合并在低保留率下贡献更明显，说明query引导的二次压缩在token极少时对保留关键信息更重要
FLOPs可降至原始的约2.6%，实际端到端推理延迟和显存消耗大幅降低

亮点与洞察¶

全局保留池设计：将token压缩从分阶段独立优化变为全局联合优化，类似于将"局部贪心"升级为"全局视角"，这个思路可迁移到任何涉及多维度资源分配的场景
回收池的聚类回填：不是简单丢弃低分token，而是聚类合并后回填，保留信息完整性——这是一个实用的"信息不浪费"原则
完全无训练的即插即用设计：无需微调模型权重，直接兼容多种Video-LLM，降低部署门槛

局限与展望¶

依赖视觉编码器的注意力分数质量，如果编码器本身注意力分布不理想，剪枝效果可能受限
相似度阈值 \(\tau\) 和聚类比率等超参数需要手动设置，未探索自适应调整
仅在多选题benchmark上评估，缺少开放式生成任务的评估（如视频描述）
文本感知合并需要在LLM内部操作，对于不开放中间层的API模型难以应用

评分¶

新颖性: ⭐⭐⭐⭐ 全局统一时空分配的思路比两阶段更优雅，但核心技术组件（注意力选择+聚类合并）较常规
实验充分度: ⭐⭐⭐⭐⭐ 多骨干、多benchmark、多保留率的系统评估，消融实验覆盖全面
写作质量: ⭐⭐⭐⭐ 论文结构清晰，图示直观
价值: ⭐⭐⭐⭐ 对Video-LLM的实际部署有较高实用价值，2%保留率下90%性能对部署场景很有吸引力