跳转至

Unified Spatiotemporal Token Compression for Video-LLMs at Ultra-Low Retention

会议: CVPR 2026
arXiv: 2603.21957
代码: 无
领域: 视频理解 / 多模态VLM / LLM效率
关键词: 视觉token压缩, 视频大语言模型, 时空统一压缩, 推理加速, 无训练

一句话总结

提出统一时空token压缩方法,通过全局保留池联合评估token的贡献度和语义冗余度,并在LLM内部引入文本感知合并机制,在仅保留约2%视觉token的极端压缩下仍保留90.1%的基线性能,同时将FLOPs降至约2.6%。

研究背景与动机

  1. 领域现状:Video-LLM(如LLaVA-OneVision-7B)在复杂视频理解任务中表现优异,但单帧生成196个视觉token,32帧视频累计可达6272个token,其中大量高度冗余,导致推理延迟和显存消耗巨大。

  2. 现有痛点:当前无训练视频token压缩方法主要分三类——空间剪枝(VisionZip、PruMerge)、时间剪枝(DyCoke、TempMe)、分阶段时空方法(FastVid、HoliTom)。这些方法通常采用两阶段(先时间后空间或先空间后时间)的独立打分策略,隐式假设时空冗余可分离。

  3. 核心矛盾:在极低保留率(≤5%)下,时空可分离假设失效。分阶段决策容易导致时空资源分配不均衡——保留了非关键token却丢弃了关键token。例如FastVid在2%保留率下仅保留83.3%的原始性能。此外,LLM内部剪枝(如FastV、PDrop)仅使用最后一个token的注意力权重作为选择标准,引入位置偏差并削弱了关键查询词的语义影响。

  4. 本文目标:(a) 如何在全局约束下统一分配时空token以最大化信息贡献并最小化冗余?(b) 如何在LLM内部进一步根据查询相关性压缩token?

  5. 切入角度:将token压缩重新定义为全局时空token分配问题,而非分阶段独立处理。利用注意力权重和语义相似度联合评估所有token。

  6. 核心 idea:用统一的全局保留池替代两阶段压缩,结合贡献度-冗余度双指标选择token,配合回收池聚类合并和LLM内部文本感知合并,实现极低比例下的高效压缩。

方法详解

整体框架

方法包含两个核心组件:(1) LLM外部的统一时空token压缩模块——维护保留池和回收池,通过注意力分数和余弦相似度全局选择高贡献、低冗余的token放入保留池,未选中token通过DPC-KNN聚类合并后回填;(2) LLM内部的文本感知合并机制——基于文本到视觉token的交叉注意力和语义相似度,进一步保留与query最相关的视觉token。

关键设计

  1. 时空剪枝(Spatiotemporal Pruning):

    • 功能:从所有视觉token中选出高贡献且低冗余的token
    • 核心思路:首先利用CLS token的注意力分数 \(A_h = \text{Softmax}(Q_h K_h^\top / \sqrt{d})\) 量化每个token的贡献度,对于无CLS token的编码器(如SigLIP),计算每个token与所有其他token的平均注意力作为替代。选出top-k高注意力token后,计算每个候选token与保留池中已有token的最大余弦相似度 \(S = \max_{p \in \mathcal{P}} \frac{c \cdot p}{\|c\|\|p\|}\),只有相似度低于阈值 \(\tau\) 的才加入保留池,否则送入回收池。迭代进行直到保留池达到预设容量。
    • 设计动机:注意力分数衡量贡献度,余弦相似度检测冗余,两者结合避免保留高注意力但高冗余的token,解决了两阶段方法时空分配不均的问题。
  2. 时空聚类合并(Spatiotemporal Clustering):

    • 功能:保留回收池中token的语义信息,避免直接丢弃导致信息损失
    • 核心思路:使用DPC-KNN聚类算法。对回收池中每个token计算局部密度 \(\rho_i\) 和到更高密度token的最短距离 \(\delta_i\),以决策分数 \(\gamma_i = \rho_i \times \delta_i\) 选出聚类中心,其余token分配到最近中心并取均值作为合并token,最后回填到保留池并按原始时空顺序排列。
    • 设计动机:直接丢弃会损失语义完整性,通过聚类合并保留整体语义结构,使保留池中的token既有高贡献的精选token,也有通过聚类压缩后的补充信息。
  3. 文本感知合并(Text-Aware Merging):

    • 功能:在LLM内部进一步根据文本查询的语义相关性压缩视觉token
    • 核心思路:提取注意力矩阵中文本token到视觉token的子矩阵 \(A_{qv}\),计算每个视觉token的最大交叉注意力分数 \(A_m\) 并归一化;同时计算每个视觉token与所有文本token的最大余弦相似度 \(S_m(v_i)\)。最终决策分数 \(I(v_i) = (1-\lambda) \cdot A_m^{\text{norm}} + \lambda \cdot S_m^{\text{norm}}\) 综合两者。保留top-R%的token,被裁剪的token根据余弦相似度合并到最近的保留token中。
    • 设计动机:仅使用最后一个token的注意力(如FastV)会引入位置偏差,受RoPE的相对位置编码影响更偏向相邻token。本方法利用所有文本token的attention在全局范围找到与query最相关的视觉信息,余弦相似度补充减少位置敏感性。

损失函数 / 训练策略

整个方法完全无训练(training-free),作为即插即用模块兼容现有Video-LLM,无需修改原始模型参数。超参数设置:相似度阈值 \(\tau=0.7\),聚类比率0.3,LLM内部从第18层开始激活,保留top 50%视觉token,\(\lambda=0.5\)

实验关键数据

主实验

在LLaVA-OneVision-7B上的对比(5个benchmark平均分):

保留率 方法 FLOPs(T) MVBench EgoSchema MLVU LVBench VideoMME 均分 Score%
100% 原始 41.4 58.3 60.4 47.7 56.4 58.6 56.3 100%
2% FastVID 1.2 48.0 52.3 37.6 47.3 49.2 46.9 83.3%
2% HoliTom 1.1 52.6 57.2 37.4 48.5 51.1 49.4 87.7%
2% Ours 1.1 52.8 57.6 40.3 50.8 51.8 50.7 90.1%

跨骨干(LLaVA-Video-7B, 2%保留率):

方法 FLOPs比 MVBench MLVU VideoMME 均分 Score%
HoliTom 1.7% 50.2 39.9 55.3 48.5 82.5%
Ours 1.7% 50.1 40.8 56.2 48.8 83.0%

消融实验

配置 5%保留率均分 2%保留率均分 说明
Full model 53.7 50.7 完整方法
w/o 内部合并 53.4 50.4 去掉文本感知合并,掉0.3
HoliTom(两阶段) 52.9 49.4 两阶段基线,差距尤其在低保留率更大

关键发现

  • 在极低保留率(2%,相当于每帧约4个token)下,相对于两阶段方法HoliTom提升2.4%(Score%: 87.7→90.1),验证了统一时空分配的优势
  • 跨骨干实验(LLaVA-Video-7B、LLaVA-OV-0.5B、Qwen2.5-VL-7B)均有效,证明方法的通用性
  • 文本感知合并在低保留率下贡献更明显,说明query引导的二次压缩在token极少时对保留关键信息更重要
  • FLOPs可降至原始的约2.6%,实际端到端推理延迟和显存消耗大幅降低

亮点与洞察

  • 全局保留池设计:将token压缩从分阶段独立优化变为全局联合优化,类似于将"局部贪心"升级为"全局视角",这个思路可迁移到任何涉及多维度资源分配的场景
  • 回收池的聚类回填:不是简单丢弃低分token,而是聚类合并后回填,保留信息完整性——这是一个实用的"信息不浪费"原则
  • 完全无训练的即插即用设计:无需微调模型权重,直接兼容多种Video-LLM,降低部署门槛

局限与展望

  • 依赖视觉编码器的注意力分数质量,如果编码器本身注意力分布不理想,剪枝效果可能受限
  • 相似度阈值 \(\tau\) 和聚类比率等超参数需要手动设置,未探索自适应调整
  • 仅在多选题benchmark上评估,缺少开放式生成任务的评估(如视频描述)
  • 文本感知合并需要在LLM内部操作,对于不开放中间层的API模型难以应用

相关工作与启发

  • vs HoliTom: HoliTom用动态规划做帧分割+两阶段剪枝合并,本文用全局保留池统一处理。HoliTom在中等保留率表现不错但极低保留率下退化更快
  • vs FastV: FastV仅在LLM内部用最后token的attention做剪枝,缺乏外部压缩,且受位置偏差影响。本文在外部和内部双重压缩,且用多token注意力避免偏差
  • vs VisionZip: VisionZip仅做空间压缩,不处理时间冗余,在视频场景下效果有限

评分

  • 新颖性: ⭐⭐⭐⭐ 全局统一时空分配的思路比两阶段更优雅,但核心技术组件(注意力选择+聚类合并)较常规
  • 实验充分度: ⭐⭐⭐⭐⭐ 多骨干、多benchmark、多保留率的系统评估,消融实验覆盖全面
  • 写作质量: ⭐⭐⭐⭐ 论文结构清晰,图示直观
  • 价值: ⭐⭐⭐⭐ 对Video-LLM的实际部署有较高实用价值,2%保留率下90%性能对部署场景很有吸引力