StreamingTOM: Streaming Token Compression for Efficient Video Understanding¶

会议: CVPR 2026
arXiv: 2510.18269
代码: 项目页
领域: 多模态VLM / 视频理解
关键词: 流式视频理解, token压缩, KV-cache优化, 因果时序缩减, 4-bit量化记忆

一句话总结¶

首个同时解决流式视频VLM中pre-LLM prefill和post-LLM KV-cache两个效率瓶颈的免训练框架，实现15.7倍压缩和有界活跃内存。

研究背景与动机¶

流式视频理解与离线处理有根本区别：面临两个独特约束——(1) 因果性：只能看到已有帧，无法利用未来帧；(2) 累积性：token数量随时间无界增长，内存和延迟不断恶化。以LLaVA-OV-7B为例，处理1小时视频的KV-cache达18.8GB，远超GPU容量。

现有免训练方法只管post-LLM的KV-cache（如eviction策略），但完全忽略了pre-LLM的prefill开销——每帧所有 \(N\) 个视觉token都需经过完整transformer前向传播，这是延迟主要来源。更关键的是，现有离线token压缩方法需利用全局/未来帧信息，违反了流式场景的因果约束。

因此，因果约束下的pre-LLM token缩减与post-LLM内存管理的联合优化是未被探索的关键问题。核心洞察：有效的流式压缩必须在LLM之前、在严格因果约束下进行——post-LLM方法无法减少已产生的prefill计算。

方法详解¶

整体框架¶

两阶段免训练框架：Stage 1 因果时序缩减（CTR）处理pre-LLM瓶颈——将每帧 \(N\) 个token缩减为固定预算 \(G\) 个；Stage 2 在线量化记忆（OQM）处理post-LLM瓶颈——将KV-cache以4-bit存储并按需检索。两者通过帧对齐的group抽象协调。

关键设计¶

因果时序缩减（CTR）:
- 功能：在严格因果约束下将每帧视觉token从 \(N\) 压缩到固定预算 \(G\)
- 核心思路：只用相邻两帧窗口，通过余弦相似度将token分为静态/动态集合，按比例分配预算。静态token用DPC聚类合并，动态token按注意力显著性选择
- 设计动机：固定预算 \(G\) 保证可预测延迟；自适应分配让静止场景多压缩、运动场景多保留
在线量化记忆（OQM）:
- 功能：将post-LLM的KV-cache以4-bit格式存储，按需检索反量化
- 核心思路：保留帧对齐group结构（每组 \(G\) 个token对应一帧），查询时检索最相关的 \(k\) 个group反量化为FP16参与注意力计算。活跃KV-cache有上界，不随视频长度增长
- 设计动机：4-bit量化降存储4倍；group级检索保持时序完整性，避免token碎片化
统一压缩比分析:
- 功能：量化端到端压缩效果
- 核心思路：prefill从 \(O(TNLd^2)\) 降到 \(O(TGLd^2)\)，存储从 \(O(TN \cdot d \cdot 16)\) bit降到 \(O(TG \cdot d \cdot 4)\) bit，组合压缩比 \(4N/G \approx 15.7\times\)（\(N=196, G=50\)）
- 设计动机：预算 \(G\) 同时控制计算和存储，实现双重压缩

损失函数 / 训练策略¶

完全免训练方法，可直接应用于现有VLM（如LLaVA-OV-7B）。

实验关键数据¶

主实验¶

指标	StreamingTOM	LiveVLM (之前SOTA)	提升
KV-cache压缩比	15.7×	-	-
峰值内存	-	-	1.2×更低
TTFT	-	-	2×更快
离线平均准确率	63.8%	~61%	+2.8%
RVS准确率	55.8%	~54%	+1.8%

消融实验¶

配置	关键指标	说明
仅CTR	内存未控	prefill加速但KV-cache仍无界
仅OQM	延迟未改	存储压缩但prefill不变
CTR+OQM	双优	两阶段缺一不可
不同预算G	G=50最优	G过低损精度，G过高压缩不足

关键发现¶

1小时视频KV-cache从18.8GB降到1.2GB，有界增长使无限长视频流理论上可行
CTR的双路处理关键：纯聚类或纯选择都不如混合策略
在离线和流式基准上同时达到免训练方法SOTA

亮点与洞察¶

核心贡献在于识别"pre-LLM和post-LLM是两个独立瓶颈需分别解决"这一洞察。帧对齐group抽象连接两阶段，使token缩减和存储优化解耦但协调——设计优雅且有实际意义。

局限与展望¶

4-bit量化在极端精度要求场景可能引入质量损失
基于相邻帧余弦相似度的分类在快速运动场景可能遗漏关键变化
固定预算G不随内容复杂度自适应
未在训练式方法上验证CTR/OQM作为即插即用模块的效果

评分¶

新颖性: ⭐⭐⭐⭐ 首次同时解决双层效率瓶颈，因果token缩减+4-bit量化记忆结合新颖
实验充分度: ⭐⭐⭐⭐ 离线和流式基准均SOTA，效率指标全面
写作质量: ⭐⭐⭐⭐ 问题定义清晰，数学推导完整
价值: ⭐⭐⭐⭐⭐ 解决流式视频VLM实际部署核心痛点