FlashVID: Efficient Video Large Language Models via Training-free Tree-Based Spatiotemporal Token Merging¶

会议: ICLR 2026 Oral
arXiv: 2602.08024
代码: https://github.com/Fanziyang-v/FlashVID
领域: 视频理解 / LLM效率 / 多模态VLM
关键词: 视觉token压缩, 时空冗余, token合并, 视频大语言模型, 免训练加速

一句话总结¶

提出 FlashVID，一个免训练的视频大语言模型推理加速框架，通过树状时空 token 合并（TSTM）联合建模空间和时间冗余，仅保留 10% 的视觉 token 就能保持 LLaVA-OneVision 99.1% 的性能，并能将 Qwen2.5-VL 的输入帧数提升 10 倍。

研究背景与动机¶

领域现状：视频大语言模型（VLLMs）在视频理解任务上表现优秀，但需要处理大量视觉 token（如 32帧 x 196 token/帧 = 6272 个 token），attention 计算复杂度与序列长度平方成正比，推理开销巨大。

现有痛点：现有加速方法（FastV, VisionZip, PruneVID）通常独立压缩空间冗余和时间冗余，忽视了时空关系的内在耦合。特别是 Temporal Token Merging（TTM）假设相邻帧中语义相似的 token 位于相同空间位置，但视频中目标会移动、变形、缩放。

核心矛盾：TTM 的固定空间对应关系在动态视频中不成立——最相关的视觉特征在相邻帧中可能不在同一空间位置，强行合并会引入噪声，扭曲视频表征。

本文目标 如何在不训练的前提下，联合建模空间和时间冗余进行高效压缩，同时适应视频的动态特性？

切入角度：观察到空间冗余和时间冗余是耦合的（某帧的冗余区域往往在多帧中持续存在），以及时间冗余不绑定于固定空间位置。

核心 idea：用层次化的时空冗余树替代固定空间位置的帧间 token 对应，匹配最相似而非同位置的 token 进行合并。

方法详解¶

整体框架¶

FlashVID 想解决的是视频 VLLM 在长序列视觉 token 上的推理瓶颈：32 帧 × 196 token/帧 ≈ 6272 个视觉 token 喂进 LLM，attention 的平方复杂度让推理变得很贵。它的做法是在视觉 token 进 LLM 之前先做一遍免训练的压缩，分两步走——先用 ADTS 从每帧里挑出一小撮"既重要又互不冗余"的 token 原封保留，再让剩下的大批 token 进入 TSTM，跨帧找到语义最相似的同伴、聚成一棵棵冗余树，每棵树塌缩成一个 token。最后把"保留的重要 token"和"聚合出的代表 token"并在一起，送进 LLM。两个模块一个管"挑出该留的"，一个管"压掉该并的"，互补协同。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["视频帧<br/>32帧×196 token≈6272"] --> B["视觉编码器<br/>提取 token 特征"]
    B --> C["ADTS：注意力+多样性<br/>Token 选择<br/>(MMDP + CLS注意力 + 事件相关性)"]
    C -->|"保留的重要 token"| F["并集<br/>(~10% 视觉 token)"]
    C -->|"剩余大批 token"| D["TSTM：树状时空<br/>Token 合并<br/>(跨帧最相似匹配→冗余树)"]
    D -->|"每棵树均值池化→代表 token"| F
    F --> G["视频大语言模型<br/>(LLM)"]

关键设计¶

1. 注意力 + 多样性 Token 选择（ADTS）：先挑出每帧里既重要又多样的代表 token

ADTS 放在整条流水线最前面，原因是如果直接拿原始视频特征去构建冗余树，那些噪声大、信息量低却占多数的 token 会把树带偏，反而漏掉真正关键的视觉信息。所以要先把每帧里"该保住的"代表 token 筛出来。它把"选哪些 token"建模成一个 Max-Min Diversity Problem（MMDP），在每帧的 token 余弦距离矩阵 \(D^{(f)}\) 上求解，目标是让选出的子集彼此尽量分散、覆盖多样的特征。

但纯 MMDP 只保证多样性，容易漏掉信息量最大的那几个 token，所以 ADTS 又叠了两个校准项来纠偏：一是 CLS 注意力权重 \(A_{[CLS]}\)，标记出被视觉 encoder 关注最多的 token；二是事件相关性 \(\bar{S}_e\)，先对全帧做全局平均池化得到一个帧级嵌入，再算每个 token 与"整段视频事件"的相关性。最终求解 \(\mathcal{I}=\text{MMDP}(D, A_{[CLS]}, \bar{S}_e)\) 得到的子集既铺得开又不漏关键信息，这批 token 被标记为"保留"、不再进入后续合并。消融实验印证了这套组合：ADTS 大幅优于只用注意力（ATS）或只用多样性（DTS）的选择，两个校准项缺一不可。

2. 树状时空 Token 合并（TSTM）：用全局最相似匹配替代固定空间位置的帧间对应

ADTS 留下重要 token 后，每帧剩下的大批 token 才交给 TSTM 压缩。这一步针对的是已有时间合并方法（TTM）的核心假设缺陷：TTM 默认相邻帧里语义相似的 token 落在同一空间位置，于是按位置一对一合并。但视频里目标会移动、变形、缩放，最相关的特征往往已经挪到了别处，强行按位置合并就把噪声混了进来，扭曲视频表征。

TSTM 改成让 token 在空间里自由匹配：对相邻两帧计算 token 间的余弦相似度矩阵 \(S^{(f)}\)，每个 token 连接到前一帧中与它最相似（而非同位置）的 token，且相似度要超过阈值 \(T_\tau\) 才连边。逐帧滚动下来，这些连边渐进地长成一棵棵跨帧的冗余树，同一棵树里的所有 token 用均值池化聚合成一个代表 token。因为匹配不再被空间位置锁死，目标运动带来的位移就被自然吸收。实验侧也印证了这点：相同阈值下，TSTM 比 TTM 能合并掉更多 token，而且合并时 token 之间的平均相似度更高——既压得更狠，又并得更准。

一个完整示例¶

拿 LLaVA-OneVision 的 32 帧输入走一遍：原始约 6272 个视觉 token，目标只保留 10%（约 627 个）。第一阶段 ADTS 在每帧上求解 MMDP 并用 CLS 注意力、事件相关性校准，挑出一小批最具代表性的重要 token，这批 token 标记为"保留"、后续不再动。第二阶段，每帧剩下的大批 token 进入 TSTM：跨相邻帧按最相似（超阈值）连边，渐进长出冗余树，每棵树均值池化塌缩成一个代表 token。最后把两阶段的产物——"各帧保留的重要 token"与"冗余树聚合出的代表 token"——取并集送进 LLM。一个在多帧中持续存在的冗余背景区域，会被归进同一棵树压成一个 token；而一个随镜头移动的前景目标，则靠 TSTM 的自由匹配跟住、或被 ADTS 当作重要 token 留下，不会因为换了位置就被错误合并。

训练策略¶

无需任何训练，整套压缩作为即插即用模块直接嵌入现有 VLLM 的推理流程。

实验关键数据¶

主实验¶

在 LLaVA-OneVision（32帧）上，5 个视频理解基准的平均表现：

方法	保留比例	VideoMME	EgoSchema	LongVideoBench	MVBench	平均	相对准确率
Vanilla	100%	58.5	60.3	56.6	58.3	58.4	100.0%
FastV	10%	51.5	51.2	52.3	52.3	51.8	88.7%
VisionZip	10%	51.6	55.6	50.1	50.3	51.9	88.9%
FastVID	10%	55.5	56.1	55.5	57.7	56.2	96.2%
FlashVID	10%	57.2	59.5	56.0	57.7	57.9	99.1%

Qwen2.5-VL 帧数扩展实验¶

设置	帧数	VideoMME	MLVU	相对提升
Vanilla	16帧	65.7	67.6	baseline
FlashVID	160帧	69.9	74.5	+8.6%

消融实验¶

配置	VideoMME	EgoSchema	平均
Full FlashVID (ADTS+TSTM)	57.2	59.5	57.9
w/o TSTM (仅 ADTS)	56.2	58.0	56.7
w/o ADTS (仅 TSTM)	56.5	59.1	57.0
TTM 替代 TSTM	55.5	57.8	56.5

关键发现¶

TSTM 贡献最大，从仅 ADTS 到加入 TSTM 提升约 1.2 个点
用 TTM 替代 TSTM 后性能明显下降，验证了动态空间对应的重要性
10% token 保留率下 FlashVID 保持 99.1% 性能，远超 FastV（88.7%）和 VisionZip（88.9%）
在 Qwen2.5-VL 上延长输入帧数到 10 倍，同等计算预算下性能提升 8.6%

亮点与洞察¶

树状动态匹配：核心洞察简单但有效——相邻帧的相关 token 不在同一位置，用全局最相似匹配替代固定位置匹配。这个思路可迁移到任何涉及跨帧对应的任务。
免训练即插即用：无需重新训练，理论上可适配任何 VLLM，工程价值高。
帧数扩展应用：通过压缩 token 节省的计算量"交换"为更多输入帧，巧妙地将效率提升转化为能力提升。

局限与展望¶

合并阈值是超参数，不同视频的最优阈值可能不同，自适应阈值策略值得探索
TSTM 对超长视频和高分辨率输入，构建相似度矩阵的开销不可忽略
仅在 VLLM 的推理阶段压缩，未考虑训练时的效率提升
对静态场景（冗余极高）和高动态场景（冗余极低）的压缩效果差异未充分分析

评分¶

新颖性: ⭐⭐⭐⭐ 树状时空合并思路简洁有效，但整体框架是已有组件的组合
实验充分度: ⭐⭐⭐⭐⭐ 3个VLLM x 5个基准 x 多个压缩比例，非常全面
写作质量: ⭐⭐⭐⭐ 动机清晰，图示直观，算法描述完整
价值: ⭐⭐⭐⭐⭐ 免训练、即插即用、性能损失极小，实用价值很高