MeToM: Metadata-Guided Token Merging for Efficient Video LLMs¶

会议: CVPR 2026
论文: CVF Open Access
代码: 未公布
领域: 模型压缩 / 视频多模态
关键词: 视频大模型, 视觉 token 压缩, 编解码元数据, 训练免费, 推理加速

一句话总结¶

MeToM 把视频编解码器里"白送"的码流元数据（残差能量、GoP 包大小）当作时空信息密度的零成本代理，用 RPM / BTM / MATM 三个模块在「tokenization 时、进 LLM 前、LLM 内部」三处分级地按内容复杂度自适应合并视觉 token，无需任何训练就在多个 Video LLM 上取得 2.65× 端到端推理加速且精度不降反升。

研究背景与动机¶

领域现状：主流 Video LLM 走 LLaVA 式架构——多帧画面经视觉编码器变成视觉 embedding，投影后和文本一起喂给 LLM 做多模态推理。但视频会生成数以万计的视觉 token，注意力复杂度随序列长度平方增长，prefill 延迟和显存（KV cache）都被撑爆，严重阻碍部署。

现有痛点：为减负，视觉 token 剪枝/合并成了常用手段，分两类——「进 LLM 前」按特征相似度或注意力分数裁剪，「LLM 内部」缩短有效上下文。但这些方法几乎都均匀地给每帧、每个区域分配 token 预算，而视频的时空信息密度极不均匀：静止背景、平滑区域信息稀薄，前景主体、纹理边界、剧烈运动段才是关键。均匀策略导致资源严重错配——宝贵预算被耗在无信息背景上，复杂动态区域反而表征不足。

核心矛盾：要按内容复杂度自适应分配 token，就得先度量每个区域/每帧的信息密度；但在视觉编码器之前直接估计密度，本身又是昂贵的特征提取，得不偿失。

本文目标：找到一个零成本、训练免费的时空信息密度信号，用它驱动内容自适应的 token 合并，同时在编码前、进 LLM 前、LLM 内三个阶段都把冗余压下去。

切入角度：作者从传统视频压缩里得到启发——码流（bitstream）里本就免费携带两类元数据：① 残差数据（帧间/帧内预测后剩余的非冗余细节）天然反映空间纹理丰富度；② GoP（Group of Pictures）包大小反映该视频片段的时间复杂度（运动越剧烈、结构变化越多，包越大）。这些信号解码时白拿，几乎零开销。

核心 idea：用编解码元数据当"信息密度地图"，把均匀 token 压缩换成 metadata 引导的内容自适应 token 合并，且全程不训练。

方法详解¶

整体框架¶

MeToM 是一个训练免费框架，沿 Video LLM 的推理管线在三个不同阶段分级压缩视觉 token，每一级都用一种编解码元数据当密度线索。输入是原始视频帧及其码流元数据，输出是一段被大幅压短、却保留关键时空语义的视觉 token 序列，直接喂给 LLM。三个模块依次是：RPM 在 tokenization 阶段（视觉编码器之前）按空间残差做早期合并；BTM 在进 LLM 前用 GoP 包大小做逐帧预算分配 + 跨帧去冗余；MATM 在 LLM 内部用多层注意力把低贡献 token 并入近邻。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["视频帧 + 码流元数据<br/>(残差数据 / GoP 包大小)"] --> B["RPM 残差引导的图块合并<br/>编码前按残差能量并低密度图块"]
    B --> C["视觉编码器"]
    C --> D["BTM 预算自适应 token 合并<br/>按包大小分帧预算 + 跨帧去冗余"]
    D --> E["MATM 多层注意力引导合并<br/>LLM 内并掉低贡献 token"]
    E --> F["压缩后视觉序列 → LLM 推理"]

关键设计¶

1. RPM 残差引导的图块合并：在编码前就用残差能量砍掉空间冗余

针对"均匀 tokenization 在低密度背景上白白浪费算力"的痛点，RPM 把合并前移到 tokenization 阶段、放在重型视觉编码器之前，用码流残差当空间信息密度的零成本代理（残差与局部纹理丰富度强相关，无需任何特征提取）。给定输入帧 \(I_t\) 及其残差 \(r_t\)，先做逐通道标准化 \(\tilde r_{t,c}=(r_{t,c}-\mu_{t,c})/(\sigma_{t,c}+\epsilon)\) 统一三通道动态范围，再算像素级信息密度 \(E_t(x,y)=\sum_{c=1}^{3}\tilde r_{t,c}(x,y)^2\)，经 min-max 归一化和按图块网格聚合 \(S_t=\text{GridAggregate}(\text{norm}(E_t))\) 得到图块级密度分数。低于阈值 \(\tau\) 的图块被标为低密度掩码 \(M_t\)，把空间相邻的低密度图块抽成连通区域 \(C_t\)，每个连通区域用 patch embedding 平均成一个代表 token \(\bar h_{t,C}=\frac{1}{|C|}\sum_{p\in C}h_{t,p}\)，而高密度图块（\(S_t\ge\tau\)）按原分辨率保留。这种"连通感知"的合并专门压住零散的背景 token、避免冗余编码——关键是它发生在编码器之前，因此还顺带省了视觉编码器本身的开销（实测 Vision Tower 从 525ms 降到 450ms），这是只能在编码后裁剪的同类方法做不到的。

2. BTM 预算自适应 token 合并：用 GoP 包大小给每帧分预算并跨帧去冗余

RPM 只压了空间冗余，没管视频固有的时间冗余（相邻帧背景、静态区域高度重复）。BTM 用 GoP 包大小 \(c_t\) 当时间密度信号——包越大说明运动/结构变化越剧烈、信息越多。预算分配上，给定全局视觉 token 预算 \(M_v\)，先给每帧保底 \(m_{\min}\) 个 token，剩余预算按 \(\sqrt{c_t}\) 比例分配：\(m_t=m_{\min}+\text{round}\big((M_v-Tm_{\min})\frac{\sqrt{c_t}}{\sum_k\sqrt{c_k}}\big)\)，于是复杂帧拿到更多 token。拿到逐帧预算后做三步收缩：① coreset 选择——按 RPM 给的空间密度分数 \(s_{t,i}\) 取 top-\(m_t\) 个 token 作核心集 \(T_t\)，其余进补集 \(\bar T_t\)；② 跨帧时间去冗余——核心 token 两两算余弦相似度 \(\text{sim}((t,i),(t',j))\)，超过阈值 \(\tau_{tem}\) 的从高到低相似度成对合并 \(\hat h=(h_{t,i}+h_{t',j})/2\)；③ 低密度 token 空间折叠——把补集里每个低密度 token 并入本帧内最相似的精化核心 token。三步下来既保住空间语义、又抹掉时间重复，得到紧凑序列。

3. MATM 多层注意力引导合并：在 LLM 内部用跨层注意力稳定地并掉低贡献 token

进入 LLM 后视觉注意力是稀疏的，但单层注意力分布抖动大，已有方法只用单层注意力来剪 token，决策不稳。MATM 改为跨多层聚合注意力：对一组层 \(L\)，token \(i\) 的聚合重要度 \(a_i=\frac{1}{|L|}\sum_{\ell\in L}a_i^{(\ell)}\)。据此把最低 \(R\%\) 的视觉 token 判为冗余，并把每个冗余 token 并入与它最相似（余弦）的保留 token \(v'_{r^\star}=\text{average}(v_{r^\star},v_j)\)。跨层聚合让 saliency 估计更稳，从而进一步缩短视觉序列、直接降低 prefill FLOPs 和视觉 KV cache 占用（LLM backbone prefill 从 1329ms 砍到 215ms，约 6.2×）。

⚠️ 三模块即整体框架里点名的全部贡献组件，框架↔关键设计一一对应；视觉编码器、LLM 为脚手架节点不单列设计。

实验关键数据¶

主实验¶

在 LLaVA-OneVision-7B 上对比 5 个训练免费 SOTA（FastV / ToMe / DyCoke / STTM / HoliTom），覆盖 5 个视频 QA 基准（VideoMME、LongVideoBench、MLVU、EgoSchema、NExT-QA）。所有精度均相对 100% 预算基线报告，TTFT（Time-To-First-Token，即 prefill 首 token 延迟）和 NV（实际保留的视觉 token 数）越低越好。

配置	平均精度(相对100%)	平均 TTFT(相对100%)	说明
100% LLaVA-OV-7B	100.0	100	全 token 基线
50% + ToMe	101.2	50.4	第二梯队
50% + HoliTom	100.4	46.3	—
50% + MeToM	102.0	41.5	精度反超基线 2.0%，TTFT 最低
30% + FastV	98.4	31.5	掉到基线以下，丢关键信息
30% + ToMe	100.7	34.1	略高但延迟收益有限
30% + MeToM	101.2	27.3	激进预算下仍精度最高、TTFT 最低

跨骨干泛化与效率分析¶

骨干 / 预算	MeToM 表现	对照
LLaVA-Video-7B @30%	保留 98.4% 精度	FastV 96.0%、HoliTom 97.4%
Qwen2VL-7B @30%	TTFT 23.7%（最低），精度 +1.3%	ToMe 跌到 97.9%
LLaVA-Video-72B @50%	精度 +1.4%（101.4%），TTFT 41.9%	唯一显著提精度的方法
LLaVA-Video-72B @30%	保留 99.1%	ToMe 97.1%、DyCoke 98.3%

效率拆解（Fig. 3，TTFT 分 Vision Tower / LLM Backbone / Other 三段）：LLM backbone prefill 1329ms→215ms（6.2×）；Vision Tower 525ms→450ms（得益于编码前的 RPM）；预处理仅 53ms（HoliTom 92ms、DyCoke 58ms）；总 TTFT 降到 718ms，端到端 2.65× 加速。

关键发现¶

越激进越显优势：30% 预算下 FastV、HoliTom 掉破基线，MeToM 仍保 101.2%，说明 metadata 引导的预算分配把 token 花在了刀刃上。
编码前合并是独有红利：因为 RPM 在视觉编码器之前动手，MeToM 还能省 Vision Tower 时间，而所有后编码方法都得先跑完整 Vision Tower 才能压。
元数据近乎免费：预处理仅比基线多 3ms（53 vs 50ms），却换来 2.65× 加速。

亮点与洞察¶

把"压缩域的副产品"复用到推理压缩：残差能量和 GoP 包大小是视频编码时本就算好的量，解码即得，作者把它们当时空信息密度图，是"免费午餐"式的巧思——避开了"为测密度先做昂贵特征提取"的死循环。
三处分级、各取所长：空间冗余在编码前压（RPM）、时间冗余在进 LLM 前压（BTM）、语义低贡献在 LLM 内压（MATM），三个阶段用三种不同信号，互不打架且层层递减。
可迁移性：用码流元数据当廉价显著性先验这一思路，可推广到视频检索、流式视频理解等任何需要在海量帧里挑重点的任务。

局限与展望¶

强依赖码流元数据可得：若视频已被转码/重编码、或以原始帧（无压缩）形式输入，残差和 GoP 信号可能失真或缺失，方法增益会打折。
残差/包大小是压缩域的代理，与"语义重要性"并非完全等价——高纹理但语义无关的区域（如复杂背景噪声）可能被误判为高密度而保留。
阈值 \(\tau\)、\(\tau_{tem}\)、保底预算 \(m_{\min}\)、层集合 \(L\)、剪枝比例 \(R\%\) 等超参较多，论文主文未给敏感性分析（⚠️ 模块级消融与超参扫描可能在补充材料，正文未列）。
作者展望引入更丰富的元数据信号，并扩展到流式与检索增强的视频理解。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 用码流元数据当时空密度先验、训练免费且编码前合并，角度新颖。
实验充分度: ⭐⭐⭐⭐ 跨 4 个骨干、5 个基准、双预算充分对比；但主文缺逐模块消融与超参敏感性。
写作质量: ⭐⭐⭐⭐ 三模块动机—机制—公式衔接清晰，图示直观。
价值: ⭐⭐⭐⭐⭐ 即插即用、零训练、2.65× 加速且精度不降，部署价值高。