SURGE: Surprise-Guided Token Reduction for Efficient Video Understanding with VLMs¶
会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=rCFPSIjqMf
代码: https://github.com/BarryTang22/SURGE
领域: 多模态VLM / 视频理解 / VLM效率
关键词: token 裁剪, 视频 VLM, 时间预测, 惊奇度, 免训练
一句话总结¶
SURGE 用「token 在时间上是否可预测」来度量惊奇度(surprise)——可预测的冗余 token 被裁掉、不可预测的新信息 token 被保留,免训练、不挑骨干网络,在五个视频理解基准上把 token 数压到原来的 1/7、prefill 成本砍掉 86–98%,精度却与全 token 基线相差不超过 ±1 分。
研究背景与动机¶
领域现状:视频 VLM(InternVL、Qwen-VL、LLaVA-Next 等)把短短几秒的片段就展开成数千个视觉 token,注意力的二次复杂度让长视频推理极其昂贵。为压成本,社区沿三条线做效率优化:时间维度上挑关键帧(keyframe selection)、表示维度上把每帧压成更少 token、token 维度上合并或裁剪冗余 patch。
现有痛点:这些方法大多要付出额外代价——要么需要训练一个辅助选择器,要么要微调骨干网络,要么依赖模型内部的注意力图(attention map),而注意力图在很多已部署系统里根本拿不到。更关键的是,它们的代理信号(注意力权重、相似度分数)衡量的是「当前这一步什么重要」,而不是「相比刚才什么变了」——于是冗余但仍然「在主题上」的片段会继续白白消耗算力,而真正的新事件反而可能被忽略。
核心矛盾:视频天然具有时间连续性,连续帧背景相似、运动可预测,存在大量冗余;但现有效率方法没有一个免训练、不依赖内部注意力、与骨干无关的信号来在线判断「哪些 token 携带了不可预测的新信息、值得算」。
切入角度:作者借用认知科学和强化学习里的老思想——predictive coding 认为符合预期的输入被抑制、出乎意料的才被深加工;好奇心模块用预测误差奖励探索。把这个「惊奇即预测误差」的原则直接搬到 token 空间:与近期历史一致的 token 信息量低,偏离预期的 token 标志真正的变化。
核心 idea:在 token 空间用一个轻量恒速预测器估计每个 token,用「预测误差」定义惊奇度——高惊奇 token 保留、可预测 token 裁剪;再把 token 级惊奇沿时间聚合成「惊奇曲线」切分关键事件,可选地用 CLIP 按 query 相关度进一步聚焦,形成紧凑的时空掩码。
方法详解¶
整体框架¶
SURGE 是一个插在「视觉编码器之后、语言模型之前」的免训练掩码模块。视觉塔把每帧切成 \(m\) 个 patch、输出 patch embedding 后,SURGE 先在未投影的原始 patch 特征上算每个 token 的惊奇分数(恒速预测 → 漂移校正 → 方差归一化),再做两件事:一是按全局百分位保留最惊奇的 top-\(\rho\) token(自适应掩码),二是把每帧的惊奇 token 数聚合成惊奇曲线、用峰值切出关键事件窗口。这套时空掩码本身就能直接用于高效推理;对 query 聚焦的任务,还可以再用 CLIP 计算 query 与峰值帧的相似度、只保留 Top-K 最相关的事件(记作 SURGE⋆)。最终只有「关键事件里的高惊奇 token」被送进 LLM,其余被裁掉。
%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
A["视频帧 → 视觉塔<br/>patch embedding"] --> B["1. token 空间惊奇度<br/>恒速预测+漂移校正+方差归一化"]
B --> C["2. 自适应掩码 + 惊奇曲线<br/>全局百分位保留 top-ρ → 峰值切事件"]
C -->|query 聚焦任务| D["3. CLIP 事件聚焦<br/>按 query 相关度选 Top-K 事件"]
C -->|普通任务| E["时空掩码"]
D --> E
E --> F["仅高惊奇 token → LLM"]
关键设计¶
1. token 空间的惊奇度:用恒速预测误差度量「可预测性」
这是全文的地基,针对的痛点是「缺一个免训练、不挑骨干、不依赖注意力图的新信息信号」。作者先做了一个理论铺垫:自然视频平滑演化,\(I_{t+1}\approx I_t+\Delta I_t\),对可微的编码器 \(f_j\) 做一阶泰勒展开可得 token 空间近似线性动力学 \(z^{(j)}_{t+1}-2z^{(j)}_t+z^{(j)}_{t-1}\approx 0\),即一个恒速先验(constant-velocity prior):平滑运动满足它,突变事件会产生大偏离。基于此,预测器把最近一次位移外推:\(\hat z^{(j)}_t=z^{(j)}_{t-1}+\tilde\delta^{(j)}_{t-1}\),其中 \(\tilde\delta^{(j)}_{t-1}\approx z^{(j)}_{t-1}-z^{(j)}_{t-2}\)。这是因果的、免训练的、对所有空间位置一视同仁,因此天然兼容任意 ViT 骨干。
但裸预测器分不清「真新颖」和「相机平移/全局变换造成的大范围一致运动」——后者会让几乎所有 token 一起变、引发假惊奇。于是加全局漂移校正:把位移场近似成空间坐标的仿射函数 \(\Delta z^{(j)}_t\approx c_0+c_x x_j+c_y y_j\),用最小二乘闭式解 \(\hat C=(X^\top X)^{-1}X^\top\Delta Z_t\) 拟合系数,再把全局平移和一阶平面流减掉得到去趋势位移 \(\tilde\delta^{(j)}_t\);每帧只多一个 \(3\times3\) 最小二乘,开销可忽略([CLS]/register 等特殊 token 不参与拟合且始终保留)。最后惊奇向量 \(e^{(j)}_t=z^{(j)}_t-\hat z^{(j)}_t\) 的平方模长再用该 token 历史方差的指数滑动平均 \(\sigma^{2,(j)}_t\) 做方差归一化,得到标量惊奇分数
这一步把分数校准成「局部线性-高斯无变化时约等于其期望、显著偏离才大」的统计量,抑制了漂移噪声、让惊奇峰值对齐真正的内容变化。
2. 自适应掩码与惊奇曲线:从 token 分数到关键事件切分
有了逐 token 惊奇分数,第二步把它变成可用的时空掩码。自适应掩码用全局百分位而非固定阈值:收集当前缓冲区(离线时是整段、流式时是已观测前缀)内所有分数 \(S_B\),取 \(p\) 百分位 \(q(p)\),掩码 \(M_{u,j}=\mathbb 1\{s^{(j)}_u\ge q(p)\}\),保留 \(\rho=1-p\) 比例的 token。妙处在于这是「跨整段做全局选择」——动态帧贡献多、冗余帧贡献少,预算自动向变化集中的地方倾斜,而不是每帧裁掉固定比例。
为进一步抓「关键事件」,把每个时间单元 \(u\) 超过阈值的 token 数 \(S_u=\sum_j M_{u,j}\) 沿时间拼成惊奇曲线,用 EMA \(\bar S_u=\gamma\bar S_{u-1}+(1-\gamma)S_u\) 平滑去噪,再做峰值检测(带最小间隔 \(\Delta\) 和小 prominence 阈值)。相邻峰值的中点作为事件边界 \(b_k=\lfloor(\tau_k+\tau_{k+1})/2\rfloor\),每个峰 \(\tau_k\) 对应事件区间 \(I_k=[b_{k-1},b_k)\)——于是「两个惊奇高峰之间的时段」被自然切成一个关键事件,给后续按事件分配算力提供了结构。
3. CLIP 查询感知的事件聚焦:让算力既「新」又「相关」
掩码本身只保证「新」,但 query-focused 的长视频检索还需要「和问题相关」。SURGE⋆ 在峰值帧上做一次 CLIP:取峰值帧嵌入 \(v_{\tau_k}\),算它与文本 query 的相似度 \(r_k=\mathrm{sim}(q,v_{\tau_k})\),按 \(r_k\) 排序保留 Top-K 事件 \(E_K\),只在这些区间内施加掩码、其余位置仅保留一个小的「上下文地板」\(C_{u,j}\)(如按惊奇分排序的 top-\(k_{ctx}\) token)。最终掩码为
其中 \(A_u=\mathbb 1\{u\in\bigcup_{k\in E_K}I_k\}\) 标记是否落在选中事件里。这一步只多一次对少量峰值帧的 CLIP 前向,却能把送进 LLM 的 token 进一步减半左右,并在超长上下文检索里显著提升聚焦度——把惊奇驱动的「新」和 query 驱动的「相关」组合成最终的紧凑时空掩码。
实验关键数据¶
主实验¶
五个视频-语言基准(Video-MME、MLVU、MMBench-Video、TempCompass、LongVideoBench)、三个旗舰 VLM(InternVL-3.5-VL 8B、Video-LLaVA-Qwen 7B、Qwen2.5-VL 7B),默认保留 \(\rho=0.25\)(75 百分位)、EMA \(\gamma=0.9\)、峰间隔 \(\Delta=8\)、CLIP Top-5。SURGE 把视觉 token 压到约 26–27%(≈4×),SURGE⋆ 进一步压到约 14–16%(≈7×),精度仍在 ±1 分内。
| 模型 (64 帧) | Tokens | V-MME | MLVU (M/G) | MMB-V | T-Compass | LVB |
|---|---|---|---|---|---|---|
| InternVL-3.5-VL (8B) | 17,124† | 66.0 | 71.7 / 3.44 | 1.54 | 68.9 | 61.3 |
| + SURGE | 4,674 | 64.9 | 71.5 / 3.45 | 1.57 | 69.0 | 61.7 |
| + SURGE⋆ | 2,932 | 65.8 | 71.7 / 3.69 | 1.57 | 69.7 | 62.2 |
| Video-LLaVA-Qwen (7B) | 12,246 | 63.4 | 72.9 / 3.30 | 1.53 | 66.9 | 58.3 |
| + SURGE⋆ | 1,884 | 64.5 | 72.7 / 3.20 | 1.60 | 66.9 | 61.9 |
| + FastV | 3,300 | 58.1 | 52.3 / 3.11 | 1.29 | 61.7 | 55.4 |
| Qwen2.5-VL (7B) | 41,590 | 62.2 | 65.8 / 4.26 | 1.60 | 70.5 | 60.0 |
| + SURGE⋆ | 5,207 | 62.7 | 66.1 / 4.24 | 1.70 | 67.7 | 61.3 |
在强调长视频与跨事件推理的基准上,SURGE⋆ 不仅不掉、还能反超全 token 基线(如 InternVL 在 LVB +0.9、MLVU G-Avg +0.25);对照 FastV(基于注意力的裁剪),同等预算下 SURGE 明显更稳(Video-LLaVA-Qwen 上 V-MME 64.5 vs 58.1、MLVU 72.7 vs 52.3),说明「时间惊奇」比「注意力幅度」是更可靠的保留依据。SURGE 还能和关键帧选择 AKS 组合,进一步提升效率与精度。
token-精度权衡与消融¶
在 Qwen2.5-VL 上扫描保留比例 \(\rho\),SURGE 在所有档位最大相对波动都 ≤±1.1%,即便激进到 \(\rho=0.10\)–\(0.01\) 仍稳;随机裁剪一旦丢掉 >75% token 就剧烈崩塌(\(\rho=0.25\) 时波动 ±13.2%、\(\rho=0.10\) 时 ±23.9%)。
| 配置 (ρ=0.25) | MLVU (M/G) | T-Compass | MMB-V | 说明 |
|---|---|---|---|---|
| SURGE (Full) | 65.7 / 4.26 | 70.5 | 1.72 | 完整模型 |
| w/o 漂移校正 (Eq.4) | 64.9 / 4.18 | 69.4 | 1.65 | 去全局漂移去趋势 |
| w/o 方差归一化 (Eq.5) | 65.1 / 4.22 | 69.7 | 1.70 | 去方差校准 |
| w/o 时间预测器 (仅帧差 Eq.3) | 63.4 / 4.17 | 66.9 | 1.55 | 退化为帧差 |
关键发现¶
- 时间预测器是最大功臣:去掉它退化成帧差后,会把平滑运动误判成新颖,MLVU M-Avg 从 65.7 掉到 63.4、T-Compass 从 70.5 掉到 66.9,是三个组件里掉点最多的;漂移校正和方差归一化各贡献温和但一致的稳定性。
- Top-K 不能太小:K=1 会让覆盖坍塌、严重掉点(V-MME 跌到 51.7、MLVU 跌到 37.9);K=5–10 时 SURGE⋆ 常常追平甚至超过全 token 基线,K=5–7 是稳健默认。
- 长上下文是真价值:MLVU 上基线超过 ~230 帧就爆 A100 80GB 显存,SURGE/SURGE⋆ 仍可跑到 1024 甚至 3600 帧,把可处理视频长度提升一个数量级。
- 算力收益落地在 prefill:Qwen2.5-VL 上 \(\rho=0.25\) 时 prefill FLOPs/延迟降 86%/79%,\(\rho=0.01\) 时 prefill 成本砍掉 >98%、生成 FLOPs 约减半。
亮点与洞察¶
- 把「惊奇 = 预测误差」这一认知科学老思想干净地搬进 token 空间:不依赖注意力图、不训练、不挑骨干,仅靠一个恒速外推器就拿到「新信息」信号——这正好补上了现有效率方法都缺的那块拼图。
- 泰勒展开给恒速先验提供了第一性原理依据:\(z_{t+1}-2z_t+z_{t-1}\approx0\) 把「平滑视频」翻译成「token 二阶差分接近零」,让「偏离即惊奇」不是拍脑袋而是有推导支撑。
- 全局百分位 + 漂移校正这对组合很巧:前者让预算跨整段自适应倾斜向变化处,后者专门压掉相机平移这类「全局一致变化」的假惊奇,二者一起把信号校准得对齐真实内容变化。
- 「新」与「相关」解耦再组合:惊奇掩码管「新」、CLIP 事件聚焦管「相关」,可插拔——普通任务只用前者,query 检索再叠后者,这种正交设计很容易迁移到其他需要在线分配算力的流式场景。
局限与展望¶
- 作者承认 SURGE⋆ 需要额外一次 CLIP 前向,且对 K 和 query 措辞敏感(K=1 会崩);未来打算换更轻的相关性模型、做自适应事件选择和 in-context 对齐来增强鲁棒性。
- 恒速先验本质假设「视频平滑演化」,对剧烈剪辑、频繁场景切换、强非线性运动的内容,一阶外推的预测误差可能整体偏大,惊奇信号的区分度会下降——论文未单独压力测试这类极端片段。
- 主实验为隔离惊奇驱动的收益没用上下文地板 \(C_{u,j}\),因此「地板」在极端裁剪下到底能挽回多少精度缺乏系统量化;表 1 里 InternVL 的 token 数还超出其 15k 上下文被运行时截断(†),跨模型 token 数横向比要带这个 caveat。
- 惊奇分数在原始未投影特征上算,依赖 ViT patch embedding 的几何平滑性,对非 ViT 或强量化骨干是否同样成立未验证。
相关工作与启发¶
- vs FastV / SparseVLM(注意力/相关度裁剪): 它们靠注意力阈值或相关度分数挑「当前重要」的 token,需要内部注意力图且要细调阈值;SURGE 用时间预测误差挑「相比刚才变了」的 token,免训练、不取注意力图,同预算下更稳(Video-LLaVA-Qwen 上大幅领先 FastV)。
- vs AKS(自适应关键帧选择): AKS 在帧级挑子集而非裁 token,二者正交;SURGE 与 AKS 组合后效率与精度还能再涨,说明惊奇掩码可与时间选择互补叠加。
- vs ToMe / LLaMA-VID / Matryoshka(合并/表示压缩): 这类要改架构、训练摘要器或加超参;SURGE 不动模型、纯推理期插入,部署门槛低得多。
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 把「预测误差即惊奇」首次系统地落到 token 空间并配齐漂移校正与方差归一化,角度清新且有理论铺垫。
- 实验充分度: ⭐⭐⭐⭐⭐ 三模型五基准、token-精度全档位扫描、长上下文到 3600 帧、组件消融与 FLOPs/延迟分析都覆盖到。
- 写作质量: ⭐⭐⭐⭐ 公式与动机讲得清楚,pipeline 图清晰;个别记号(如最终掩码与上下文地板)需对照附录才完全明白。
- 价值: ⭐⭐⭐⭐⭐ 免训练、即插即用、把视频 VLM 可处理长度提升一个数量级,落地价值很高。