EVATok: 自适应长度视频Tokenization用于高效视觉自回归生成¶
会议: CVPR 2026
arXiv: 2603.12267
代码: 项目页
领域: 视频理解 / 视频生成 / 模型压缩
关键词: video tokenizer, adaptive token, autoregressive generation, efficiency, VQ-VAE
一句话总结¶
提出EVATok框架——通过最优token分配估计+轻量路由器+自适应tokenizer训练的三步流程,让视频tokenizer按片段复杂度自适应分配token长度,在UCF-101上节省24.4%+ token同时达到SOTA生成质量。
背景与动机¶
自回归(AR)视频生成依赖视频tokenizer将像素压缩为离散token序列,token序列的长度直接决定下游生成的计算成本。现有视频tokenizer对所有时间块都均匀分配固定数量的token,完全不考虑内容复杂度的差异。然而视频中的信息密度分布极不均匀——静态背景、重复纹理、缓慢运动的片段包含很少的信息,而快速运动、场景切换、精细纹理的片段信息密度极高。
核心问题¶
统一token分配对简单片段浪费token(用了很多token但重建质量已经饱和),对复杂片段则token不够(欠表达导致重建变差)。如何让不同视频、不同片段获得最优的token数量分配?挑战有三:(1)"最优"如何定义?需要在重建质量和效率之间找帕累托最优(2)最优分配对每个视频都不同,逐视频优化太慢(3)tokenizer需要能处理不等长的token输入。
方法详解¶
整体框架¶
EVATok 要解决的是「视频不同片段信息密度差异极大、却被统一分配等量 token」的浪费问题,做法是让 tokenizer 按内容复杂度自适应决定每个时间块用多少 token。整个框架分三步串行:① 先估计出每个视频的最优 token 分配,作为监督信号;② 训练一个轻量路由器(router)来快速预测这个分配;③ 用路由器的分配训练最终能处理变长 token 的自适应 tokenizer,供下游自回归(AR)生成使用。其中第 ① 步是核心难点——「最优分配」此前既无定义也无估计方法,本文用一个代理 tokenizer(proxy tokenizer)配合新提出的代理奖励(proxy reward)把它变成可枚举求解的问题。贯穿 tokenizer 训练始终的还有一项增强 recipe:集成视频语义编码器做表示对齐。
%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
A["视频片段"] --> B["代理奖励 + 代理 tokenizer<br/>遍历候选分配,按重建质量−token 成本<br/>选出每段最优 token 数"]
B --> C["(视频, 最优分配) 分类数据集"]
C --> D["轻量路由器<br/>学习预测最优分配(分类任务)"]
D --> E["自适应 tokenizer 训练<br/>按路由器分配编码变长 token"]
F["集成视频语义编码器<br/>表示对齐 + 语义判别器"] -.增强训练.-> E
E --> G["下游 AR 生成<br/>变长 token 序列"]
关键设计¶
1. 代理奖励 + 代理 tokenizer:把"最优分配"从无定义变成可枚举求解
要按复杂度分配 token,前提是先知道「每个视频、每个时间块到底用多少 token 才最优」,但此前的自适应 tokenizer(ElasticTok、AdapTok)只能靠阈值搜索或 mini-batch 内整数线性规划(ILP)启发式地选,既受 batch 组成牵连、又不保证全局质量-成本平衡,"最优分配"连定义都没有。本文把它形式化为「最大化代理奖励(proxy reward)的分配识别问题」:proxy reward 是一个同时刻画重建质量与 token 成本(序列长度)的新指标,分配的 proxy reward 越高,质量-成本权衡就越好。为了能算出任意分配的 proxy reward,作者先训练一个能在不同 token 分配下重建视频的代理 tokenizer(proxy tokenizer);训练好后,对一个视频直接遍历所有候选分配、算各自的 proxy reward,取最大者即该视频的最优分配。把这些 (视频, 最优分配) 配对收集起来,就得到第 ② 步路由器的监督数据集。这一步离线、逐视频、计算量大,但只需做一次。
2. 轻量路由器:把昂贵的逐视频枚举压成一次前向预测
第 ① 步的枚举求解太慢,无法在 tokenizer 训练/推理时实时为每个视频做。解法是训练一个小型路由器(router),输入视频片段特征、以分类任务的形式直接预测它的最优分配,监督目标就是第 ① 步产出的 (视频, 最优分配) 数据集。推理时路由器一次前向即可给出所有片段的 token 预算,参数量极小、开销可忽略,从而把"逐视频枚举搜索"换成"学到的快速预测"。实验显示路由器预测与真实最优分配的一致性 >90%,说明片段复杂度对视觉特征是高度可预测的。
3. 自适应 tokenizer:吃变长 token、按路由器分配编码
常规 tokenizer 只能输出固定长度,无法执行"不同时间块给不同 token 数"的分配。本文基于 Q-Former 式的一维(1D)tokenizer 设计(1D 序列没有网格空间先验、长度易调),从头训练一个能处理不等长 token 输入/输出的自适应 tokenizer:训练时由路由器为每个输入视频实时决定分配,让 tokenizer 学会在变长预算下都能良好编解码。它产出的变长 token 序列直接支撑下游高效的自适应长度 AR 生成。
4. 集成视频语义编码器:让 token 不只像素级保真、还语义级对齐
这是贯穿 tokenizer 训练的一项增强 recipe,而非独立的流水线步骤。纯像素级重建出来的 token 未必承载良好语义,会限制下游 AR 生成质量。本文把预训练视频语义编码器的表示对齐(representation alignment)引入 tokenizer 训练,并配合语义视频判别器,使学到的 token 在语义层面也保真。消融显示加入后 FVD 进一步降低,印证语义信号对 token 质量同样关键。
损失函数/训练策略¶
- Tokenizer训练:重建损失(L1/L2 + perceptual loss)+ VQ量化损失 + 语义对齐损失
- 路由器训练:模仿最优分配的分类/回归损失
- AR生成模型:标准自回归交叉熵损失,在EVATok产出的变长token上训练
实验关键数据¶
| 数据集 | 方法 | FVD↓ | Token节省 |
|---|---|---|---|
| UCF-101 | LARP (固定长度) | 基线 | 0% |
| UCF-101 | EVATok | SOTA | ≥24.4% |
| UCF-101 | 固定长度baseline | 基线 | 0% |
消融实验要点¶
- 自适应 vs 固定分配:自适应在同等平均token数下FVD显著更低
- 路由器准确度:路由器预测与真实最优分配的一致性高(>90%),说明分配是可预测的
- 语义编码器集成:加入后FVD进一步降低,说明语义信号对token质量有帮助
- token数量的最优分布:简单片段集中在低token区间,复杂片段分散在高token区间,分布呈长尾
亮点 / 我学到了什么¶
- "先估计最优解,再训路由器模仿"的两步范式非常实用——避免了端到端训练中最优性和效率的矛盾
- 24.4%的token节省直接意味着AR生成的24.4%计算量减少,这在视频生成的实际部署中价值巨大
- 路由器>90%的预测准确率说明"片段复杂度"是一个对视觉特征高度可预测的量
- 与语义编码器集成的策略表明token质量不只是像素级概念,语义层面的信号同样重要
局限与展望¶
- 路由器本身的计算开销虽小但非零,对极端延迟敏感的场景是否可忽略?
- 最优token分配的估计依赖离线搜索,训练集之外的新视频类型是否泛化?
- 自适应长度是否会给AR生成模型带来训练不稳定(因为序列长度不固定)?
- 能否推广到图像tokenizer?图像的空间区域也有复杂度差异
与相关工作的对比¶
- vs LARP等固定长度视频tokenizer:EVATok在更少token下达到更好质量
- vs TiTok/MAGVIT等先进tokenizer:EVATok的核心贡献是自适应分配策略,可作为它们的增强
- vs TrajTok:TrajTok聚焦理解端的轨迹分组,EVATok聚焦生成端的token长度优化,互补
与我的研究方向的关联¶
- 自适应token分配的框架直接可扩展到VLM的视觉token压缩——对简单图像区域分配少token
- "路由器预测最优配置"的设计模式可复用:训练小模型预测大模型的最优超参数/配置
- 与BiGain、TrajTok等工作形成视觉token效率的完整方法族
评分¶
- 新颖性: ⭐⭐⭐⭐ — 自适应token分配不算新概念,但三步框架的系统化设计和在视频生成上的验证有价值
- 实验充分度: ⭐⭐⭐⭐ — UCF-101验证充分,但缺少更大规模/更多数据集的验证
- 写作质量: ⭐⭐⭐⭐ — 框架描述清晰,三步流程一目了然
- 对我的价值: ⭐⭐⭐⭐ — 路由器+自适应分配的设计模式可直接借鉴