Efficient Long Video Tokenization via Coordinate-based Patch Reconstruction¶
会议: CVPR 2025
arXiv: 2411.14762
代码: https://huiwon-jang.github.io/coordtok
领域: 图像/视频生成
关键词: 视频tokenizer, Triplane表示, 坐标重建, 长视频编码, 视频压缩, 扩散生成
一句话总结¶
提出 CoordTok,一种可扩展的视频 tokenizer,将视频编码为因子化 triplane 表示,解码器学习从随机采样的 \((x,y,t)\) 坐标到对应 patch 像素的映射(而非一次重建所有帧),使得可以直接在 128 帧长视频上训练大型 tokenizer,将 128 帧视频编码为仅 1280 个 token(基线需要 6144-8192 个),并驱动 DiT 实现 128 帧一次性视频生成(FVD 369.3 SOTA)。
研究背景与动机¶
领域现状:视频 tokenizer 是视频生成模型的基础组件,负责将高维视频压缩为紧凑的 token 表示。现有 tokenizer(如 TATS-AE、MAGVIT-AE、PVDM-AE)在压缩率上持续提升,但训练时需要重建所有帧,计算和内存成本随视频长度线性增长。
现有痛点:(1) 训练成本问题——在单张 4090 GPU 上,PVDM-AE 训练 128 帧视频时直接 OOM,大部分 tokenizer 只能在 16 帧短视频上训练;(2) 时序一致性问题——只能编码短片段的 tokenizer 无法充分利用视频的时序连贯性,当多个短片段拼接编码长视频时,片段交界处出现像素值不一致(如 Figure 1b 所示)。
核心矛盾:视频的时序连贯性是高效压缩的关键先验(类似视频编解码器利用关键帧+差异编码),但现有 tokenizer 因训练成本限制只能在短片段上训练,无法利用这一先验。
本文目标 如何设计一个可以直接在长视频上训练的 tokenizer,从而充分利用时序连贯性实现更高效的压缩?
切入角度:受 3D 生成模型(如 NeRF/triplane)的启发——它们通过学习从随机采样坐标到 RGB/密度值的映射来避免全坐标一次性训练——将视频重建问题类似地转化为从 \((x,y,t)\) 坐标到对应 patch 的映射学习问题。
核心 idea:将视频编码为三个2D平面(triplane)的紧凑表示,解码时只需随机采样少量坐标重建对应patch,训练成本与视频长度解耦,从而可直接在128帧长视频上训练获得更高效的tokenization。
方法详解¶
整体框架¶
CoordTok 包含编码器和解码器:编码器将视频 \(\mathbf{x}\) 分为时空 patch 经 Transformer 处理后,通过 cross-self attention 层将视频特征投影到因子化 triplane 表示 \(\mathbf{z} = [\mathbf{z}^{xy}, \mathbf{z}^{yt}, \mathbf{z}^{xt}]\)(分别捕获全局内容、y轴运动、x轴运动)。解码器接收随机采样的 \(N\) 个归一化坐标 \((i,j,k) \in [0,1]^3\),通过双线性插值从 triplane 查询坐标特征,经 self-attention 处理后投影为对应 patch 的像素值。训练时仅需重建 3% 的 patch 即可达到良好性能。
关键设计¶
-
因子化 Triplane 编码器:
- 功能:将视频压缩为三个 2D 平面的紧凑表示,避免 3D latent 的高内存开销
- 核心思路:引入可学习嵌入 \(\mathbf{z}_0 = [\mathbf{z}_0^{xy}, \mathbf{z}_0^{yt}, \mathbf{z}_0^{xt}]\)(形状分别为 \(H' \times W'\)、\(W' \times T'\)、\(H' \times T'\)),通过 cross-self attention 层将视频特征 \(\mathbf{e}\)(来自 ViT 处理的时空 patch)聚合到这三个平面中。\(\mathbf{z}^{xy}\) 捕获跨时间的全局内容(场景布局、外观),\(\mathbf{z}^{yt}\) 和 \(\mathbf{z}^{xt}\) 捕获沿两个空间轴的运动信息。每个可学习嵌入被拆分为 4 个子嵌入以增加序列长度、提升模型利用率。
- 设计动机:三个 2D 平面代替一个 3D latent,token 数量从 \(H' \times W' \times T'\) 降为 \(H'W' + W'T' + H'T'\)。对于 128 帧视频,这一差异使 token 数量从数千降至一千余个。Triplane 的因子化天然分离了内容和运动,有利于下游生成模型分别建模。
-
坐标采样 + Patch 重建解码器:
- 功能:使训练成本与视频长度解耦,允许直接在长视频上训练
- 核心思路:将视频分为不重叠的时空 patch,将每个 patch 索引转换为归一化坐标 \((i,j,k) \in [0,1]^3\)。训练时随机采样 \(N\) 个坐标(仅 3% 的 patch),通过双线性插值从 triplane 获取坐标特征 \(\mathbf{h} = \text{Concat}(\mathbf{h}^{xy}, \mathbf{h}^{yt}, \mathbf{h}^{xt})\),经 self-attention 层在坐标间交互信息后,用线性投影层映射为对应 patch 的 RGB 像素。损失为 \(\ell_2\) 重建损失。
- 设计动机:传统 tokenizer 必须一次重建所有帧→内存和计算与帧数线性相关→限制为短视频训练。坐标采样 3% 的 patch 即可有效训练,使得 128 帧视频训练的 batch size 仍可保持在 256(对比 PVDM-AE 在 128 帧时 OOM)。
-
帧采样微调 + LPIPS 损失:
- 功能:在坐标采样预训练基础上提升重建的感知质量
- 核心思路:主训练阶段完成后(1M 次迭代),切换为帧采样模式——随机采样几帧,重建这些帧的所有坐标,同时使用 \(\ell_2\) 和 LPIPS 损失微调 50K 次迭代。LPIPS 需要完整帧才能计算,因此不能在坐标采样阶段使用。
- 设计动机:从训练一开始就用帧采样会因采样多样性不足而效果不佳(Table 4 验证),但在坐标采样充分训练后微调可以有效提升感知质量。两阶段策略结合了坐标采样的高效性和帧采样的高质量。
损失函数¶
- 主训练阶段:\(\ell_2\) 重建损失,\(\mathcal{L} = \|\hat{\mathbf{x}}_{ijk} - \mathbf{x}_{ijk}\|_2^2\),仅在随机采样的 \(N=1024\) 个坐标上计算
- 微调阶段:$\ell_2 + $ LPIPS 联合损失,在随机采样的完整帧(\(N=4096\) 坐标)上计算
实验关键数据¶
长视频重建质量(128帧, 128×128)¶
| 方法 | Token类型 | Token数量 | 训练帧数 | PSNR↑ | LPIPS↓ | rFVD↓ |
|---|---|---|---|---|---|---|
| OmniTok-CV | Continuous | 8192 | 17 | 28.3 | 0.081 | 49.5 |
| CosmosTokenizer* | Continuous | 8192 | 17 | 28.5 | 0.119 | 87.8 |
| PVDM-AE | Continuous | 6144 | 16 | 26.5 | 0.120 | 66.5 |
| OmniTok-CV | Continuous | 1024 | 17 | 23.2 | 0.175 | 396.7 |
| PVDM-AE | Continuous | 1152 | 16 | 19.1 | 0.333 | 1270.1 |
| CoordTok | Continuous | 1280 | 128 | 28.6 | 0.066 | 102.9 |
视频生成(128帧, UCF-101)¶
| 方法 | FVD↓ | 生成时间(s) | 显存(GB) |
|---|---|---|---|
| StyleGAN-V | 1773.4 | - | - |
| PVDM-L | 505.0 | 116.9 | 4.0 |
| HVDM | 549.7 | 52.1 | 3.9 |
| Latte-L/2 | 1901.8 | 21.4 | 3.1 |
| CoordTok-SiT-L/2 | 369.3 | 9.8 | 4.5 |
消融与分析¶
| 分析项 | 关键结论 |
|---|---|
| 坐标采样比例 | 3% patch 即足够,更多不会显著改善 |
| 模型规模 | Large > Base > Small,更大模型持续改善 |
| Triplane 空间维度 | 16×16 最优,8×8 不足,32×32 过冗余 |
| Triplane 时间维度 | 32 最优,16 不足,64 过冗余 |
| 帧采样 vs 坐标采样 | 纯帧采样(从头开始)不如坐标采样,因为多样性不足 |
关键发现¶
- 长视频训练带来巨大压缩优势:CoordTok 用 1280 token 达到的重建质量(rFVD 102.9)与基线用 6144-8192 token 的质量相当或更优
- Triplane 对动态视频更敏感:Pearson 相关分析表明 CoordTok 的重建质量与视频动态程度的相关性更强(r=0.617),说明运动分解是其关键压力点
- 高效 tokenization 改善下游生成:用 1280 token 训练的 SiT 比用 3072 token 训练的效果更好(FVD 约低50+),因为更少 token 降低了生成模型的学习难度
- 生成速度极快:128 帧一次性生成仅需 9.8s(对比 PVDM-L 的 116.9s,快 12 倍)
亮点与洞察¶
- 跨领域灵感迁移:将 3D 生成/NeRF 中坐标采样训练的思想迁移到视频 tokenizer 设计中,非常自然且有效
- 训练成本与视频长度解耦:这是方法论上的关键突破——通过只重建随机 3% 的 patch,128 帧训练的成本与 16 帧相当
- 更少 token = 更好生成:这个反直觉的发现很有启发性——token 数量和重建质量之间的最优点不等于生成模型的最优点,更紧凑的表示反而降低了生成难度
- Triplane 的内容-运动分离:xy平面捕获全局内容、yt/xt平面捕获运动的天然分离在可视化中得到验证
局限性与可改进方向¶
- 分辨率受限:所有实验在 128×128 分辨率上进行,高分辨率(如 256×256, 512×512)上的效果未验证
- 仅在 UCF-101 上实验:数据集规模和多样性有限,未在大规模数据集上验证泛化性
- Triplane 对动态视频的局限:分析表明越动态的视频重建越难——因为快速运动使内容-运动分解更困难
- 无条件生成:下游生成仅做了无条件模型,未与文本条件生成集成
- 坐标重建 vs 像素级细节:patch 级重建可能在精细纹理上不如逐像素解码器
相关工作与启发¶
- PVDM:同样使用 triplane 表示但一次解码所有帧,是 CoordTok 的直接对比——证明了解码器设计的重要性
- TiTok:1D token 的图像 tokenizer,本文将因子化表示的思想扩展到视频维度
- NeRF / 3D Triplane 生成:坐标采样训练的灵感来源(如 LRM、Instant3D 等3D生成工作)
- 视频编解码器(HEVC, AV1等):关键帧+差异编码是经典的时序冗余利用策略,CoordTok 的 triplane 可视为其学习版本
- 启发:视频的核心特性是时序冗余——任何视频处理模型都应该思考如何利用这一先验,而不是将每帧独立对待。训练长度与推理效率之间存在有趣的权衡关系
评分¶
⭐⭐⭐⭐ — 思路新颖且简洁优雅,将3D生成的坐标采样思想无缝迁移到视频tokenizer,训练效率突破显著(128帧直接训练),且下游生成效果出色。但分辨率和数据集规模受限,高分辨率大规模场景有待验证。