CVPR 2025 图像生成视频tokenizer Triplane表示坐标重建长视频编码视频压缩扩散生成

Efficient Long Video Tokenization via Coordinate-based Patch Reconstruction¶

会议: CVPR 2025
arXiv: 2411.14762
代码: https://huiwon-jang.github.io/coordtok
领域: 图像/视频生成
关键词: 视频tokenizer, Triplane表示, 坐标重建, 长视频编码, 视频压缩, 扩散生成

一句话总结¶

提出 CoordTok，一种可扩展的视频 tokenizer，将视频编码为因子化 triplane 表示，解码器学习从随机采样的 $(x,y,t)$ 坐标到对应 patch 像素的映射（而非一次重建所有帧），使得可以直接在 128 帧长视频上训练大型 tokenizer，将 128 帧视频编码为仅 1280 个 token（基线需要 6144-8192 个），并驱动 DiT 实现 128 帧一次性视频生成（FVD 369.3 SOTA）。

研究背景与动机¶

领域现状：视频 tokenizer 是视频生成模型的基础组件，负责将高维视频压缩为紧凑的 token 表示。现有 tokenizer（如 TATS-AE、MAGVIT-AE、PVDM-AE）在压缩率上持续提升，但训练时需要重建所有帧，计算和内存成本随视频长度线性增长。

现有痛点：(1) 训练成本问题——在单张 4090 GPU 上，PVDM-AE 训练 128 帧视频时直接 OOM，大部分 tokenizer 只能在 16 帧短视频上训练；(2) 时序一致性问题——只能编码短片段的 tokenizer 无法充分利用视频的时序连贯性，当多个短片段拼接编码长视频时，片段交界处出现像素值不一致（如 Figure 1b 所示）。

核心矛盾：视频的时序连贯性是高效压缩的关键先验（类似视频编解码器利用关键帧+差异编码），但现有 tokenizer 因训练成本限制只能在短片段上训练，无法利用这一先验。

本文目标 如何设计一个可以直接在长视频上训练的 tokenizer，从而充分利用时序连贯性实现更高效的压缩？

切入角度：受 3D 生成模型（如 NeRF/triplane）的启发——它们通过学习从随机采样坐标到 RGB/密度值的映射来避免全坐标一次性训练——将视频重建问题类似地转化为从 $(x,y,t)$ 坐标到对应 patch 的映射学习问题。

核心 idea：将视频编码为三个2D平面（triplane）的紧凑表示，解码时只需随机采样少量坐标重建对应patch，训练成本与视频长度解耦，从而可直接在128帧长视频上训练获得更高效的tokenization。

方法详解¶

整体框架¶

CoordTok 包含编码器和解码器：编码器将视频 $\mathbf{x}$ 分为时空 patch 经 Transformer 处理后，通过 cross-self attention 层将视频特征投影到因子化 triplane 表示 $\mathbf{z} = [\mathbf{z}^{xy}, \mathbf{z}^{yt}, \mathbf{z}^{xt}]$（分别捕获全局内容、y轴运动、x轴运动）。解码器接收随机采样的 $N$ 个归一化坐标 $(i,j,k) \in [0,1]^3$，通过双线性插值从 triplane 查询坐标特征，经 self-attention 处理后投影为对应 patch 的像素值。训练时仅需重建 3% 的 patch 即可达到良好性能。

关键设计¶

因子化 Triplane 编码器:
- 功能：将视频压缩为三个 2D 平面的紧凑表示，避免 3D latent 的高内存开销
- 核心思路：引入可学习嵌入 $\mathbf{z}_0 = [\mathbf{z}_0^{xy}, \mathbf{z}_0^{yt}, \mathbf{z}_0^{xt}]$（形状分别为 $H' \times W'$、$W' \times T'$、$H' \times T'$），通过 cross-self attention 层将视频特征 $\mathbf{e}$（来自 ViT 处理的时空 patch）聚合到这三个平面中。$\mathbf{z}^{xy}$ 捕获跨时间的全局内容（场景布局、外观），$\mathbf{z}^{yt}$ 和 $\mathbf{z}^{xt}$ 捕获沿两个空间轴的运动信息。每个可学习嵌入被拆分为 4 个子嵌入以增加序列长度、提升模型利用率。
- 设计动机：三个 2D 平面代替一个 3D latent，token 数量从 $H' \times W' \times T'$ 降为 $H'W' + W'T' + H'T'$。对于 128 帧视频，这一差异使 token 数量从数千降至一千余个。Triplane 的因子化天然分离了内容和运动，有利于下游生成模型分别建模。
坐标采样 + Patch 重建解码器:
- 功能：使训练成本与视频长度解耦，允许直接在长视频上训练
- 核心思路：将视频分为不重叠的时空 patch，将每个 patch 索引转换为归一化坐标 $(i,j,k) \in [0,1]^3$。训练时随机采样 $N$ 个坐标（仅 3% 的 patch），通过双线性插值从 triplane 获取坐标特征 $\mathbf{h} = \text{Concat}(\mathbf{h}^{xy}, \mathbf{h}^{yt}, \mathbf{h}^{xt})$，经 self-attention 层在坐标间交互信息后，用线性投影层映射为对应 patch 的 RGB 像素。损失为 $\ell_2$ 重建损失。
- 设计动机：传统 tokenizer 必须一次重建所有帧→内存和计算与帧数线性相关→限制为短视频训练。坐标采样 3% 的 patch 即可有效训练，使得 128 帧视频训练的 batch size 仍可保持在 256（对比 PVDM-AE 在 128 帧时 OOM）。
帧采样微调 + LPIPS 损失:
- 功能：在坐标采样预训练基础上提升重建的感知质量
- 核心思路：主训练阶段完成后（1M 次迭代），切换为帧采样模式——随机采样几帧，重建这些帧的所有坐标，同时使用 $\ell_2$ 和 LPIPS 损失微调 50K 次迭代。LPIPS 需要完整帧才能计算，因此不能在坐标采样阶段使用。
- 设计动机：从训练一开始就用帧采样会因采样多样性不足而效果不佳（Table 4 验证），但在坐标采样充分训练后微调可以有效提升感知质量。两阶段策略结合了坐标采样的高效性和帧采样的高质量。

损失函数¶

主训练阶段：$\ell_2$ 重建损失，$\mathcal{L} = \|\hat{\mathbf{x}}_{ijk} - \mathbf{x}_{ijk}\|_2^2$，仅在随机采样的 $N=1024$ 个坐标上计算
微调阶段：$\ell_2 + $ LPIPS 联合损失，在随机采样的完整帧（$N=4096$ 坐标）上计算

实验关键数据¶

长视频重建质量（128帧, 128×128）¶

方法	Token类型	Token数量	训练帧数	PSNR↑	LPIPS↓	rFVD↓
OmniTok-CV	Continuous	8192	17	28.3	0.081	49.5
CosmosTokenizer*	Continuous	8192	17	28.5	0.119	87.8
PVDM-AE	Continuous	6144	16	26.5	0.120	66.5
OmniTok-CV	Continuous	1024	17	23.2	0.175	396.7
PVDM-AE	Continuous	1152	16	19.1	0.333	1270.1
CoordTok	Continuous	1280	128	28.6	0.066	102.9

视频生成（128帧, UCF-101）¶

方法	FVD↓	生成时间(s)	显存(GB)
StyleGAN-V	1773.4	-	-
PVDM-L	505.0	116.9	4.0
HVDM	549.7	52.1	3.9
Latte-L/2	1901.8	21.4	3.1
CoordTok-SiT-L/2	369.3	9.8	4.5

消融与分析¶

分析项	关键结论
坐标采样比例	3% patch 即足够，更多不会显著改善
模型规模	Large > Base > Small，更大模型持续改善
Triplane 空间维度	16×16 最优，8×8 不足，32×32 过冗余
Triplane 时间维度	32 最优，16 不足，64 过冗余
帧采样 vs 坐标采样	纯帧采样（从头开始）不如坐标采样，因为多样性不足

关键发现¶

长视频训练带来巨大压缩优势：CoordTok 用 1280 token 达到的重建质量（rFVD 102.9）与基线用 6144-8192 token 的质量相当或更优
Triplane 对动态视频更敏感：Pearson 相关分析表明 CoordTok 的重建质量与视频动态程度的相关性更强（r=0.617），说明运动分解是其关键压力点
高效 tokenization 改善下游生成：用 1280 token 训练的 SiT 比用 3072 token 训练的效果更好（FVD 约低50+），因为更少 token 降低了生成模型的学习难度
生成速度极快：128 帧一次性生成仅需 9.8s（对比 PVDM-L 的 116.9s，快 12 倍）

亮点与洞察¶

跨领域灵感迁移：将 3D 生成/NeRF 中坐标采样训练的思想迁移到视频 tokenizer 设计中，非常自然且有效
训练成本与视频长度解耦：这是方法论上的关键突破——通过只重建随机 3% 的 patch，128 帧训练的成本与 16 帧相当
更少 token = 更好生成：这个反直觉的发现很有启发性——token 数量和重建质量之间的最优点不等于生成模型的最优点，更紧凑的表示反而降低了生成难度
Triplane 的内容-运动分离：xy平面捕获全局内容、yt/xt平面捕获运动的天然分离在可视化中得到验证

局限性与可改进方向¶

分辨率受限：所有实验在 128×128 分辨率上进行，高分辨率（如 256×256, 512×512）上的效果未验证
仅在 UCF-101 上实验：数据集规模和多样性有限，未在大规模数据集上验证泛化性
Triplane 对动态视频的局限：分析表明越动态的视频重建越难——因为快速运动使内容-运动分解更困难
无条件生成：下游生成仅做了无条件模型，未与文本条件生成集成
坐标重建 vs 像素级细节：patch 级重建可能在精细纹理上不如逐像素解码器

评分¶

⭐⭐⭐⭐ — 思路新颖且简洁优雅，将3D生成的坐标采样思想无缝迁移到视频tokenizer，训练效率突破显著（128帧直接训练），且下游生成效果出色。但分辨率和数据集规模受限，高分辨率大规模场景有待验证。