PyraTok: Language-Aligned Pyramidal Tokenizer for Video Understanding and Generation¶
会议: CVPR 2026
论文: CVF Open Access
代码: 待确认(项目页 https://plan-lab.github.io/pyratok )
领域: 视频理解 / 视频生成 / 离散视频 VAE
关键词: 视频分词器, 金字塔量化, 语言对齐, 离散 VAE, 零样本视频理解
一句话总结¶
PyraTok 是一个语言对齐的金字塔式视频分词器:在冻结视频 VAE 的多个编码器深度上做逐级量化(LaPQ),配合一个共享的大词表二值码本和"局部跨注意力 + 全局自回归"双语义对齐,既把重建质量做到 SOTA,又让同一套离散 token 在零样本视频分割、时序动作定位、视频理解/分类上全面刷新纪录。
研究背景与动机¶
领域现状:现代文生视频(T2V)和视频理解系统大多建立在离散 VAE 之上——VQ-VAE 系把视频编码进一个可学习码本,量化成离散 token,再交给扩散或自回归模型做生成。离散 token 既压缩高效,又天然适配序列建模,因此成了 VideoGPT、CogVideoX、MAGVITv2 这类系统的基础设施。
现有痛点:作者指出现有视频分词器有三个具体毛病。其一,单尺度量化:码本几乎都只在编码器最后一层(拿到 latent 之后)学习语义,没有利用 VAE "浅层管局部细节、深层管高层语义"的层级结构,导致文-视频对齐粒度粗。其二,码本太小:常见词表只有 4K–8K,对基本视觉模式够用,但限制了视觉和文本两边的表达能力,跨模态对齐和文本条件生成都被卡住。其三,浅层单点的文本对齐导致语义漂移:现有方法要么只在序列级用对比损失注入全局语言信号,要么只在 token 级做码本蒸馏,而且只在码本学习阶段做一次,结果局部视觉 token 跟全局文本意图对不齐,跨尺度、跨时间都会漂移。
核心矛盾:想要更强的跨模态对齐就要更大的码本和更细的语义注入,但大码本带来高维查表的显存/算力爆炸,而单点对齐又压不住多尺度、长时序上的语义漂移——表达力、效率、对齐一致性三者互相牵制。
本文目标:在离散潜空间里同时做到(1)多尺度、由粗到细的语义结构,(2)可负担地用上大词表,(3)局部 token 与全局文本意图在所有尺度和时间上保持一致。
切入角度:作者的观察是——视频本身就有跨空间、跨时间的多层级结构,那量化也应该顺着编码器的多个深度"逐级"做,而不是只在末端做一次;同时语言信号要在每一级都注入(局部),再用一个全局自回归目标把整条 token 序列收束到文本意图上(全局)。
核心 idea:用"在多个编码器深度上逐级量化 + 每级都注入文本 + 全局自回归收束 + 共享大词表二值码本"替代"单尺度小码本单点对齐",让一套离散 token 同时服务生成和零样本理解。
方法详解¶
整体框架¶
给定视频 \(X \in \mathbb{R}^{C \times T \times H \times W}\) 和文本提示,PyraTok 的目标是学到一组既保真又跟文本语义对应的紧凑离散 latent。输入视频先被掩码、打乱后送进一个冻结的预训练视频 VAE 编码器(插了 LoRA 做轻量适配),编码器的 \(L\) 个层级产出多尺度时空特征 \(F^{(l)}\)。这些特征不是只在末端量化一次,而是在每个深度上逐级量化(LaPQ):第 \(l\) 级的量化块 \(Q_l\) 同时接收当前特征 \(F^{(l)}\)、上一级量化结果 \(q^{(l-1)}\)、以及来自 Qwen2.5-VL 的文本嵌入 \(e_t\),输出语义对齐的量化表示 \(q^{(l)}\)。量化用的是一个所有级共享的大词表二值码本(LFQ)。每一级内部用跨注意力把文本注入视觉(局部对齐),整条 token 序列再被一个全局自回归目标收束到文本上(全局对齐)。最后冻结解码器从量化 token 重建视频,同一套 token 直接喂给下游的生成与零样本理解任务。
%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
A["输入:掩码+打乱的视频帧 + 文本提示"] --> B["冻结 VAE 编码器 + LoRA + drift 正则"]
T["Qwen2.5-VL 文本嵌入 et"] --> C
B --> C["LaPQ 金字塔式多尺度量化<br/>L 级逐级 q(l)=Ql(q(l-1),F(l),et)"]
C --> D["LFQ 共享大词表二值码本<br/>~48K 词表, 训练时算对齐损失"]
D --> E["双语义对齐<br/>局部跨注意力 + 全局自回归 LAR"]
E --> F["冻结解码器重建 + 下游理解/生成任务"]
关键设计¶
1. LaPQ 金字塔式多尺度量化:让量化顺着编码器深度由粗到细做
针对"单尺度量化只在末端做一次、丢掉了 VAE 的层级结构"这个痛点,LaPQ 不再只量化最后的 latent,而是在编码器的多个深度通过横向连接(lateral connections)接出特征分别量化:浅层抓局部细节、深层抓全局语义。形式上编码器逐级算 \(F^{(l)} = En(F^{(l-1)})\)(\(F^{(0)} = \tilde{X}\)),每一级配一个量化块
注意 \(Q_l\) 把上一级的量化结果 \(q^{(l-1)}\) 也作为输入,所以是"逐级递归精化"而非各级独立——深层的量化在浅层基础上继续细化语义结构(论文 Figure 4 的 PCA 投影显示越深的级,道路车道、车辆、背景的语义分离越清晰)。这样不必把码本做到很高维,就能同时拿到粗、细两端的时空信息,绕开了"大码本=高内存"的死结。消融里去掉 LaPQ 是所有配置里掉点最猛的(PSNR 从 35.72 掉到 31.41),说明这是整个方法的地基。
2. LFQ 共享大词表二值码本:用二值码字把词表撑到 ~48K 还不爆显存
针对"想用大码本提表达力、但高维查表算力爆炸"的矛盾,PyraTok 用 Lookup-Free Quantization(LFQ)把传统的可学习码本 \(C \in \mathbb{R}^{K \times d}\) 换成紧凑的二值码字 \(C_v \in \{-1, 1\}^{\log_2 K}\)。这样省掉了高维 embedding 查表,把词表高效扩到约 48K(码本利用率高达 95%)。关键的工程取舍是:这个二值码本在所有 \(Q_l\) 量化块之间共享——既保证了金字塔各级之间的一致性,又把参数增长压到最低;而且码本只在训练时用来算对齐损失、引导结构,推理时量化无需查表,保留了 LFQ 的高效。消融显示码本规模增大持续提升重建与感知质量,但超过约 80K 词表后收益饱和,提示容量与效率之间存在权衡。
3. 双语义对齐:局部每级注入文本 + 全局自回归收束,压住语义漂移
针对"浅层单点对齐导致跨尺度/跨时间语义漂移"的痛点,PyraTok 同时做两层对齐。局部(每级内):在每个量化块 \(Q_l\) 里,先用横向连接保住空间/时间局部性,再用多头注意力让视觉特征去"注意"预训练 VLM 抽出的文本嵌入 \(e_t\)(文本作 key/value),实现语言引导的视觉调制,融合后再量化——保证每个离散 token 都携带对应的语言语义。全局(整条序列):把各级量化 token 用分隔符 <Q-SEP> 拼接、前面加 <SOI> 起始符,接在文本之后送进 VLM 解码器,自回归地从文本前缀逐个预测视觉 token:
让"视觉 token 可由文本前缀预测出来"这件事,强迫共享码本去编码全局一致、语言对齐的语义,从而把局部 token 锚定到全局文本意图上。分隔符在保留层级结构的同时支持统一序列建模。消融里去掉 \(L_{AR}\)(PSNR 掉到 ~34.0)、再叠加去掉 \(L_{drift}\)(掉到 32.17)都验证了全局对齐对语义连贯的作用。
4. 冻结 VAE + LoRA + drift 正则:不动预训练权重也能稳住语义适配
为了保住预训练 VAE 的高保真重建、把学习精力集中在语义对齐上,PyraTok 把编码器 \(En\) 和解码器 \(De\) 都冻结,只往编码器块里插 LoRA 做轻量特征调制。但文本条件监督可能把 latent 拉离预训练的视觉流形(latent drift),所以作者加了一个 drift 正则项,用 KL 把适配后的特征锚回一个冻结的大规模参考编码器 \(\overline{En}\):\(L_{drift} = D_{KL}(En(\tilde{X}) \,\|\, \overline{En}(\tilde{X}))\)(⚠️ 原文该式两侧记号略有排版噪声,含义以原文为准)。这样既允许语义引导的更新,又不让 LoRA 跑偏破坏原始视觉先验。消融中单独去掉 \(L_{drift}\) 重建质量明显下降,和 \(L_{AR}\) 一起去掉时掉得最多。
损失函数 / 训练策略¶
总损失是重建、语义对齐、量化一致性三者的加权组合:
其中重建损失结合像素级与感知项 \(L_{recon} = L_{SSIM} + L_{L1} + L_{LPIPS}\)。核心的层级语义码本损失 \(L_{codebook}\)(论文式 2)在每一级 \(l\) 上叠加五项:①视觉承诺项 \(\|q^{(l)} - sg(C_v)\|^2\)(把量化结果拉向二值码字);②熵正则(把分配推向近 one-hot);③层级一致性 \(D_{KL}(q^{(l)} \| q^{(l-1)})\)(相邻级保持连贯);④文本条件对齐 \(D_{KL}(q_i \| sg(e_t))\);⑤文本-码本对齐 \(D_{KL}(c \| sg(e_t))\)(把码本本身拉向文本嵌入)。\(sg(\cdot)\) 为停梯度算子。训练数据用 Droplet-10M 的 HD 子集,外加 OpenVid-1M 和带重建字幕的 4K/8K UltraVideo 超高清样本。默认 VLM 用 Qwen2.5-VL,默认预训练 VAE 骨干为 Wan 2.2。
实验关键数据¶
跨 10 个真实基准评测,覆盖帧重建、零样本分割、时序动作定位、通用视频理解/分类、文生视频生成。相比最强的先前 VAE 基线,PyraTok 在时序动作定位上 +5.75 mAP、videoQA +2.82、视频分类最高 +9.16。
主实验:帧重建(Table 1,WebVid-10M / COCO-Val)¶
| 方法 | 参数量 | 延迟(ms) | PSNR↑ (W/C) | SSIM↑ (W/C) | LPIPS↓ (W/C) |
|---|---|---|---|---|---|
| LARP | 183M | 689 | 33.03 / 34.26 | 0.851 / 0.853 | 0.091 / 0.089 |
| 3D-MBQ-VAE | 317M | 650 | 33.00 / 32.11 | 0.848 / 0.858 | 0.092 / 0.108 |
| TokLIP(语义) | 207M | 604 | 31.28 / 33.42 | 0.837 / 0.849 | 0.152 / 0.105 |
| SweetTok(语义) | 128M | 432 | 32.32 / 32.78 | 0.842 / 0.847 | 0.137 / 0.123 |
| PyraTok(本文) | 192M | 492 | 35.72 / 36.05 | 0.879 / 0.885 | 0.066 / 0.071 |
相比同样做语义对齐的 SweetTok 和 TokLIP,PyraTok 的 PSNR 分别高 10.51% 和 14.19%、LPIPS 分别低 51.62% 和 56.57%;同时也超过 3D-MBQ-VAE、CogVideoX、LARP 等非语义 SOTA。延迟 492ms 在 25 帧 256×256 单 V100 上属中等,没有为质量牺牲过多速度。
下游零样本任务(Table 3/4/5)¶
| 任务 / 基准 | 指标 | 之前最好 | PyraTok | 提升 |
|---|---|---|---|---|
| 视频分割 YouTube-VIS 2021 | mAP | OmniTok 14.54 | 24.54 | +68.8% 相对 |
| 视频分割 OVIS | mAP | OmniTok 2.8 | 8.9 | +217.9% 相对 |
| 动作定位 THUMOS14 | mAP | LARP 27.42 | 33.17 | +5.75 |
| 动作定位 ActivityNet v1.3 | mAP | LARP 25.53 | 29.11 | +3.58 |
| 视频理解 MVBench | 准确率 | LARP 83.21 | 86.03 | +2.82 |
| 分类 Kinetics-400 | 准确率 | LARP 69.27 | 78.43 | +9.16 |
PyraTok 是已知第一个用语言对齐离散 VAE 做到零样本视频语义分割的工作,OVIS 上相对提升超过 2 倍;在 MVBench 上甚至超过 InternVL3-78B、Qwen2.5-VL(7B) 等大型非 VAE 基础模型。文生视频方面(Table 2,WebVid-10M),把 MotionAura、Open-MAGVITv2、OmniGenV2 的原生 VAE 换成 PyraTok 后,FVD 下降 9–22 点、时序一致性 TC 提升 20–27 点。
消融实验(Table 6,PSNR on COCO-Val / WebVid-10M)¶
| 配置 | PSNR (C / W) | 说明 |
|---|---|---|
| 完整模型(4 Blocks, Qwen2.5-VL) | 35.72 / 36.05 | 默认 |
| w/o LaPQ | 31.41 / 31.47 | 去掉层级量化,掉点最猛(地基) |
| w/o Text Guidance | 33.43 / 36.02 | 去文本引导,语义落地变弱 |
| w/o Pyramidal-Q | 34.02 / 34.02 | 去多尺度结构 |
| 2 Blocks → 3 → 4 | 33.21 / 34.78 / 35.72 | 量化级数越多越好,4 级最佳 |
| w/o \(L_{drift}\) | 33.48 / 34.52 | 去漂移正则 |
| w/o \(L_{AR}\) | 33.42 / 34.01 | 去全局自回归对齐 |
| w/o \(L_{drift}\) & \(L_{AR}\) | 32.17 / 32.32 | 两个一起去,第二大降幅 |
| w/o 视觉承诺项 | 32.88 / 33.45 | 码本损失项,分配不稳 |
| w/o 文本-码本对齐 | 34.11 / 34.78 | 全局语义结构受损 |
关键发现¶
- LaPQ 是最大贡献:去掉它从 35.72 掉到 31.41,远超去掉任何单一损失项的影响,说明"多尺度逐级量化"是性能来源,而不仅是文本对齐这个噱头。
- 量化级数单调有效:2→3→4 块持续涨点,印证了"更深的量化层级同时抓住粗细视觉细节"的假设。
- 码本规模有饱和点:词表/维度增大持续提升质量,但超过约 80K 后收益饱和,是容量-效率的权衡边界。
- VLM/VAE 骨干可替换:换 LLaMA-3 8B、Gemma-3 4B 仍有竞争力(Qwen2.5-VL 最好);换 3D-MBQ-VAE、CogVideoX、Mochi-VAE 也都保持改进(Wan 2.2 默认最佳),说明设计是即插即用的。
亮点与洞察¶
- 把"量化"从一次性末端操作改成沿编码器深度的递归过程:\(q^{(l)} = Q_l(q^{(l-1)}, F^{(l)}, e_t)\) 这个递归式很巧——它让后级在前级基础上继续精化,天然契合 VAE 由浅到深的语义梯度,是单尺度方法拿不到的。
- LFQ 二值码本 + 跨级共享 + 仅训练时使用:用 \(\{-1,1\}^{\log_2 K}\) 码字把词表撑到 48K 还不爆显存,推理时无需查表——这套"大词表的好处留下、查表的代价砍掉"的组合可直接迁移到图像分词器。
- 一套 token 同时做生成和零样本理解:最让人"啊哈"的是同一个离散表示既能换进 T2V 模型提质量,又能零样本刷新分割/定位/分类——证明语言对齐的离散 latent 是真正可迁移的通用表示,而非各任务各练一套。
- drift 正则化的思路可复用:冻结大骨干 + LoRA 适配时,用 KL 把适配特征锚回冻结参考编码器来防漂移,这招对任何"在预训练流形上做语义微调"的场景都适用。
局限与展望¶
- 依赖强预训练骨干:方法建立在冻结的预训练视频 VAE + 大 VLM(Qwen2.5-VL)之上,重建上限和语义质量都受这些外部组件制约,从零训练的可行性未讨论。
- 训练开销不透明:五项码本损失 + 自回归 + drift + 重建的多目标加权,权重 \(\lambda\) 的取值、训练成本与收敛稳定性正文未给细节(留在补充材料),复现门槛偏高。
- 横向比较需谨慎:零样本分割的相对提升(OVIS +217.9%)基数很小(2.8→8.9 mAP),绝对值仍远低于有监督方法,"零样本 SOTA"更多是同类无监督/零样本里的领先,不宜直接和有监督数字比大小。
- 作者展望:把 PyraTok 扩到长时序、多主体、因果这类复杂视频推理任务,并系统评估对齐失败与"谄媚"(sycophancy)问题。
相关工作与启发¶
- vs SweetTok:两者都做语义对齐,但 SweetTok 解耦空间/时间 token 后独立处理,破坏了全局语义一致性;PyraTok 用每级文本引导量化 + 全局自回归先验同时管住细粒度与时序连贯,重建 PSNR 高 10.51%、LPIPS 低 51.62%。
- vs TokLIP:TokLIP 用 CLIP 级语义丰富视觉 token,但缺时序建模;PyraTok 的全局 AR 目标显式约束时间一致性。
- vs LARP:LARP 引入自回归友好的 latent 先验但没有显式文本条件监督;PyraTok 在每个量化级都注入文本,动作定位上 +5.75 mAP。
- vs MAGVITv2 / LFQ:PyraTok 沿用 LFQ 的无查表二值码本拿到大词表,但把它从单尺度量化扩展成跨编码器深度的金字塔共享码本,并叠加语言对齐。
- vs VideoVAE+:后者用冻结 BERT 嵌入在量化阶段注入字幕做单分辨率对齐;PyraTok 强调的正是它忽略的"多尺度、由粗到细"结构。
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ "金字塔逐级量化 + 局部/全局双对齐 + 大词表二值共享码本"的组合在视频分词器里是新的,且第一个做到零样本视频分割。
- 实验充分度: ⭐⭐⭐⭐⭐ 10 个基准、生成+理解全覆盖,消融逐项拆解(组件/级数/损失/码本/骨干)很扎实。
- 写作质量: ⭐⭐⭐⭐ 方法与动机讲得清楚,但多项损失的权重与训练细节下放补充材料,正文略欠工程透明度。
- 价值: ⭐⭐⭐⭐⭐ 一套离散 token 同时服务生成与零样本理解,作为分词器基础设施的可迁移性强。