PyraTok: Language-Aligned Pyramidal Tokenizer for Video Understanding and Generation¶

会议: CVPR 2026
论文: CVF Open Access
代码: 待确认（项目页 https://plan-lab.github.io/pyratok ）
领域: 视频理解 / 视频生成 / 离散视频 VAE
关键词: 视频分词器, 金字塔量化, 语言对齐, 离散 VAE, 零样本视频理解

一句话总结¶

PyraTok 是一个语言对齐的金字塔式视频分词器：在冻结视频 VAE 的多个编码器深度上做逐级量化（LaPQ），配合一个共享的大词表二值码本和"局部跨注意力 + 全局自回归"双语义对齐，既把重建质量做到 SOTA，又让同一套离散 token 在零样本视频分割、时序动作定位、视频理解/分类上全面刷新纪录。

研究背景与动机¶

领域现状：现代文生视频（T2V）和视频理解系统大多建立在离散 VAE 之上——VQ-VAE 系把视频编码进一个可学习码本，量化成离散 token，再交给扩散或自回归模型做生成。离散 token 既压缩高效，又天然适配序列建模，因此成了 VideoGPT、CogVideoX、MAGVITv2 这类系统的基础设施。

现有痛点：作者指出现有视频分词器有三个具体毛病。其一，单尺度量化：码本几乎都只在编码器最后一层（拿到 latent 之后）学习语义，没有利用 VAE "浅层管局部细节、深层管高层语义"的层级结构，导致文-视频对齐粒度粗。其二，码本太小：常见词表只有 4K–8K，对基本视觉模式够用，但限制了视觉和文本两边的表达能力，跨模态对齐和文本条件生成都被卡住。其三，浅层单点的文本对齐导致语义漂移：现有方法要么只在序列级用对比损失注入全局语言信号，要么只在 token 级做码本蒸馏，而且只在码本学习阶段做一次，结果局部视觉 token 跟全局文本意图对不齐，跨尺度、跨时间都会漂移。

核心矛盾：想要更强的跨模态对齐就要更大的码本和更细的语义注入，但大码本带来高维查表的显存/算力爆炸，而单点对齐又压不住多尺度、长时序上的语义漂移——表达力、效率、对齐一致性三者互相牵制。

本文目标：在离散潜空间里同时做到（1）多尺度、由粗到细的语义结构，（2）可负担地用上大词表，（3）局部 token 与全局文本意图在所有尺度和时间上保持一致。

切入角度：作者的观察是——视频本身就有跨空间、跨时间的多层级结构，那量化也应该顺着编码器的多个深度"逐级"做，而不是只在末端做一次；同时语言信号要在每一级都注入（局部），再用一个全局自回归目标把整条 token 序列收束到文本意图上（全局）。

核心 idea：用"在多个编码器深度上逐级量化 + 每级都注入文本 + 全局自回归收束 + 共享大词表二值码本"替代"单尺度小码本单点对齐"，让一套离散 token 同时服务生成和零样本理解。

方法详解¶

整体框架¶

给定视频 \(X \in \mathbb{R}^{C \times T \times H \times W}\) 和文本提示，PyraTok 的目标是学到一组既保真又跟文本语义对应的紧凑离散 latent。输入视频先被掩码、打乱后送进一个冻结的预训练视频 VAE 编码器（插了 LoRA 做轻量适配），编码器的 \(L\) 个层级产出多尺度时空特征 \(F^{(l)}\)。这些特征不是只在末端量化一次，而是在每个深度上逐级量化（LaPQ）：第 \(l\) 级的量化块 \(Q_l\) 同时接收当前特征 \(F^{(l)}\)、上一级量化结果 \(q^{(l-1)}\)、以及来自 Qwen2.5-VL 的文本嵌入 \(e_t\)，输出语义对齐的量化表示 \(q^{(l)}\)。量化用的是一个所有级共享的大词表二值码本（LFQ）。每一级内部用跨注意力把文本注入视觉（局部对齐），整条 token 序列再被一个全局自回归目标收束到文本上（全局对齐）。最后冻结解码器从量化 token 重建视频，同一套 token 直接喂给下游的生成与零样本理解任务。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["输入：掩码+打乱的视频帧 + 文本提示"] --> B["冻结 VAE 编码器 + LoRA + drift 正则"]
    T["Qwen2.5-VL 文本嵌入 et"] --> C
    B --> C["LaPQ 金字塔式多尺度量化<br/>L 级逐级 q(l)=Ql(q(l-1),F(l),et)"]
    C --> D["LFQ 共享大词表二值码本<br/>~48K 词表, 训练时算对齐损失"]
    D --> E["双语义对齐<br/>局部跨注意力 + 全局自回归 LAR"]
    E --> F["冻结解码器重建 + 下游理解/生成任务"]

关键设计¶

1. LaPQ 金字塔式多尺度量化：让量化顺着编码器深度由粗到细做

针对"单尺度量化只在末端做一次、丢掉了 VAE 的层级结构"这个痛点，LaPQ 不再只量化最后的 latent，而是在编码器的多个深度通过横向连接（lateral connections）接出特征分别量化：浅层抓局部细节、深层抓全局语义。形式上编码器逐级算 \(F^{(l)} = En(F^{(l-1)})\)（\(F^{(0)} = \tilde{X}\)），每一级配一个量化块

\[q^{(l)} = Q_l(q^{(l-1)}, F^{(l)}, e_t)\]

注意 \(Q_l\) 把上一级的量化结果 \(q^{(l-1)}\) 也作为输入，所以是"逐级递归精化"而非各级独立——深层的量化在浅层基础上继续细化语义结构（论文 Figure 4 的 PCA 投影显示越深的级，道路车道、车辆、背景的语义分离越清晰）。这样不必把码本做到很高维，就能同时拿到粗、细两端的时空信息，绕开了"大码本=高内存"的死结。消融里去掉 LaPQ 是所有配置里掉点最猛的（PSNR 从 35.72 掉到 31.41），说明这是整个方法的地基。

2. LFQ 共享大词表二值码本：用二值码字把词表撑到 ~48K 还不爆显存

针对"想用大码本提表达力、但高维查表算力爆炸"的矛盾，PyraTok 用 Lookup-Free Quantization（LFQ）把传统的可学习码本 \(C \in \mathbb{R}^{K \times d}\) 换成紧凑的二值码字 \(C_v \in \{-1, 1\}^{\log_2 K}\)。这样省掉了高维 embedding 查表，把词表高效扩到约 48K（码本利用率高达 95%）。关键的工程取舍是：这个二值码本在所有 \(Q_l\) 量化块之间共享——既保证了金字塔各级之间的一致性，又把参数增长压到最低；而且码本只在训练时用来算对齐损失、引导结构，推理时量化无需查表，保留了 LFQ 的高效。消融显示码本规模增大持续提升重建与感知质量，但超过约 80K 词表后收益饱和，提示容量与效率之间存在权衡。

3. 双语义对齐：局部每级注入文本 + 全局自回归收束，压住语义漂移

针对"浅层单点对齐导致跨尺度/跨时间语义漂移"的痛点，PyraTok 同时做两层对齐。局部（每级内）：在每个量化块 \(Q_l\) 里，先用横向连接保住空间/时间局部性，再用多头注意力让视觉特征去"注意"预训练 VLM 抽出的文本嵌入 \(e_t\)（文本作 key/value），实现语言引导的视觉调制，融合后再量化——保证每个离散 token 都携带对应的语言语义。全局（整条序列）：把各级量化 token 用分隔符 <Q-SEP> 拼接、前面加 <SOI> 起始符，接在文本之后送进 VLM 解码器，自回归地从文本前缀逐个预测视觉 token：

\[L_{AR} = -\sum_{l=1}^{L} \log p(q^{(l)} \mid q^{(<l)}, e_t)\]

让"视觉 token 可由文本前缀预测出来"这件事，强迫共享码本去编码全局一致、语言对齐的语义，从而把局部 token 锚定到全局文本意图上。分隔符在保留层级结构的同时支持统一序列建模。消融里去掉 \(L_{AR}\)（PSNR 掉到 ~34.0）、再叠加去掉 \(L_{drift}\)（掉到 32.17）都验证了全局对齐对语义连贯的作用。

4. 冻结 VAE + LoRA + drift 正则：不动预训练权重也能稳住语义适配

为了保住预训练 VAE 的高保真重建、把学习精力集中在语义对齐上，PyraTok 把编码器 \(En\) 和解码器 \(De\) 都冻结，只往编码器块里插 LoRA 做轻量特征调制。但文本条件监督可能把 latent 拉离预训练的视觉流形（latent drift），所以作者加了一个 drift 正则项，用 KL 把适配后的特征锚回一个冻结的大规模参考编码器 \(\overline{En}\)：\(L_{drift} = D_{KL}(En(\tilde{X}) \,\|\, \overline{En}(\tilde{X}))\)（⚠️ 原文该式两侧记号略有排版噪声，含义以原文为准）。这样既允许语义引导的更新，又不让 LoRA 跑偏破坏原始视觉先验。消融中单独去掉 \(L_{drift}\) 重建质量明显下降，和 \(L_{AR}\) 一起去掉时掉得最多。

损失函数 / 训练策略¶

总损失是重建、语义对齐、量化一致性三者的加权组合：

\[L = \lambda_{recon} L_{recon} + \lambda_{codebook} L_{codebook} + \lambda_{AR} L_{AR} + \lambda_{drift} L_{drift}\]

其中重建损失结合像素级与感知项 \(L_{recon} = L_{SSIM} + L_{L1} + L_{LPIPS}\)。核心的层级语义码本损失 \(L_{codebook}\)（论文式 2）在每一级 \(l\) 上叠加五项：①视觉承诺项 \(\|q^{(l)} - sg(C_v)\|^2\)（把量化结果拉向二值码字）；②熵正则（把分配推向近 one-hot）；③层级一致性 \(D_{KL}(q^{(l)} \| q^{(l-1)})\)（相邻级保持连贯）；④文本条件对齐 \(D_{KL}(q_i \| sg(e_t))\)；⑤文本-码本对齐 \(D_{KL}(c \| sg(e_t))\)（把码本本身拉向文本嵌入）。\(sg(\cdot)\) 为停梯度算子。训练数据用 Droplet-10M 的 HD 子集，外加 OpenVid-1M 和带重建字幕的 4K/8K UltraVideo 超高清样本。默认 VLM 用 Qwen2.5-VL，默认预训练 VAE 骨干为 Wan 2.2。

实验关键数据¶

跨 10 个真实基准评测，覆盖帧重建、零样本分割、时序动作定位、通用视频理解/分类、文生视频生成。相比最强的先前 VAE 基线，PyraTok 在时序动作定位上 +5.75 mAP、videoQA +2.82、视频分类最高 +9.16。

主实验：帧重建（Table 1，WebVid-10M / COCO-Val）¶

方法	参数量	延迟(ms)	PSNR↑ (W/C)	SSIM↑ (W/C)	LPIPS↓ (W/C)
LARP	183M	689	33.03 / 34.26	0.851 / 0.853	0.091 / 0.089
3D-MBQ-VAE	317M	650	33.00 / 32.11	0.848 / 0.858	0.092 / 0.108
TokLIP（语义）	207M	604	31.28 / 33.42	0.837 / 0.849	0.152 / 0.105
SweetTok（语义）	128M	432	32.32 / 32.78	0.842 / 0.847	0.137 / 0.123
PyraTok（本文）	192M	492	35.72 / 36.05	0.879 / 0.885	0.066 / 0.071

相比同样做语义对齐的 SweetTok 和 TokLIP，PyraTok 的 PSNR 分别高 10.51% 和 14.19%、LPIPS 分别低 51.62% 和 56.57%；同时也超过 3D-MBQ-VAE、CogVideoX、LARP 等非语义 SOTA。延迟 492ms 在 25 帧 256×256 单 V100 上属中等，没有为质量牺牲过多速度。

下游零样本任务（Table 3/4/5）¶

任务 / 基准	指标	之前最好	PyraTok	提升
视频分割 YouTube-VIS 2021	mAP	OmniTok 14.54	24.54	+68.8% 相对
视频分割 OVIS	mAP	OmniTok 2.8	8.9	+217.9% 相对
动作定位 THUMOS14	mAP	LARP 27.42	33.17	+5.75
动作定位 ActivityNet v1.3	mAP	LARP 25.53	29.11	+3.58
视频理解 MVBench	准确率	LARP 83.21	86.03	+2.82
分类 Kinetics-400	准确率	LARP 69.27	78.43	+9.16

PyraTok 是已知第一个用语言对齐离散 VAE 做到零样本视频语义分割的工作，OVIS 上相对提升超过 2 倍；在 MVBench 上甚至超过 InternVL3-78B、Qwen2.5-VL(7B) 等大型非 VAE 基础模型。文生视频方面（Table 2，WebVid-10M），把 MotionAura、Open-MAGVITv2、OmniGenV2 的原生 VAE 换成 PyraTok 后，FVD 下降 9–22 点、时序一致性 TC 提升 20–27 点。

消融实验（Table 6，PSNR on COCO-Val / WebVid-10M）¶

配置	PSNR (C / W)	说明
完整模型（4 Blocks, Qwen2.5-VL）	35.72 / 36.05	默认
w/o LaPQ	31.41 / 31.47	去掉层级量化，掉点最猛（地基）
w/o Text Guidance	33.43 / 36.02	去文本引导，语义落地变弱
w/o Pyramidal-Q	34.02 / 34.02	去多尺度结构
2 Blocks → 3 → 4	33.21 / 34.78 / 35.72	量化级数越多越好，4 级最佳
w/o \(L_{drift}\)	33.48 / 34.52	去漂移正则
w/o \(L_{AR}\)	33.42 / 34.01	去全局自回归对齐
w/o \(L_{drift}\) & \(L_{AR}\)	32.17 / 32.32	两个一起去，第二大降幅
w/o 视觉承诺项	32.88 / 33.45	码本损失项，分配不稳
w/o 文本-码本对齐	34.11 / 34.78	全局语义结构受损

关键发现¶

LaPQ 是最大贡献：去掉它从 35.72 掉到 31.41，远超去掉任何单一损失项的影响，说明"多尺度逐级量化"是性能来源，而不仅是文本对齐这个噱头。
量化级数单调有效：2→3→4 块持续涨点，印证了"更深的量化层级同时抓住粗细视觉细节"的假设。
码本规模有饱和点：词表/维度增大持续提升质量，但超过约 80K 后收益饱和，是容量-效率的权衡边界。
VLM/VAE 骨干可替换：换 LLaMA-3 8B、Gemma-3 4B 仍有竞争力（Qwen2.5-VL 最好）；换 3D-MBQ-VAE、CogVideoX、Mochi-VAE 也都保持改进（Wan 2.2 默认最佳），说明设计是即插即用的。

亮点与洞察¶

把"量化"从一次性末端操作改成沿编码器深度的递归过程：\(q^{(l)} = Q_l(q^{(l-1)}, F^{(l)}, e_t)\) 这个递归式很巧——它让后级在前级基础上继续精化，天然契合 VAE 由浅到深的语义梯度，是单尺度方法拿不到的。
LFQ 二值码本 + 跨级共享 + 仅训练时使用：用 \(\{-1,1\}^{\log_2 K}\) 码字把词表撑到 48K 还不爆显存，推理时无需查表——这套"大词表的好处留下、查表的代价砍掉"的组合可直接迁移到图像分词器。
一套 token 同时做生成和零样本理解：最让人"啊哈"的是同一个离散表示既能换进 T2V 模型提质量，又能零样本刷新分割/定位/分类——证明语言对齐的离散 latent 是真正可迁移的通用表示，而非各任务各练一套。
drift 正则化的思路可复用：冻结大骨干 + LoRA 适配时，用 KL 把适配特征锚回冻结参考编码器来防漂移，这招对任何"在预训练流形上做语义微调"的场景都适用。

局限与展望¶

依赖强预训练骨干：方法建立在冻结的预训练视频 VAE + 大 VLM（Qwen2.5-VL）之上，重建上限和语义质量都受这些外部组件制约，从零训练的可行性未讨论。
训练开销不透明：五项码本损失 + 自回归 + drift + 重建的多目标加权，权重 \(\lambda\) 的取值、训练成本与收敛稳定性正文未给细节（留在补充材料），复现门槛偏高。
横向比较需谨慎：零样本分割的相对提升（OVIS +217.9%）基数很小（2.8→8.9 mAP），绝对值仍远低于有监督方法，"零样本 SOTA"更多是同类无监督/零样本里的领先，不宜直接和有监督数字比大小。
作者展望：把 PyraTok 扩到长时序、多主体、因果这类复杂视频推理任务，并系统评估对齐失败与"谄媚"（sycophancy）问题。

评分¶

新颖性: ⭐⭐⭐⭐⭐ "金字塔逐级量化 + 局部/全局双对齐 + 大词表二值共享码本"的组合在视频分词器里是新的，且第一个做到零样本视频分割。
实验充分度: ⭐⭐⭐⭐⭐ 10 个基准、生成+理解全覆盖，消融逐项拆解（组件/级数/损失/码本/骨干）很扎实。
写作质量: ⭐⭐⭐⭐ 方法与动机讲得清楚，但多项损失的权重与训练细节下放补充材料，正文略欠工程透明度。
价值: ⭐⭐⭐⭐⭐ 一套离散 token 同时服务生成与零样本理解，作为分词器基础设施的可迁移性强。