CaTok: Taming Mean Flows for One-Dimensional Causal Image Tokenization¶

会议: CVPR 2026
论文: CVF Open Access
代码: https://sharelab-sii.github.io/catok-web (项目主页)
领域: 图像生成 / 扩散模型
关键词: 因果图像 tokenizer, 1D token, MeanFlow, 扩散自编码器, 自回归生成

一句话总结¶

CaTok 用「在时间区间 \([r,t]\) 内选 1D token + 绑定 MeanFlow 平均速度场目标」训练一个扩散自编码器，让压缩出来的 1D 视觉 token 同时具备因果性和均衡性，既支持一步快速生成又支持多步高保真重建，在 ImageNet 重建上拿到 0.75 rFID / 22.53 PSNR / 0.674 SSIM，且训练 epoch 更少。

研究背景与动机¶

领域现状：自回归（AR）大语言模型靠「把句子切成 1D 因果 token + 下一个 token 预测」取得了巨大成功。视觉社区想把这套范式搬到图像生成上，关键卡点是——图像该怎么切成「有因果顺序」的 1D token。

现有痛点：现有视觉 tokenizer 在「因果性」这件事上都不干净。VQGAN 这类 2D tokenizer 把图像切成网格再按光栅序/随机序拉平成 1D 序列，前后 token 之间根本没有因果依赖；VAR 这类用「next-scale 预测」建立 coarse-to-fine 顺序，虽然有因果性，但破坏了 LLM 的「next-token 预测」模式。最近兴起的扩散自编码器从 encoder 的 register 里抽 1D token 当 decoder 条件，但同样有问题：Naïve flow decoder（如 FlowMo）让 decoder 条件在全部 token 上，token 之间毫无因果；consistency decoder 用 nested dropout 只条件在前 k 个 token 上（k 靠随机采样或时间步绑定决定），但因为靠前的 token 更容易被选中，引入了严重的不均衡——后面的 token 贡献被压低，反而损害 AR 生成。

核心矛盾：在扩散自编码器框架里，因果性（token 要有先后依赖）和均衡性（每个 token 都要被充分利用）是一对难以兼得的目标。Naïve decoder 有均衡没因果，consistency decoder 有因果没均衡。

核心 idea：作者发现 MeanFlow 的「平均速度场沿子路径 \([r,t]\)」这个结构天然能同时给出因果和均衡——把「选哪些 token」和「拟合哪段时间区间的平均速度」绑定起来：在采样区间 \([r,t]\) 内选对应的 1D token 段 \(V_{r:t}\) 去预测该区间的平均速度。这样 token 沿着 noise→image 的生成路径自然带上了因果性，又因为采样区间是均匀随机的、不偏向靠前的 token，从根上避免了不均衡。

方法详解¶

整体框架¶

CaTok 本质是一个扩散自编码器：一个带因果掩码的 ViT encoder \(E_\delta\) 把图像压成 \(K\) 个 1D token \(V_K\)，一个 MeanFlow DiT decoder \(D_\theta\) 以这些 token 为条件、用「平均速度场」目标把噪声还原成图像。它和普通扩散自编码器最大的不同在于 token 选择方式与训练目标的绑定：训练时独立采两个时间步 \(r<t\)，只把落在区间 \([r\cdot K, t\cdot K]\) 内的 token 段 \(V_{r:t}\) 喂给 decoder，让它预测区间 \([r,t]\) 上的平均速度 \(u_\theta\)。训练好后冻结 encoder 抽 token，再接一个标准 LlamaGen 做「next-token 预测」式的 AR 图像生成；推理时 MeanFlow decoder 支持一步直接出图 \(\hat{x}=\epsilon - D_\theta(\epsilon,0,1,\hat{V}_K)\)。

整个流程是「编码 → 区间选 token → MeanFlow 解码 → （冻结后）AR 生成」的串行 pipeline，外加 REPA-A 在 encoder 端做表征对齐正则，结构如下：

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["图像 x + K 个 register"] --> B["因果扩散自编码器<br/>因果 ViT 编码器 E + MeanFlow DiT 解码器 D"]
    B --> C["1D token V_K<br/>因果注意力掩码"]
    C --> D["区间选 token + MeanFlow 绑定<br/>采样 r&lt;t，取 V(r:t) 拟合区间平均速度"]
    B -.对齐.-> E["REPA-A 表征对齐<br/>编码器特征对齐 DINOv2"]
    D --> F["重建：一步 / 多步采样"]
    C -->|冻结编码器抽 token| G["AR 模型 next-token 预测<br/>→ 类别条件图像生成"]

关键设计¶

1. 因果扩散自编码器架构：把因果约束写进 token 之间的注意力

要让 1D token 具备「前面的 token 不依赖后面、后面的能看到前面」这种 AR 式因果结构，光靠选 token 还不够，得在 encoder 内部就立好规矩。CaTok 给图像 \(x\) 拼上 \(K\) 个 register \(R\) 一起送进因果 ViT encoder，输出图像特征 \(H_e\) 和压缩的 1D token \(V_K\)：\([H_e, V_K]=E_\delta([x,R])\)。关键在于这里施加了有向因果注意力掩码——图像 patch 之间可以互相 attend，但看不到 1D token；而每个 1D token 可以 attend 到所有图像特征，但在 token 之间只能看到自己前面的 token。这就让 \(V_K\) 内部形成了严格的左到右依赖，正好对上 LLM 的 next-token 范式。Decoder 端用一个 MeanFlow DiT \(D_\theta\)，在 frozen 的 KL-16 MAR-VAE latent 空间上操作以省算力（CATOK-B 用 DiT-B/4、CATOK-L 用 DiT-L/2）。这套「因果 ViT encoder + MeanFlow DiT decoder」就是 CaTok 区别于 FlowMo（无因果）和 VAR（破坏 next-token）的载体。

2. 区间选 token + MeanFlow 绑定：同时拿到因果性和均衡性（核心设计）

这是 CaTok 的灵魂。先回顾 MeanFlow：普通 rectified flow 学瞬时速度 \(v(z_t,t)=\epsilon-x\)，少步采样时用一个时刻的瞬时速度去近似整段平均速度会有误差；MeanFlow 直接拟合区间 \([r,t]\) 上的平均速度

\[u(z_t,r,t) \triangleq \frac{1}{t-r}\int_r^t v(z_\tau,\tau)\,d\tau,\]

并由恒等式 \(u(z_t,r,t)=v(z_t,t)-(t-r)\big(v(z_t,t)\partial_z u+\partial_t u\big)\) 转成可训练目标，从而支持一步采样 \(z_0=\epsilon-u_\theta(\epsilon,0,1)\)。CaTok 的妙处是把「token 选择」绑定到这个区间上：训练时独立采 \(r,t\in[0,1]\)（\(r<t\)），构造流路径 \(z_t=(1-t)x+t\epsilon\)，然后只把区间 \([r\cdot K, t\cdot K]\) 内的 token 段 \(V_{r:t}\) 喂给 decoder 去预测该区间平均速度 \(u_\theta=D_\theta(z_t,r,t,V_{r:t})\)。

为什么这一招能同时解决因果和均衡？因为平均速度场刻画的是「从 \(r\) 到 \(t\) 这段子路径」的演化，把 token 段对应到子路径，就让 token 顺着 noise→image 的生成过程天然带上了因果（区间端点 \(t\) 越往后、覆盖的 token 越多，越精细——论文用「256→16 token 逐步变粗」的 fine-to-coarse 重建佐证了这点）；而 \([r,t]\) 是均匀随机采的、不像 nested dropout 那样系统性偏向前 k 个 token，所以每个 token 被使用的机会均衡，不需要 Selftok 那种额外的 re-weighting。MeanFlow 目标实现为

\[\mathcal{L}_{MF} := \mathbb{E}\big\|u_\theta-(\epsilon-x)-\mathrm{sg}[(t-r)((\epsilon-x)\partial_z u_\theta+\partial_t u_\theta)]\big\|_2^2,\]

其中 \(\mathrm{sg}[\cdot]\) 是 stop-gradient，避免对 Jacobian-向量积二次反传。同时为稳定训练，固定比例 \(q=75\%\) 的样本令 \(r=t\) 退化成 rectified flow，用全部 token \(V_K\) 拟合瞬时速度 \(\mathcal{L}_{RF}:=\mathbb{E}\|v_\theta-(\epsilon-x)\|_2^2\)（loss 用 adaptive L2，\(c=10^{-3}, w=1.0\)）。

3. REPA-A：为条件扩散自编码器量身定制的表征对齐正则

扩散自编码器从零训很慢、还容易在引入 MeanFlow loss 时出现 loss 尖刺。REPA 系列的思路是用 Vision Foundation Model（VFM）的高质量表征去对齐、加速收敛，但已有变体不太适配 CaTok：REPA-E 是把梯度回传到 VAE，VA-VAE 直接正则 VAE 的压缩特征。作者提出 REPA-A——专门对齐 encoder 输出的图像特征 \(H_e\) 与 VFM 表征 \(H_{vfm}\)（用 DINOv2-B/16）：

\[\mathcal{L}_{REPA\text{-}A} := -\mathbb{E}\Big[\frac{1}{N}\sum_{n=1}^N \mathrm{sim}(H_{vfm}^{[n]}, H_e^{[n]})\Big],\]

其中 \(\mathrm{sim}\) 是余弦相似度，\(n\) 是 patch 索引。直接作用在 encoder 特征上让 register 能抽到更有语义、更可判别的内容，从而让 1D token 信息量更足。它和标准 REPA（作用在 decoder 中间层 \(H_d\) 上）配合使用，损失权重分别为 \(0.8\) 和 \(1.0\)。消融显示 REPA-A 能压平「在 25K 步引入 MeanFlow loss 时的 loss 尖刺」，把训练稳住。

损失函数 / 训练策略¶

总目标 = MeanFlow \(\mathcal{L}_{MF}\) + Rectified Flow \(\mathcal{L}_{RF}\) + REPA \(\mathcal{L}_{REPA}\) + REPA-A \(\mathcal{L}_{REPA\text{-}A}\)，四项联合优化。Encoder 是 ViT-B/8 带 register + 因果掩码，1D token 取 16 维并归一化。训练好后冻结 CaTok encoder 抽 token，再训一个标准 \(\epsilon\)LlamaGen-L（用 diffusion loss）做 AR 生成，teacher forcing + 类别 token 前缀，推理用 CFG（无 temperature 采样）。

实验关键数据¶

主实验¶

ImageNet-1K 256×256 重建（rFID 越低越好，PSNR/SSIM 越高越好）：

方法	Token	#Param	Epochs	rFID↓	PSNR↑	SSIM↑
FlowMo-Lo-256	256	945M	130	0.95	22.07	0.649
Semanticist-L-256	256	552M	400	0.78	21.61	0.626
CaTok-L-256	256	552M	160	0.75	22.53	0.674
CaTok-B-256	256	224M	80	1.17	22.10	0.666
CaTok-L-256† (一步)	256	552M	160	4.63	20.99	0.630

CaTok-L-256 在 PSNR / SSIM 上超过所有扩散自编码器（SSIM 显著优于 945M 的 FlowMo），rFID 0.75 与 Semanticist 相当但只用了不到一半 epoch；CaTok-B-256 仅 80 epoch 就拿到有竞争力的结果，体现训练效率。带 † 的一步采样变体在「一步 1D tokenizer」里 PSNR/SSIM 最佳。

类别条件生成（ImageNet-1K 256×256，gFID 越低越好）：

方法	#Param	Token	gFID↓	IS↑
Semanticist-L-256	343M	256/32	2.57	260.9
SpectralAR-64	310M	64	3.02	282.2
CaTok-L-128	343M	128	2.95	269.2
CaTok-L-64	343M	64	3.01	280.5
CaTok-L-32	343M	32	3.40	288.6

CaTok 在 tokenization 训练 epoch 大幅更少（160 vs 300+）的前提下，gFID/IS 与 SOTA tokenizer 相当，验证其学到的 1D 因果 token 适配标准 AR 建模。

消融实验¶

训练配方逐步加项（CATOK-B-256，80 epoch）：

配置	rFID@1	rFID@25	gFID
只 \(\mathcal{L}_{RF}\)	183.69	1.81	19.67
+ \(\mathcal{L}_{MF}\)	4.71	1.90	24.39
+ \(\mathcal{L}_{REPA}\)	4.31	1.71	17.92
+ \(\mathcal{L}_{REPA\text{-}A}\)	3.92	1.15	13.54
+ 区间 \([r,t]\) 选 token	4.89	1.17	4.91

因果性 + 均衡性对 AR 生成的影响（token 选择方式）：

选择方式	学习 token	使用 token	rFID	gFID
区间 \([r,t]\)（默认）	256	256	1.17	4.91
全部 All	256	256	1.15	13.54
前 k First k	256	256	1.37	9.21
前 k First k	256	128	5.32	7.49

关键发现¶

「区间选 token」是 AR 生成质量的胜负手：单看重建（rFID），加上区间选择反而从 3.92→4.89 略降；但 gFID 从 13.54 暴跌到 4.91。也就是说它牺牲了一点点重建保真，换来 AR 生成的大幅提升——这正是「因果 token」的价值所在。
「全部 token」rFID 最好但 gFID 最差（1.15 / 13.54）：重建够用但没因果，AR 学不动；「前 k token」则因不均衡，gFID 也不如区间法。CaTok 不靠额外 re-weighting 就从根上解决了均衡问题。
MeanFlow 目标是一步采样能力的来源：只用 \(\mathcal{L}_{RF}\) 时 rFID@1 高达 183.69（一步几乎不可用），加上 \(\mathcal{L}_{MF}\) 直接降到 4.71，一步采样变得可用。
REPA-A 既提性能又稳训练：它把 gFID 从 17.92 推到 13.54，并压平了在 25K 步引入 MeanFlow loss 时的 loss 尖刺。

亮点与洞察¶

把「token 选择」绑定到「平均速度的时间区间」上，这个结构性洞察很巧：因果性和均衡性原本是一对矛盾，但 MeanFlow 的子路径平均速度天然把二者统一了——区间端点决定覆盖多少 token（因果），区间均匀采样保证不偏心（均衡），不需要额外正则或重加权。
一步采样是「副产品」而非刻意优化：CaTok 没专门为一步采样做复杂训练 recipe（如 GAN loss），但靠 MeanFlow 目标自然获得了不错的一步生成能力，体现了选对目标函数的杠杆效应。
「区间选 token 让重建略降、生成大涨」的 trade-off 数据很有指导意义：它提醒做 tokenizer 的人，重建指标好≠适合下游 AR 生成，因果结构才是 AR 友好的关键。
REPA-A「对齐 encoder 而非 decoder/VAE」的定位差异，给条件扩散自编码器的表征正则提供了一个可迁移的范式。

局限与展望¶

作者承认在 ImageNet-1K 上做的是公平对比实验，没在更大数据集、更广任务上验证；视觉 tokenizer 与 AR 生成器之间的复杂耦合（token 维度、token 数增加带来的误差累积）超出本文范围，留作 future work。
一步采样的 rFID（如 CATOK-L-256† 的 4.63）仍明显落后现代 2D tokenizer，因为后者靠 GAN loss 等更难的目标和复杂 recipe；CaTok 不是专为一步采样优化的，这块属于「能用但不极致」。⚠️ 一步 vs 多步的指标不在同一难度下，不宜直接横比。
1D token 固定 16 维、encoder 固定 ViT-B/8，token 数与模型规模的 scaling 行为没充分展开；区间采样分布（是否均匀采 \(r,t\) 最优）也未深入消融。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 「区间选 token + MeanFlow 绑定」同时解决因果与均衡，是一个干净且有结构洞察的新点子。
实验充分度: ⭐⭐⭐⭐ 重建/生成/消融齐全，roadmap 与 token 选择消融很有说服力；但限于 ImageNet 单数据集、scaling 未充分展开。
写作质量: ⭐⭐⭐⭐⭐ 三类 decoder 的对比图把动机讲得极清晰，公式与消融逐步推进，易读。
价值: ⭐⭐⭐⭐ 为「AR 友好的视觉 tokenizer」提供了一条不靠 re-weighting 的可行路径，对统一语言/视觉 AR 范式有参考意义。