AlignTok: Aligning Visual Foundation Encoders to Tokenizers for Diffusion Models¶

会议: ICLR 2026
arXiv: 2509.25162
代码: https://aligntok.github.io
领域: 扩散模型
关键词: visual tokenizer, latent diffusion, DINOv2, semantic alignment, image generation

一句话总结¶

提出 AlignTok，将预训练视觉基础编码器（如 DINOv2）对齐为扩散模型的连续 tokenizer，通过三阶段对齐策略（语义潜空间建立→感知细节补充→解码器精炼）构建语义丰富的潜空间，在 ImageNet 256×256 上 64 epochs 即达 gFID 1.90，比从头训练 VAE 收敛更快、生成质量更好。

研究背景与动机¶

领域现状：潜在扩散模型（LDM）依赖 VAE 作为 tokenizer 定义潜空间。标准 VAE 用重建损失 + 轻度 KL 正则化训练，潜空间主要由低级细节主导。

现有痛点：(1) VAE 编码器从头学语义是间接的（仅通过重建损失），潜空间结构不可预测；(2) 语义正则化方法（VA-VAE）虽在训练中加入与预训练编码器对齐的损失项，但编码器仍需从头学习语义结构。

核心矛盾：学语义本质上比学重建更难。从头训练时，编码器需要同时兼顾语义结构和重建细节，两个目标互相竞争。

本文目标 如何构建一个既有丰富语义（利于扩散）又有良好重建能力的 tokenizer？

切入角度：不从头学语义，直接用已有预训练编码器。挑战在于预训练编码器不具备重建能力——需要对齐而非正则化。

核心 idea：与其让编码器从头学语义（正则化），不如直接对齐一个已经有语义的预训练编码器（对齐）。

方法详解¶

整体框架¶

AlignTok 三阶段：(1) 冻结 DINOv2 编码器，训练 adapter + decoder 建立语义潜空间；(2) 联合优化所有组件 + 语义保持损失，让编码器同时捕获感知细节且不丢失语义；(3) 仅微调 decoder 提升重建质量。

关键设计¶

Stage 1: Latent Alignment（潜空间对齐）:
- 功能：用冻结的 DINOv2 编码器特征建立语义潜空间
- 核心思路：\(z_0 = A(E_p(x))\)，adapter A 将高维特征（1024ch）投影到低维潜码（32ch），decoder D 重建图像。仅训练 A 和 D，不用 KL 正则化
- 设计动机：冻结编码器确保语义不被破坏，但重建质量受限（因为编码器不捕获低级细节）
Stage 2: Perceptual Alignment（感知对齐）:
- 功能：解冻编码器，让其捕获低级细节同时保持语义
- 核心思路：联合优化 \(E_p, A, D\)，加入语义保持损失 \(\mathcal{L}_{sp} = L_{\ell_2}(z_0^*, z_0)\)——约束当前潜码与 Stage 1 冻结模型产生的潜码一致。总损失 \(\mathcal{L} = \mathcal{L}_{rec} + w_{sp}\mathcal{L}_{sp}\)
- 设计动机：不加语义保持损失时，linear probing accuracy 从 41% 暴降到 9.5%——编码器灾难性遗忘了语义。\(w_{sp}=1\) 是最佳权重平衡点
Stage 3: Decoder Refinement（解码器精炼）:
- 功能：冻结编码器和 adapter，仅微调 decoder 提升重建
- 设计动机：前两阶段潜空间持续变化导致 decoder 可能欠拟合。锁定潜空间后单独优化 decoder 可进一步提升重建保真度

损失函数 / 训练策略¶

重建损失：L1 + 感知损失 + 对抗损失。语义保持损失：两阶段潜码的 L2 距离。不用 KL 正则化。默认用 DINOv2-L/14 作为基础编码器，下采样率 16，潜码通道 32。

实验关键数据¶

主实验（ImageNet 256×256）¶

方法	rFID↓	gFID↓	IS↑	Recall↑
SD-VAE (从头)	0.91	2.66	-	-
VA-VAE (语义正则化)	0.49	2.14	-	-
AlignTok (对齐)	0.26	1.90	260.6	0.599

消融实验¶

配置	rFID	gFID	Linear Probing Acc
无语义保持损失 (w=0)	0.33	3.05	9.5%
w=1 (最佳)	0.36	2.19	35.1%
w=5	0.49	2.48	40.6%
仅 Stage 1	1.63	3.00	41.5%
Stage 1+2	0.36	2.19	35.1%
完整 (Stage 1+2+3)	0.26	2.17	35.1%

关键发现¶

DINOv2 优于 SigLIP2 和 MAE 作为基础编码器——DINOv2 的自监督特征更适合扩散建模
在 LAION 上 text-to-image 实验中，AlignTok 在相同训练步数下始终优于 FLUX VAE 和 VA-VAE
不用 KL 正则化反而更好——KL 会扭曲编码器的语义结构
语义保持损失应施加在 adapter 之后（而非之前），给 adapter 过多自由度会丢失语义
LoRA 微调不够——Stage 2 需要完整微调才能平衡语义和重建

亮点与洞察¶

范式转变：对齐 vs 正则化：不从头学语义，直接复用预训练视觉基础模型的语义能力——简洁高效。这一思路可推广到任何需要语义潜空间的生成模型
语义保持损失的简洁有效性：仅一个 L2 损失就能防止灾难性遗忘，同时允许编码器学习感知细节
三阶段渐进对齐的设计哲学：先语义→再感知→最后重建，每阶段解决一个问题，避免目标冲突

局限与展望¶

目前仅在 ImageNet 256×256 和 LAION 上验证，更高分辨率的效果需要确认
DINOv2 的下采样率固定为 14×14，可能限制了更灵活的分辨率适配
与 RAE（直接用冻结编码器做高维潜空间）的结合尚未探索
三阶段训练增加了 pipeline 复杂度

评分¶

新颖性: ⭐⭐⭐⭐ 对齐而非正则化的范式很简洁
实验充分度: ⭐⭐⭐⭐⭐ 详细消融、多编码器对比、ImageNet+LAION、与并行工作的定位
写作质量: ⭐⭐⭐⭐⭐ 逻辑清晰，与并行工作的关系讨论到位
价值: ⭐⭐⭐⭐⭐ 为扩散模型 tokenizer 设计确立了新范式