跳转至

AlignTok: Aligning Visual Foundation Encoders to Tokenizers for Diffusion Models

会议: ICLR 2026
arXiv: 2509.25162
代码: https://aligntok.github.io
领域: 扩散模型
关键词: visual tokenizer, latent diffusion, DINOv2, semantic alignment, image generation

一句话总结

提出 AlignTok,将预训练视觉基础编码器(如 DINOv2)对齐为扩散模型的连续 tokenizer,通过三阶段对齐策略(语义潜空间建立→感知细节补充→解码器精炼)构建语义丰富的潜空间,在 ImageNet 256×256 上 64 epochs 即达 gFID 1.90,比从头训练 VAE 收敛更快、生成质量更好。

研究背景与动机

领域现状:潜在扩散模型(LDM)依赖 VAE 作为 tokenizer 定义潜空间。标准 VAE 用重建损失 + 轻度 KL 正则化训练,潜空间主要由低级细节主导。

现有痛点:(1) VAE 编码器从头学语义是间接的(仅通过重建损失),潜空间结构不可预测;(2) 语义正则化方法(VA-VAE)虽在训练中加入与预训练编码器对齐的损失项,但编码器仍需从头学习语义结构。

核心矛盾:学语义本质上比学重建更难。从头训练时,编码器需要同时兼顾语义结构和重建细节,两个目标互相竞争。

本文目标 如何构建一个既有丰富语义(利于扩散)又有良好重建能力的 tokenizer?

切入角度:不从头学语义,直接用已有预训练编码器。挑战在于预训练编码器不具备重建能力——需要对齐而非正则化。

核心 idea:与其让编码器从头学语义(正则化),不如直接对齐一个已经有语义的预训练编码器(对齐)。

方法详解

整体框架

AlignTok 三阶段:(1) 冻结 DINOv2 编码器,训练 adapter + decoder 建立语义潜空间;(2) 联合优化所有组件 + 语义保持损失,让编码器同时捕获感知细节且不丢失语义;(3) 仅微调 decoder 提升重建质量。

关键设计

  1. Stage 1: Latent Alignment(潜空间对齐):

    • 功能:用冻结的 DINOv2 编码器特征建立语义潜空间
    • 核心思路:\(z_0 = A(E_p(x))\),adapter A 将高维特征(1024ch)投影到低维潜码(32ch),decoder D 重建图像。仅训练 A 和 D,不用 KL 正则化
    • 设计动机:冻结编码器确保语义不被破坏,但重建质量受限(因为编码器不捕获低级细节)
  2. Stage 2: Perceptual Alignment(感知对齐):

    • 功能:解冻编码器,让其捕获低级细节同时保持语义
    • 核心思路:联合优化 \(E_p, A, D\),加入语义保持损失 \(\mathcal{L}_{sp} = L_{\ell_2}(z_0^*, z_0)\)——约束当前潜码与 Stage 1 冻结模型产生的潜码一致。总损失 \(\mathcal{L} = \mathcal{L}_{rec} + w_{sp}\mathcal{L}_{sp}\)
    • 设计动机:不加语义保持损失时,linear probing accuracy 从 41% 暴降到 9.5%——编码器灾难性遗忘了语义。\(w_{sp}=1\) 是最佳权重平衡点
  3. Stage 3: Decoder Refinement(解码器精炼):

    • 功能:冻结编码器和 adapter,仅微调 decoder 提升重建
    • 设计动机:前两阶段潜空间持续变化导致 decoder 可能欠拟合。锁定潜空间后单独优化 decoder 可进一步提升重建保真度

损失函数 / 训练策略

重建损失:L1 + 感知损失 + 对抗损失。语义保持损失:两阶段潜码的 L2 距离。不用 KL 正则化。默认用 DINOv2-L/14 作为基础编码器,下采样率 16,潜码通道 32。

实验关键数据

主实验(ImageNet 256×256)

方法 rFID↓ gFID↓ IS↑ Recall↑
SD-VAE (从头) 0.91 2.66 - -
VA-VAE (语义正则化) 0.49 2.14 - -
AlignTok (对齐) 0.26 1.90 260.6 0.599

消融实验

配置 rFID gFID Linear Probing Acc
无语义保持损失 (w=0) 0.33 3.05 9.5%
w=1 (最佳) 0.36 2.19 35.1%
w=5 0.49 2.48 40.6%
仅 Stage 1 1.63 3.00 41.5%
Stage 1+2 0.36 2.19 35.1%
完整 (Stage 1+2+3) 0.26 2.17 35.1%

关键发现

  • DINOv2 优于 SigLIP2 和 MAE 作为基础编码器——DINOv2 的自监督特征更适合扩散建模
  • 在 LAION 上 text-to-image 实验中,AlignTok 在相同训练步数下始终优于 FLUX VAE 和 VA-VAE
  • 不用 KL 正则化反而更好——KL 会扭曲编码器的语义结构
  • 语义保持损失应施加在 adapter 之后(而非之前),给 adapter 过多自由度会丢失语义
  • LoRA 微调不够——Stage 2 需要完整微调才能平衡语义和重建

亮点与洞察

  • 范式转变:对齐 vs 正则化:不从头学语义,直接复用预训练视觉基础模型的语义能力——简洁高效。这一思路可推广到任何需要语义潜空间的生成模型
  • 语义保持损失的简洁有效性:仅一个 L2 损失就能防止灾难性遗忘,同时允许编码器学习感知细节
  • 三阶段渐进对齐的设计哲学:先语义→再感知→最后重建,每阶段解决一个问题,避免目标冲突

局限与展望

  • 目前仅在 ImageNet 256×256 和 LAION 上验证,更高分辨率的效果需要确认
  • DINOv2 的下采样率固定为 14×14,可能限制了更灵活的分辨率适配
  • 与 RAE(直接用冻结编码器做高维潜空间)的结合尚未探索
  • 三阶段训练增加了 pipeline 复杂度

相关工作与启发

  • vs VA-VAE(语义正则化): AlignTok 直接对齐预训练编码器而非从头学习加正则化,gFID 从 2.14 改善到 1.90
  • vs FLUX VAE: 在 LAION text-to-image 上,AlignTok 收敛显著更快
  • vs RAE(冻结编码器): RAE 不微调但需要特殊的高维扩散技巧,AlignTok 微调后维度低(32ch)更标准
  • vs REPA-E(端到端): 两者互补——REPA-E 可以用 AlignTok 初始化其 tokenizer

评分

  • 新颖性: ⭐⭐⭐⭐ 对齐而非正则化的范式很简洁
  • 实验充分度: ⭐⭐⭐⭐⭐ 详细消融、多编码器对比、ImageNet+LAION、与并行工作的定位
  • 写作质量: ⭐⭐⭐⭐⭐ 逻辑清晰,与并行工作的关系讨论到位
  • 价值: ⭐⭐⭐⭐⭐ 为扩散模型 tokenizer 设计确立了新范式