跳转至

Latent Denoising Makes Good Tokenizers

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=1jBsi98fVe
代码: https://github.com/Jiawei-Yang/DeTok
领域: 图像生成 / 视觉 Tokenizer
关键词: visual tokenizer, latent denoising, generative modeling, diffusion, autoregressive

一句话总结

本文指出现代生成模型本质上都在做"从破坏中重建"(denoising),据此提出 l-DeTok:在 tokenizer 训练时给 latent 注入插值噪声和随机掩码、再让 decoder 从重度破坏的 latent 重建原图,使 tokenizer 产出的 latent 天然对齐下游去噪目标,在六种生成模型上一致提升生成质量且无需任何语义蒸馏。

研究背景与动机

  • 领域现状:现代视觉生成模型(扩散、流匹配、自回归)普遍不在像素空间建模,而是先用 tokenizer(通常是 VAE)把图像压成紧凑 latent,再在 latent 上生成。但 tokenizer 的设计长期落后于生成模型架构的快速演进。
  • 现有痛点:主流 tokenizer 只优化"像素重建 + KL 正则",没人说清楚"到底什么性质的 latent 才对生成更友好"。近期有工作靠从 DINOv2/CLIP 等大规模预训练视觉编码器蒸馏语义来改善 latent,但这在很多模态(视频、音频、3D/4D)里根本没有现成的强编码器可蒸馏,依赖性太强。
  • 核心矛盾:tokenizer 的训练目标(像素重建)与下游生成模型的训练目标(从噪声/掩码中恢复信号)是割裂的——tokenizer 只管把图压好压满,并不在乎产出的 latent 在被噪声严重破坏后还能不能恢复,而后者恰恰是生成模型每一步都要做的事。
  • 本文目标:找到一个对生成普适、且不依赖外部预训练编码器的 tokenizer 设计原则。
  • 核心 idea统一去噪视角 —— 作者观察到扩散模型在去高斯噪声、自回归模型在补"掩码噪声",二者都是"从被破坏的信号里重建原信号"。既然下游全在去噪,那就让 tokenizer 训练时也去噪:直接在 latent 上注入强破坏并要求重建,逼出"即使被重度破坏也能还原"的鲁棒 latent,从而与下游去噪目标天然对齐。

方法详解

整体框架

l-DeTok 沿用 ViT 的 encoder-decoder 自编码器结构,但在训练时对 latent 施加两路互补的"破坏"——插值高斯噪声与随机掩码——再让 decoder 从被破坏的 latent 重建出干净的原图(像素空间)。推理(即真正当作 tokenizer 用)时两路破坏全部关闭。换句话说,它把 tokenizer 从"标准自编码器"改造成"latent 去噪自编码器",让重建任务本身变难,逼出鲁棒、易去噪的 latent。

flowchart LR
    A[输入图像分patch] --> B[随机掩码<br/>masking noise]
    B --> C[Encoder ViT]
    C --> D[latent embeddings x]
    D --> E["插值噪声<br/>x'=(1-τ)x+τε(γ)"]
    E --> F[Decoder ViT<br/>+ mask tokens]
    F --> G[重建干净原图]
    G -.训练.-> H[MSE+KL+感知+GAN]
    style E fill:#ffe0e0
    style B fill:#ffe0e0

关键设计

1. 插值噪声破坏(Interpolative latent noise):用插值而非加法保证"真破坏"。 这是全文最核心的设计。给定 encoder 产出的 latent \(x\),不是按标准 VAE 那样做加法 \(x' = x + \tau\varepsilon\),而是把 latent 与高斯噪声做插值\(x' = (1-\tau)x + \tau\varepsilon(\gamma)\),其中 \(\varepsilon(\gamma)\sim\gamma\cdot\mathcal{N}(0,I)\),噪声水平 \(\tau\sim\mathcal{U}(0,1)\)\(\gamma\) 控制噪声标准差。两者的关键区别在于:加法噪声在 \(\tau\) 较大时原始信号仍可能占主导,给模型留下"绕过噪声直接读原信号"的捷径,破坏不彻底;而插值噪声在 \(\tau\to1\) 时原始信号被完全压没、彻底变成纯噪声,确保 latent 能被重度破坏。再加上 \(\tau\) 随机采样,让 latent 对各种破坏强度都保持鲁棒。实验证实插值噪声在 SiT 和 MAR 上都明显优于加法噪声,且整体而言噪声越强、下游生成越好\(\gamma\) 在 3.0 附近最佳),印证了"越难的去噪任务越能逼出对齐下游的好 latent"这一核心假设。

2. 掩码破坏(Masking as deconstruction):把 MAE 式掩码当成另一种 latent 破坏。 作者把"统一去噪视角"进一步推广——掩码也是一种破坏。借鉴 MAE 随机掩掉一部分图像 patch,但与 MAE 固定掩码率不同,这里掩码率 \(m\) 用一个略偏向 0 的均匀分布采样:\(m = \max(0, \mathcal{U}(-0.1, M))\)。把下界设到 \(-0.1\) 再截断到 0,是为了让"训练时偶尔不掩码",缩小训练(有掩码)与推理(无掩码)之间的分布差距。encoder 只看可见 patch,被掩位置在 decoder 端用共享可学习的 [MASK] token 补上。消融显示掩码率在 70%–90% 的重掩码区间最好,且随机掩码率一致优于固定掩码率——再次呼应"破坏越难越好、且要覆盖多种破坏强度"的规律。不过掩码是可选项:latent 噪声是必需的主力,掩码只是锦上添花。

3. 联合去噪与标准重建损失(Joint denoising + 重建目标):两路破坏叠加、损失不变。 把插值噪声(\(\gamma=3.0\))和掩码(\(M=0.7\))同时开启即"联合去噪"。训练目标完全沿用业界成熟配方,未引入任何额外损失:\(L_{\text{total}} = L_{\text{MSE}} + \lambda_{\text{KL}}L_{\text{KL}} + \lambda_{\text{percep}}L_{\text{percep}} + \lambda_{\text{GAN}}L_{\text{GAN}}\)(默认 \(\lambda_{\text{KL}}=10^{-6}\)\(\lambda_{\text{percep}}=1.0\)\(\lambda_{\text{GAN}}=0.1\),GAN 在训练中途才开启)。也就是说 l-DeTok 的全部"魔法"都在输入端的两路破坏上,损失函数和架构都不动——这正是它"simple yet effective"、且可无缝套到现有 tokenizer 训练流程的原因。实验上联合去噪对 MAR 提升更明显,对 SiT 在已有 latent 噪声时增益有限,佐证了"latent 去噪必需、掩码可选"。

实验关键数据

主实验:跨 tokenizer 的泛化对比(ImageNet 256×256,base 模型 100 epoch,最优 CFG)

Tokenizer rFID↓ MAR FID↓ RandomAR FID↓ RasterAR FID↓ SiT FID↓ DiT FID↓ Light.DiT FID↓
无语义蒸馏
SD-VAE 0.61 4.64 13.11 8.26 7.66 8.33 4.24
MAR-VAE(最强 baseline) 0.53 3.71 11.78 7.99 6.26 8.20 3.98
Our l-DeTok 0.68 2.43 5.22 4.46 5.13 6.58 3.63
有语义蒸馏
VA-VAE 0.28 16.66 38.13 15.88 4.33 4.91 2.86
MAETok 0.48 6.99 24.83 15.92 4.77 5.24 3.92
Our l-DeTok + Distill 0.85 2.52 5.57 11.99 3.40 3.91 2.18

关键观察:现有语义蒸馏 tokenizer(VA-VAE/MAETok)在非自回归模型上很强,但在自回归模型上严重崩溃(MAR FID 16.66/6.99,远差于 l-DeTok 的 2.43)——揭示了"一个范式上的 tokenizer 增益未必迁移到另一范式"这一此前被忽视的鸿沟。

消融:破坏策略的拆解(FID@50k,含 CFG)

Setup MAR-B FID↓ MAR-B IS↑ SiT-B FID↓ SiT-B IS↑
Baseline(无噪声) 3.31 247.6 6.97 181.6
Masking only 2.90 243.0 6.43 189.2
Latent noise only 2.77 249.0 5.56 193.5
Joint noise 2.65 263.0 5.50 195.1
+Extended(大 encoder/200ep/GAN) 2.43 266.5 5.13 207.4

噪声水平采样消融(\(\gamma=3.0\)):\(\tau=0\) 基线 MAR-B 3.31;\(\tau\sim\mathcal{U}(0,1)\) 默认 2.77;把概率质量偏向高噪声 \(\text{logit}(\tau)\sim\mathcal{N}(0.8,1)\) 最佳 2.58。

系统级对比(ImageNet 256×256,MAR 训 800 epoch)

  • MAR-B:仅换 l-DeTok,FID 从 2.31 → 1.55(追平原版 huge 尺寸 MAR)。
  • MAR-L:FID 从 1.78 → 1.35,且无需任何语义蒸馏即跻身领先系统。
  • 可扩展性(100 epoch):SiT-B/L/XL 与 MAR-B/L 在所有尺寸上一致提升(如 SiT-XL 4.47→3.14,MAR-L 2.44→2.08)。

关键发现

  • 更强的破坏 → 更好的生成:无论是噪声标准差 \(\gamma\) 还是掩码率,都偏好"重度破坏",证实"难的去噪任务逼出好 latent"。
  • latent 噪声是主力、掩码可选;插值噪声显著优于加法噪声。
  • l-DeTok 与架构无关:在 CNN-based tokenizer 上同样有效(MAR-B 3.32→2.82,SiT-B 7.11→5.62)。

亮点与洞察

  • 概念统一漂亮:把扩散的"去高斯噪声"和自回归的"补掩码"统一成 denoising,再据此让 tokenizer 训练对齐下游,是一个简洁且解释力强的视角。
  • 极简、即插即用:不改架构、不加新损失,只在输入端加两路破坏,就能套进任意现有 tokenizer 训练流程。
  • 戳破一个隐含假设:首次系统揭示"tokenizer 在非自回归模型上的增益未必迁移到自回归模型",并提供跨六种生成模型的统一评测,对社区评测惯例(只在 DiT/SiT 上测)是有力提醒。
  • 摆脱外部依赖:不靠 DINOv2/CLIP 蒸馏即达到领先,对视频/音频/3D 等缺乏强预训练编码器的模态尤其有价值。

局限与展望

  • 仅在图像上验证:作者反复强调对视频/音频/3D 的潜力,但论文本身只在 ImageNet/MS-COCO 图像上做了实验,跨模态迁移尚待证明。
  • 掩码增益有限:联合去噪对 SiT 几乎无额外收益,掩码路在已有 latent 噪声时价值不大,两路破坏的协同还不够充分。
  • 噪声配置仍需调参\(\gamma\)\(M\)\(\tau\) 分布都需按下游模型微调,缺乏自适应或理论指导的最优破坏强度。
  • 与语义蒸馏的关系微妙:加蒸馏后非自回归模型最佳,但自回归模型反而可能略降,说明"去噪对齐"与"语义对齐"两条路如何融合还没理清。

相关工作与启发

  • 生成范式:统一了扩散/流匹配(非自回归,去高斯噪声 \(X_t=a(t)X_0+b(t)\varepsilon_t\))与自回归(从部分可见/掩码上下文重建序列)两大框架的训练目标。
  • 表示学习:思路上承接 MAE(掩码重建)、对比/自蒸馏等"用 pretext 任务对齐下游"的传统,把这一原则首次系统地用到 tokenizer 设计。
  • 同期 tokenizer 工作:与靠语义蒸馏的 VA-VAE/MAETok 形成对照;与 ε-VAE(用扩散 decoder 替代确定性 decoder)和残差向量量化 token 互补。
  • 启发:当下游任务的本质(去噪)能被显式注入上游表示学习时,表示与任务的对齐能带来"免费"的大幅提升——这一"下游对齐"原则可能推广到更多"上游编码器 + 下游生成"的两段式系统。

评分

  • 新颖性: ⭐⭐⭐⭐ — "统一去噪视角"和"插值噪声破坏 latent"都很有洞见,虽单个组件(MAE 掩码、去噪自编码器)不新,但组合与定位(对齐下游、不依赖蒸馏)是新的。
  • 实验充分度: ⭐⭐⭐⭐⭐ — 六种生成模型 × 多尺寸 × CNN/ViT × 多数据集 × 细致消融(噪声类型/强度/分布/掩码率),泛化性论证扎实。
  • 写作质量: ⭐⭐⭐⭐ — 动机递进清晰、图表完整、核心假设反复印证,可读性高。
  • 价值: ⭐⭐⭐⭐ — 提供了一条简单、普适、不依赖外部预训练的 tokenizer 改进路径,对生成建模社区实用价值高,且揭示了跨范式不迁移这一重要现象。