Latent Diffusion Model without Variational Autoencoder¶
会议: ICLR 2026
arXiv: 2510.15301
代码: GitHub
领域: 扩散模型 / 视觉表征
关键词: 自监督表征, DINOv3, 无VAE潜在扩散, 统一特征空间, 少步生成
一句话总结¶
提出 SVG,用冻结的 DINOv3 自监督特征替代 VAE 潜在空间构建扩散模型,通过轻量残差编码器补充细粒度细节,实现更快训练、更高效推理和跨任务通用的视觉表征。
研究背景与动机¶
- VAE+Diffusion 范式存在三大局限:训练/推理低效、少步采样质量差、VAE 特征缺乏语义判别性
- VAE 潜在空间语义纠缠严重(t-SNE 可视化显示不同类别高度混合),导致速度场方向矛盾,需要更多采样步骤
- 现有加速方法(REPA、VA-VAE)通过对齐 VFM 特征改善,但仅是治标,未根本改变潜在空间结构
- 假设:具有清晰语义判别性的潜在空间可大幅加速扩散训练
方法详解¶
整体框架¶
SVG 想解决的是 VAE+Diffusion 范式训练慢、少步采样质量差的老问题,做法是把扩散模型从 VAE 潜在空间整体搬到自监督特征空间。一张图先送进冻结的 DINOv3 编码器,得到语义判别性很强但偏高层、缺细节的主干特征;同一张图再走一个轻量残差编码器,补回 DINO 丢掉的色彩与高频纹理,两路特征沿通道拼成 SVG 特征。扩散模型直接在这个语义清晰的 SVG 特征空间上学习速度场,采样时生成的特征再由 SVG Decoder 解码回像素图像。整套设计赌的是:语义被天然分散开的潜在空间能让速度场更平滑,从而换来更快的训练收敛和更少的采样步数。
%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400, 'subGraphTitleMargin': {'top': 8, 'bottom': 16}}}}%%
flowchart TD
IMG["输入图像 256×256"]
subgraph AE["SVG 自编码器(设计 1)"]
direction TB
DINO["冻结 DINOv3 编码器<br/>语义特征 F_D (16×16×384)"]
RES["残差编码器 ViT<br/>细节特征 F_R"]
ALIGN["分布对齐<br/>F_R 统计量→F_D"]
CONCAT["通道拼接<br/>SVG 特征"]
DINO --> CONCAT
RES --> ALIGN --> CONCAT
end
IMG --> DINO
IMG --> RES
CONCAT --> DIFF["SVG Diffusion(设计 2)<br/>SiT flow matching + QK-Norm"]
DIFF -->|"语义分散→少步采样(设计 3)"| DEC["SVG Decoder"]
DEC --> OUT["生成图像"]
关键设计¶
1. SVG 自编码器:用残差补回 DINO 丢失的细节
直接拿 DINOv3 特征做生成会卡在重建上——它语义强但偏高层判别,丢掉了色彩和高频纹理,解码出来的图像细节糊。SVG 的办法是在冻结的 DINOv3-ViT-S/16+ 主干(对 256×256 图像产生 \(16 \times 16 \times 384\) 特征图)之外并联一个 ViT 残差编码器,专门捕获主干缺失的细粒度信息,再把两路特征沿通道拼接成完整的 SVG 特征,交给沿用 VA-VAE 设计的 SVG Decoder 还原图像。这里有个关键陷阱:残差特征若直接拼上去,数值范围和 DINO 主干差太多会让拼接后的分布失衡、破坏 DINO 原有的语义分散性(消融里 gFID 从 6.12 恶化到 9.03)。SVG 因此对残差特征 \(F_R\) 做分布对齐,把它的批统计量归一到主干特征 \(F_D\) 上:
这样拼接后的特征空间统计一致,既保住了 DINO 的语义结构,又补齐了重建所需的细节,是后续扩散能稳的前提。
2. 高维语义特征上的扩散:让语义分散性扛住高维
VAE 潜在空间只有 \(16 \times 16 \times 4\) 维,SVG 却要在 \(16 \times 16 \times 384\) 的高维特征上直接训扩散——按常理这么高维很容易发散。SVG 敢这么做,是因为 DINO 特征天然具备良好的语义分散性:不同类别在特征空间里彼此分开,速度场方向不再互相矛盾,高维反而成了语义优势而非负担。训练沿用 SiT 的 flow matching 目标,并配合 QK-Norm 与 per-channel 归一化进一步稳住高维优化。值得一提的是,扩散主干的隐状态通道数本就远大于 384(如 DiT 中为 1152),只需把 patch embedding 换成一层线性投影即可接入,所以高维特征并不带来额外推理开销。
3. 语义分散性:解释为什么能少步采样
这一点回答"语义清晰的潜在空间为何能加速",是全文的核心论断。通过 t-SNE 可视化与 toy example 可以看到:在语义被清晰分离的特征空间里,同一语义成分内部、不同空间位置上的速度方向高度一致,不同类别的平均速度方向又泾渭分明。速度场更平滑,采样时的离散化误差就更小,于是用更少步数也能走到目标——这正是 SVG 仅 5 步就能出图、而 SiT 需 250 步才能达到类似水平的根本原因。相比 REPA、VA-VAE 只是把 VFM 特征对齐进来"治标",SVG 直接把潜在空间换成语义分散的特征,是从结构上解决问题。
损失函数 / 训练策略¶
训练分两阶段且解耦,避免特征空间与扩散目标互相干扰。阶段一冻结 DINOv3,只用重建损失联合训练残差编码器和 SVG 解码器,并施加上面的分布对齐,先把一个高质量且统计一致的 SVG 特征空间建好;阶段二再在这个固定的特征空间上训练 SVG Diffusion,采用 SiT 设置并启用 QK-Norm 和 per-channel 归一化。先定特征、后学生成的顺序,是保证语义分散性不被生成目标带偏的关键。
实验关键数据¶
主实验(ImageNet 256×256)¶
| 方法 | Tokenizer | 训练Epoch | Steps | gFID w/o CFG | gFID w/ CFG |
|---|---|---|---|---|---|
| DiT-XL | SD-VAE | 1400 | 250 | 9.62 | 2.27 |
| SiT-XL | SD-VAE | 1400 | 250 | 9.35 | 2.15 |
| REPA-XL | SD-VAE | 800 | 250 | 5.90 | 1.42 |
| SiT-XL (SD-VAE) | SD-VAE | 80 | 25 | 22.58 | 6.06 |
| SiT-XL (VA-VAE) | VA-VAE | 80 | 25 | 7.29 | 4.13 |
| SVG-XL | SVGTok | 80 | 25 | 6.57 | 3.54 |
| SVG-XL | SVGTok | 500 | 25 | 3.94 | 2.10 |
少步生成比较¶
| 方法 | Steps | FID w/o CFG | FID w/ CFG |
|---|---|---|---|
| SiT-XL (SD-VAE) | 5 | 69.38 | 29.48 |
| SiT-XL (VA-VAE) | 5 | 74.46 | 35.94 |
| SVG-XL | 5 | 12.26 | 9.03 |
| SiT-XL (SD-VAE) | 10 | 32.81 | 10.26 |
| SVG-XL | 10 | 9.39 | 6.49 |
关键发现¶
- 25 步 SVG-XL(80 epoch)FID=6.57,远优于同步数 SiT-XL 的 22.58
- 仅需 5 步即可达到 FID=12.26(SiT 需 250 步才能达到类似水平)
- SVG 特征空间保留了 DINOv3 的语义判别能力(线性探测准确率接近原始 DINO)
- 残差编码器对色彩和高频细节的重建至关重要
- DINOv3 在所有 VFM 中最适合作为统一特征空间
亮点与洞察¶
- 首次证明自监督特征可直接用于生成建模,打破 VAE 是潜在扩散唯一选择的定式
- 语义分散性→训练效率的因果关系分析很有洞察力(toy example 直观展示)
- 实现了生成、感知、理解任务通用的统一特征空间
- 5 步生成的超强性能展示了语义结构化潜在空间的降维效应
局限与展望¶
- 目前仅在 ImageNet 256×256 上验证,未扩展到文本引导生成或高分辨率
- SVG 特征维度高(384 vs VAE 的 4),内存开销更大
- 依赖特定的 DINOv3 模型,其他自监督方法(如 MAE、SigLIP)效果较差
- 重建质量(rFID=0.65)略逊于最优 VAE
相关工作与启发¶
- REPA、VA-VAE 等对齐方法启发了本工作,但 SVG 更根本地替换了特征空间
- 与 MAR 等自回归方法形成互补:SVG 为连续扩散提供了更优潜在空间
- 启发:未来视觉生成可能不再需要专门训练 VAE
技术细节补充¶
- DINOv3-ViT-S/16+ 编码器产生 \(16 \times 16 \times 384\) 特征(vs SD-VAE 的 \(16 \times 16 \times 4\))
- 残差编码器使用 ViT 架构(timm 库实现),与 DINOv3 特征通道拼接
- SVG Decoder 沿用 VA-VAE 的解码器架构设计
- SVG 特征空间做 per-channel 归一化以稳定高维扩散训练
- DiT 中 patch embedding 层替换为简单线性投影(384→模型维度)
- 隐状态通道数通常>384(如 DiT 中为 1152),因此 SVG 不导致推理低效
- 线性探测准确率:DINOv3 原始 86.4%,SVG(冻结 DINO 部分)85.2%,语义能力基本保留
- MAE 和 SigLIP 编码器的重建能力不足以支撑高质量生成
- SVG-XL 1400 epoch 25 步 FID=3.36 (w/o CFG) / 1.92 (w/ CFG),接近 SOTA
- 支持模型尺度缩放:SVG-B(130M) 到 SVG-XL(675M) 均有效
- 通过分分析分辨检查任务证明 SVG 特征可用于感知和理解
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 首次去除 VAE 直接用自监督特征做扩散,思路新颖有说服力
- 实验充分度: ⭐⭐⭐⭐ 消融充分但缺少大尺度/文本引导实验
- 写作质量: ⭐⭐⭐⭐⭐ 动机分析透彻,可视化有力
- 价值: ⭐⭐⭐⭐⭐ 可能改变潜在扩散模型的设计范式