Latent Diffusion Model without Variational Autoencoder¶

会议: ICLR 2026
arXiv: 2510.15301
代码: GitHub
领域: 扩散模型 / 视觉表征
关键词: 自监督表征, DINOv3, 无VAE潜在扩散, 统一特征空间, 少步生成

一句话总结¶

提出 SVG，用冻结的 DINOv3 自监督特征替代 VAE 潜在空间构建扩散模型，通过轻量残差编码器补充细粒度细节，实现更快训练、更高效推理和跨任务通用的视觉表征。

研究背景与动机¶

VAE+Diffusion 范式存在三大局限：训练/推理低效、少步采样质量差、VAE 特征缺乏语义判别性
VAE 潜在空间语义纠缠严重（t-SNE 可视化显示不同类别高度混合），导致速度场方向矛盾，需要更多采样步骤
现有加速方法（REPA、VA-VAE）通过对齐 VFM 特征改善，但仅是治标，未根本改变潜在空间结构
假设：具有清晰语义判别性的潜在空间可大幅加速扩散训练

方法详解¶

整体框架¶

SVG 想解决的是 VAE+Diffusion 范式训练慢、少步采样质量差的老问题，做法是把扩散模型从 VAE 潜在空间整体搬到自监督特征空间。一张图先送进冻结的 DINOv3 编码器，得到语义判别性很强但偏高层、缺细节的主干特征；同一张图再走一个轻量残差编码器，补回 DINO 丢掉的色彩与高频纹理，两路特征沿通道拼成 SVG 特征。扩散模型直接在这个语义清晰的 SVG 特征空间上学习速度场，采样时生成的特征再由 SVG Decoder 解码回像素图像。整套设计赌的是：语义被天然分散开的潜在空间能让速度场更平滑，从而换来更快的训练收敛和更少的采样步数。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400, 'subGraphTitleMargin': {'top': 8, 'bottom': 16}}}}%%
flowchart TD
    IMG["输入图像 256×256"]
    subgraph AE["SVG 自编码器（设计 1）"]
        direction TB
        DINO["冻结 DINOv3 编码器<br/>语义特征 F_D (16×16×384)"]
        RES["残差编码器 ViT<br/>细节特征 F_R"]
        ALIGN["分布对齐<br/>F_R 统计量→F_D"]
        CONCAT["通道拼接<br/>SVG 特征"]
        DINO --> CONCAT
        RES --> ALIGN --> CONCAT
    end
    IMG --> DINO
    IMG --> RES
    CONCAT --> DIFF["SVG Diffusion（设计 2）<br/>SiT flow matching + QK-Norm"]
    DIFF -->|"语义分散→少步采样（设计 3）"| DEC["SVG Decoder"]
    DEC --> OUT["生成图像"]

关键设计¶

1. SVG 自编码器：用残差补回 DINO 丢失的细节

直接拿 DINOv3 特征做生成会卡在重建上——它语义强但偏高层判别，丢掉了色彩和高频纹理，解码出来的图像细节糊。SVG 的办法是在冻结的 DINOv3-ViT-S/16+ 主干（对 256×256 图像产生 \(16 \times 16 \times 384\) 特征图）之外并联一个 ViT 残差编码器，专门捕获主干缺失的细粒度信息，再把两路特征沿通道拼接成完整的 SVG 特征，交给沿用 VA-VAE 设计的 SVG Decoder 还原图像。这里有个关键陷阱：残差特征若直接拼上去，数值范围和 DINO 主干差太多会让拼接后的分布失衡、破坏 DINO 原有的语义分散性（消融里 gFID 从 6.12 恶化到 9.03）。SVG 因此对残差特征 \(F_R\) 做分布对齐，把它的批统计量归一到主干特征 \(F_D\) 上：

\[\hat{F}_R = \frac{F_R - \mu(F_R)}{\sigma(F_R)} \cdot \sigma(F_D) + \mu(F_D)\]

这样拼接后的特征空间统计一致，既保住了 DINO 的语义结构，又补齐了重建所需的细节，是后续扩散能稳的前提。

2. 高维语义特征上的扩散：让语义分散性扛住高维

VAE 潜在空间只有 \(16 \times 16 \times 4\) 维，SVG 却要在 \(16 \times 16 \times 384\) 的高维特征上直接训扩散——按常理这么高维很容易发散。SVG 敢这么做，是因为 DINO 特征天然具备良好的语义分散性：不同类别在特征空间里彼此分开，速度场方向不再互相矛盾，高维反而成了语义优势而非负担。训练沿用 SiT 的 flow matching 目标，并配合 QK-Norm 与 per-channel 归一化进一步稳住高维优化。值得一提的是，扩散主干的隐状态通道数本就远大于 384（如 DiT 中为 1152），只需把 patch embedding 换成一层线性投影即可接入，所以高维特征并不带来额外推理开销。

3. 语义分散性：解释为什么能少步采样

这一点回答"语义清晰的潜在空间为何能加速"，是全文的核心论断。通过 t-SNE 可视化与 toy example 可以看到：在语义被清晰分离的特征空间里，同一语义成分内部、不同空间位置上的速度方向高度一致，不同类别的平均速度方向又泾渭分明。速度场更平滑，采样时的离散化误差就更小，于是用更少步数也能走到目标——这正是 SVG 仅 5 步就能出图、而 SiT 需 250 步才能达到类似水平的根本原因。相比 REPA、VA-VAE 只是把 VFM 特征对齐进来"治标"，SVG 直接把潜在空间换成语义分散的特征，是从结构上解决问题。

损失函数 / 训练策略¶

训练分两阶段且解耦，避免特征空间与扩散目标互相干扰。阶段一冻结 DINOv3，只用重建损失联合训练残差编码器和 SVG 解码器，并施加上面的分布对齐，先把一个高质量且统计一致的 SVG 特征空间建好；阶段二再在这个固定的特征空间上训练 SVG Diffusion，采用 SiT 设置并启用 QK-Norm 和 per-channel 归一化。先定特征、后学生成的顺序，是保证语义分散性不被生成目标带偏的关键。

实验关键数据¶

主实验（ImageNet 256×256）¶

方法	Tokenizer	训练Epoch	Steps	gFID w/o CFG	gFID w/ CFG
DiT-XL	SD-VAE	1400	250	9.62	2.27
SiT-XL	SD-VAE	1400	250	9.35	2.15
REPA-XL	SD-VAE	800	250	5.90	1.42
SiT-XL (SD-VAE)	SD-VAE	80	25	22.58	6.06
SiT-XL (VA-VAE)	VA-VAE	80	25	7.29	4.13
SVG-XL	SVGTok	80	25	6.57	3.54
SVG-XL	SVGTok	500	25	3.94	2.10

少步生成比较¶

方法	Steps	FID w/o CFG	FID w/ CFG
SiT-XL (SD-VAE)	5	69.38	29.48
SiT-XL (VA-VAE)	5	74.46	35.94
SVG-XL	5	12.26	9.03
SiT-XL (SD-VAE)	10	32.81	10.26
SVG-XL	10	9.39	6.49

关键发现¶

25 步 SVG-XL（80 epoch）FID=6.57，远优于同步数 SiT-XL 的 22.58
仅需 5 步即可达到 FID=12.26（SiT 需 250 步才能达到类似水平）
SVG 特征空间保留了 DINOv3 的语义判别能力（线性探测准确率接近原始 DINO）
残差编码器对色彩和高频细节的重建至关重要
DINOv3 在所有 VFM 中最适合作为统一特征空间

亮点与洞察¶

首次证明自监督特征可直接用于生成建模，打破 VAE 是潜在扩散唯一选择的定式
语义分散性→训练效率的因果关系分析很有洞察力（toy example 直观展示）
实现了生成、感知、理解任务通用的统一特征空间
5 步生成的超强性能展示了语义结构化潜在空间的降维效应

局限与展望¶

目前仅在 ImageNet 256×256 上验证，未扩展到文本引导生成或高分辨率
SVG 特征维度高（384 vs VAE 的 4），内存开销更大
依赖特定的 DINOv3 模型，其他自监督方法（如 MAE、SigLIP）效果较差
重建质量（rFID=0.65）略逊于最优 VAE

技术细节补充¶

DINOv3-ViT-S/16+ 编码器产生 \(16 \times 16 \times 384\) 特征（vs SD-VAE 的 \(16 \times 16 \times 4\)）
残差编码器使用 ViT 架构（timm 库实现），与 DINOv3 特征通道拼接
SVG Decoder 沿用 VA-VAE 的解码器架构设计
SVG 特征空间做 per-channel 归一化以稳定高维扩散训练
DiT 中 patch embedding 层替换为简单线性投影（384→模型维度）
隐状态通道数通常>384（如 DiT 中为 1152），因此 SVG 不导致推理低效
线性探测准确率：DINOv3 原始 86.4%，SVG（冻结 DINO 部分）85.2%，语义能力基本保留
MAE 和 SigLIP 编码器的重建能力不足以支撑高质量生成
SVG-XL 1400 epoch 25 步 FID=3.36 (w/o CFG) / 1.92 (w/ CFG)，接近 SOTA
支持模型尺度缩放：SVG-B(130M) 到 SVG-XL(675M) 均有效
通过分分析分辨检查任务证明 SVG 特征可用于感知和理解

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次去除 VAE 直接用自监督特征做扩散，思路新颖有说服力
实验充分度: ⭐⭐⭐⭐ 消融充分但缺少大尺度/文本引导实验
写作质量: ⭐⭐⭐⭐⭐ 动机分析透彻，可视化有力
价值: ⭐⭐⭐⭐⭐ 可能改变潜在扩散模型的设计范式