Guiding a Diffusion Transformer with the Internal Dynamics of Itself¶

会议: CVPR 2026
arXiv: 2512.24176
代码: https://github.com/xy-chou/Internal-Guidance (项目页面)
领域: 扩散模型 / 图像生成
关键词: 内部引导, 中间层监督, 扩散Transformer, 采样引导, 训练加速

一句话总结¶

本文提出 Internal Guidance (IG)，通过在 Diffusion Transformer 的中间层添加辅助监督损失使其产生较弱的生成输出，然后在采样时外推中间层和深层输出的差异来实现类似 Autoguidance 的引导效果，无需额外采样步骤或外部模型训练，在 ImageNet 256×256 上将 LightningDiT-XL/1 的 FID 推至 1.34（无 CFG）和 1.19（+CFG），达到同期 SOTA。

研究背景与动机¶

领域现状：Classifier-Free Guidance (CFG) 是提升扩散模型生成质量的标准方法，通过引导样本偏向条件分布的高概率区域。但 CFG 过高时会导致过简化或失真，且会减少生成多样性。Autoguidance 等方法通过使用"模型的退化版本"做引导来维持多样性，但需要额外训练退化模型或额外采样步骤。
现有痛点：(1) CFG 在高引导系数下过度强调类条件，推向"模板图像"，降低多样性；(2) Autoguidance 需要专门训练一个更弱的模型，开销大且不灵活；(3) PAG/SEG 等方法需要精心设计退化策略且带来额外采样消耗。
核心矛盾：想要 Autoguidance 的"维持多样性同时提升质量"的效果，但不想为每种设置额外训练退化模型、也不想增加采样步骤。
本文目标：在几乎零额外开销的前提下，获得 Autoguidance 级别的生成质量和多样性提升。
切入角度：深度网络中间层的输出本身就是一个"更弱的版本"——只经过了部分 Transformer 块处理。如果在训练时让中间层也学会去噪，那采样时就天然有了"弱版本"和"强版本"的对比信号。
核心 idea：在 Diffusion Transformer 中间层加辅助监督来训练出"自带的弱模型"，采样时用中间层和最终层输出的差值做引导。

方法详解¶

整体框架¶

训练阶段：在标准扩散 Transformer（如 SiT、LightningDiT）的中间层（如第 4/8 层）后添加一个额外的输出头，对中间层输出施加辅助去噪损失 \(\mathcal{L}_{\text{inter}}\)，与最终层损失 \(\mathcal{L}_{\text{final}}\) 加权合并训练。采样阶段：在每个去噪步骤中同时获取中间层输出 \(D_i\) 和最终层输出 \(D_f\)，通过外推 \(D_w = D_i + w(D_f - D_i)\) 实现引导（\(w > 1\) 时即推离中间层、靠向最终层的方向）。

关键设计¶

中间层辅助监督损失:
- 功能：让网络中间层也具有去噪能力，作为"自带的弱模型"
- 核心思路：在第 \(l\) 个 Transformer 块后定义一个输出层 \(D_i\)，施加与最终层相同的去噪目标：\(\mathcal{L}_{\text{inter}} = \|D_i(\mathbf{x}_t, t) - \mathbf{x}_0\|^2\)。总损失为 \(\mathcal{L} = \mathcal{L}_{\text{final}} + \lambda \mathcal{L}_{\text{inter}}\)，\(\lambda\) 控制辅助损失权重（实验表明 \(\lambda \leq 0.5\) 即可获得稳定效果）。
- 设计动机：(1) 最直接的方式创造"弱版本"——中间层只看了一半的块，天然比全网络弱；(2) 辅助监督还能缓解深层网络的梯度消失问题，额外获得收敛加速——实验表明其效果甚至可媲美复杂的自监督表征对齐方法（REPA、SRA 等）。
Internal Guidance 采样策略:
- 功能：利用中间层和最终层输出的差异进行采样引导
- 核心思路：采样时计算 \(D_w(\mathbf{x}; \mathbf{c}) = D_i(\mathbf{x}; \mathbf{c}) + w(D_f(\mathbf{x}; \mathbf{c}) - D_i(\mathbf{x}; \mathbf{c}))\)。当 \(w > 1\) 时，等价于沿"从弱到强"的方向外推，推离中间层（弱版本）的低质量分布，走向最终层（强版本）的高质量分布。无需额外的前向传播——中间层输出是最终层前向的自然副产品。
- 设计动机：与 Autoguidance 的思想一致——用弱版本引导强版本维持多样性同时提升质量。但 Autoguidance 需要额外训练弱模型，IG 的弱模型是网络自身的中间层，零额外成本。
IG 与 CFG 的互补性和引导区间:
- 功能：进一步提升生成质量并控制引导的时序应用策略
- 核心思路：IG 提供类无关的引导（将样本推向数据流形内部），CFG 提供类相关的引导（将样本推向目标类别）。两者组合时用较低的 IG 系数+CFG 效果最好。关于引导区间，IG 应在高/中噪声阶段应用（\(\sigma \in (0.3, 1)\)），低噪声阶段不需要——这与 CFG 的最佳区间（中/低噪声）恰好互补。
- 设计动机：2D 玩具实验清楚展示了互补机制——IG 消除分支末端的离群点（类无关），CFG 抑制类间混淆（类相关）。两者在不同维度上改进生成质量。

损失函数 / 训练策略¶

训练基于 SiT 和 LightningDiT，SiT 使用标准设置，LightningDiT 改用 Muon 优化器（替代 AdamW 解决早期不稳定），EMA 权重从 0.9999 改为 0.9995
辅助监督放在前几层效果最好（SiT-B/2 第4层，大模型第8层）；放在后半部分反而干扰深层输出
ImageNet-1K 256×256，VAE 编码后训练
SDE Euler-Maruyama 250步采样（SiT/DiT）或 ODE Heun 125步（LightningDiT）

实验关键数据¶

主实验 — ImageNet 256×256 (无 CFG)¶

方法	训练轮数	FID↓	IS↑
SiT-XL/2	1400	8.61	131.7
REPA	800	5.90	157.8
SiT-XL/2 + IG	80	5.31	147.7
SiT-XL/2 + IG	800	1.75	228.6
LightningDiT-XL/1	800	2.17	205.6
LightningDiT-XL/1 + IG	60	2.42	173.7
LightningDiT-XL/1 + IG	680	1.34	229.3

加 CFG 后的 SOTA 对比¶

方法	FID↓	sFID↓
REPA + CFG (800ep)	1.42	4.70
REPA-E + CFG (800ep)	1.26	4.11
SiT-XL/2 + IG + CFG (800ep)	1.46	4.79
LightningDiT-XL/1 + IG + CFG (680ep)	1.19	4.11

消融实验¶

消融项	FID↓	IS↑	说明
SiT-B/2 基线	33.02	43.71	无辅助监督
辅助监督(第2层)	30.45	47.97	前几层有效
辅助监督(第4层)	30.60	47.70	最佳或接近最佳
辅助监督(第8层)	38.05	37.97	后半部分反而有害
+IG(第4层, w=1.5)	19.02	65.06	引导后大幅提升
+IG(w=1.9)	17.38	69.12	无区间时最优系数
+IG(w=2.3)+区间[0.3,1)	16.19	72.95	最佳配置

关键发现¶

训练效率惊人：SiT-XL/2 + IG 仅 80 epoch 就达到 FID=5.31，超过原版 SiT 1400 epoch 的 8.61 和 REPA 800 epoch 的 5.90
辅助监督位置很关键：必须在前几层（前1/3），放在后半部分（第8/10层）反而有害
辅助监督本身就能加速收敛：即使不用 IG 采样引导，仅加辅助损失的收敛效果就可媲美复杂的自监督表征对齐方法
IG 引导区间与 CFG 互补：IG 应在高/中噪声施加，CFG 在中/低噪声施加，两者天然互补
模型越大 IG 效果越好：相对提升随模型从 B→L→XL 增大而增大

亮点与洞察¶

"网络自带弱模型"的洞察极为精妙：深度网络中间层输出天然是最终输出的弱化版本——这个观察将 Autoguidance 从"需要额外训练退化模型"简化到"加一行辅助损失"，是真正的化繁为简
一石二鸟的设计：辅助监督既为采样引导提供中间输出，又缓解梯度消失加速收敛，用一个简单机制同时解决两个问题
引导区间的新发现：IG 在高/中噪声有效、低噪声反而不需要，这与 CFG 的最佳区间相反。这个发现对未来组合多种引导策略很有指导意义
从引导到训练加速的延伸：Section 6 展示了将 IG 的思想融入训练损失函数 \(\mathbf{x}_0 + \omega \cdot \text{sg}(D_f - D_i)\) 来直接加速收敛，展示了方法的深层原理

局限与展望¶

辅助监督层的位置需要在不同模型上分别调优（SiT-B 用第4层、大模型用第8层）
IG 系数 \(w\)、引导区间 \([\sigma_{\text{low}}, \sigma_{\text{high}}]\)、辅助损失权重 \(\lambda\) 三个超参数需要联合调优
仅在类条件 ImageNet 上验证，未在文本条件生成（如 SD、SDXL）上测试
中间输出头增加了少量参数（一个额外的输出层），虽然很小但对大规模分布式训练可能需要注意

评分¶

新颖性: ⭐⭐⭐⭐⭐ "中间层就是弱模型"的洞察优雅而深刻，一石二鸟的设计令人赞赏
实验充分度: ⭐⭐⭐⭐⭐ 多模型规模、详细消融、2D可视化、训练加速延伸、SOTA结果，非常全面
写作质量: ⭐⭐⭐⭐ 结构清晰，2D 玩具实验的可视化解释力极强
价值: ⭐⭐⭐⭐⭐ FID=1.19 SOTA + 训练加速 + 即插即用，理论和实践双丰收