DogFit: Domain-guided Fine-tuning for Efficient Transfer Learning of Diffusion Models¶
会议: AAAI 2026
arXiv: 2508.05685
代码: GitHub
领域: 图像生成
关键词: 扩散模型, 迁移学习, 引导机制, 域自适应, 高效推理
一句话总结¶
提出 DogFit,将域引导(Domain Guidance)内化到扩散模型的微调损失中,使模型在训练时学会引导方向,推理时无需双重前向传播即可实现可控的保真度-多样性权衡,在 6 个目标域上以一半的采样 TFLOPS 超越 SOTA 引导方法。
研究背景与动机¶
领域现状:扩散模型迁移学习到小规模目标域时容易过拟合。CFG 和 DoG 等引导方法可以提升生成质量,但推理时需要双重前向传播(2x 计算开销)。MG 在训练时内化引导,但继承了 CFG 在迁移学习中的局限性。
现有痛点: - CFG 的无条件噪声估计器在小目标域上欠拟合,导致引导方向不准 - DoG 用源模型做边际估计更好,但推理开销翻倍 - MG 虽无推理开销,但硬编码引导强度、无法推理时调控
核心矛盾:能否设计一种引导机制,既利用源模型的强边际估计、又无推理开销、还支持推理时可控引导强度?
切入角度:将 DoG 的域引导偏移注入训练损失,用源模型(而非目标模型的无条件分支)提供引导方向,同时将引导强度 \(w\) 编码为模型额外输入。
核心 idea:训练时用源模型提供域引导方向并内化到损失中 + 引导强度作为模型输入实现推理可控 + late-start/cut-off 调度提升稳定性。
方法详解¶
整体框架¶
在标准扩散微调目标中注入域引导偏移:\(\epsilon' = \epsilon + (w-1) \cdot \text{sg}(\epsilon_\theta(x_t|c, \mathcal{D}^T) - \epsilon_{\theta_0}(x_t))\)。模型学习直接预测引导后的噪声方向,推理时单次前向即可。
关键设计¶
-
域引导偏移注入:
- 功能:将 DoG 的引导信号从推理时迁移到训练目标中
- 核心思路:训练损失变为 \(\mathcal{L} = \|\epsilon_\theta(x_t|c) - \epsilon'\|^2\),其中 \(\epsilon'\) 包含微调模型与源模型之间的引导偏移
- 设计动机:源模型在大规模数据上预训练,提供的边际估计比目标域的无条件模型更可靠
-
引导强度可控性:
- 功能:推理时可动态调整保真度-多样性权衡
- 核心思路:将 \(w\) 编码为模型的额外条件输入,训练时在一定范围内采样 \(w\)
- 设计动机:MG 硬编码 \(w\) 无法推理调控,DogFit 通过 \(w\) 条件化解决此问题,开销仅为一个轻量嵌入层
-
训练调度策略:
- Late-start:延迟引导注入直到模型学到足够稳定的目标表示
- Cut-off:仅在后期去噪步骤施加引导(细粒度域特征更多出现在后期)
- 设计动机:实验发现过早或全程引导会导致训练不稳定
损失函数 / 训练策略¶
DogFit 损失:\(\mathcal{L} = \|\epsilon_\theta(x_t|c,w) - [\epsilon + (w-1) \cdot \text{sg}(\epsilon_\theta(x_t|c) - \epsilon_{\theta_0}(x_t))]\|^2\)。在 DiT/XL-2 和 SiT/XL-2 上验证。
实验关键数据¶
主实验(DiT/XL-2,6个目标域平均)¶
| 方法 | FID↓ | FD_DINOv2↓ | 采样TFLOPS |
|---|---|---|---|
| Fine-tuning | 19.14 | 461.45 | 366 |
| +CFG | 14.46 | 311.03 | 732 (2x) |
| +DoG | 13.09 | 245.31 | 732 (2x) |
| MG | 14.13 | 312.78 | 366 |
| DogFit | 12.34 | 246.01 | 366 |
DogFit 在 FID 上超越 DoG 且 TFLOPS 减半。
消融实验¶
- Late-start 比全程引导 FID 提升约 1-2
- Cut-off 进一步在 SiT 上带来改进
- 引导强度可控版本(DogFit + Control)仅比固定版本微弱下降
关键发现¶
- 源模型确实提供了比目标域无条件模型更强的边际估计
- 训练时内化引导不仅省计算,实际上还能超越推理时引导——因为训练时优化更充分
- 在有标签和无标签两种迁移设置下都有效
亮点与洞察¶
- "训练时学引导方向,推理时免费用"的思路很实用——相当于把推理成本转移到训练阶段
- 用源模型而非目标模型做边际估计的 insight 有理论支撑——小域上目标模型的无条件分支必然欠拟合
- 引导强度作为条件输入实现了 MG 和 DoG 的优点统一
局限与展望¶
- 需要保留源模型权重用于训练时计算引导偏移——额外显存开销
- 仅在类条件生成上验证,文本条件扩散(如 SD)的扩展有待探索
- late-start 和 cut-off 的时机选择需要超参调优
相关工作与启发¶
- vs DoG: 性能相当但推理快2倍
- vs MG: MG 用 CFG 方向(弱),DogFit 用 DoG 方向(强);MG 不可控,DogFit 可控
- vs CFG distillation: CFG 蒸馏需要额外训练阶段和架构修改,DogFit 直接集成到微调目标中
评分¶
- 新颖性: ⭐⭐⭐⭐ 将域引导内化到训练的思路新颖实用
- 实验充分度: ⭐⭐⭐⭐⭐ 6个数据集+2个骨干+多个引导基线+充分消融
- 写作质量: ⭐⭐⭐⭐ 图示清晰,方法对比到位
- 价值: ⭐⭐⭐⭐ 实用的扩散模型迁移学习加速方案