跳转至

Shortcutting Pre-trained Flow Matching Diffusion Models is Almost Free Lunch

会议: NeurIPS 2025
arXiv: 2510.17858
代码: 项目主页
领域: 扩散模型 / 图像生成
关键词: flow matching, 蒸馏, 少步采样, 速度场一致性, LoRA

一句话总结

提出SCFM(ShortCutting Flow Matching),一种超高效的后训练蒸馏方法,通过速度场自蒸馏将预训练flow matching模型(如12B参数的Flux)压缩为3步采样器,仅需不到1个A100-Day,无需步长嵌入或对抗蒸馏。

研究背景与动机

随着扩散模型规模扩展到数十亿参数(如Flux 12B、SD3.5 8B),加速推理的蒸馏需求日益迫切。当前方法面临以下困境:

Shortcut Models的适配难题:原始shortcut models通过步长嵌入 \(d\) 实现灵活的轨迹跳跃,但需要在架构中加入专门的步长条件化模块(如旋转位置编码)。现有预训练FM模型缺少此功能,如要适配则需从头重训——成本几乎等于预训练。

渐进蒸馏的高成本:传统Progressive Distillation需要多阶段师生蒸馏,通常需要数千GPU小时,且各阶段间的过渡点和误差传播难以控制。

理论与实践的不一致:Rectified flow理论上支持少步采样(因为学到的是线性轨迹),但实际中尤其在高噪声区域,速度场存在显著曲率,导致少步采样质量急剧下降。

数据依赖:大多数蒸馏方法需要大规模数据集来模拟教师模型的行为。

核心洞察:如果能将整个非线性速度场强制拉直为近似直线轨迹,那么显式步长参数 \(d\) 就变得不必要了——模型自然支持任意步数的高效采样。

方法详解

整体框架

SCFM工作在速度空间(而非样本空间),通过强制跨时间步的线性一致性来拉直弯曲的flow轨迹。结合教师模型和在线EMA自蒸馏的双目标训练,在单阶段端到端训练中实现隐式渐进蒸馏。

关键设计

  1. 速度空间一致性:基于shortcut models的自一致性原理(一个 \(2d\) 步预测应等于两个连续 \(d\) 步),推导出速度空间的一致性等式:
\[\mathcal{V}_\theta(\mathbf{x}_{t_i}, t_i) = \frac{d_i}{d_i + d_{i+1}} \mathcal{V}_\theta(\mathbf{x}_{t_i}, t_i) + \frac{d_{i+1}}{d_i + d_{i+1}} \mathcal{V}_\theta(\mathbf{x}_{t_{i+1}}, t_{i+1})\]

其中 \(d_i = t_{i-1} - t_i\) 是时间步长。左侧为训练目标(粗粒度速度预测),右侧为两个细粒度速度预测的加权插值。关键在于此等式不需要显式的步长嵌入 \(d\)

  1. 双目标蒸馏损失(SCFM Loss)
\[\mathcal{L}_{\text{scfm}} = \frac{1}{N}\left(\sum_{i=1}^{k}\left(\mathcal{V}_\theta - \mathcal{V}_{\theta^*}\right)^2 + \sum_{i=k+1}^{N}\left(\mathcal{V}_\theta - \mathcal{V}_{\theta^-}\right)^2\right)\]

第一项(教师蒸馏):从教师模型 \(\theta^*\) 学习粗粒度方向校正。第二项(自蒸馏):从EMA模型 \(\theta^-\) 自举学习跨尺度一致性。混合比例 \(k/N = 0.4\)。第一项类似渐进蒸馏的半步合并,第二项则自动拉直轨迹——两者无需分阶段优化。

  1. LoRA高效训练:采用LoRA参数化 \(\theta = \theta_0 + \Delta\theta\)\(\theta_0\) 冻结预训练权重),EMA更新规则在LoRA空间内推导为:
\[\Delta\theta^- = \mu \Delta\theta^- + (1-\mu)\Delta\theta\]

配合双EMA策略(快EMA \(\mu=0.99\) + 慢EMA \(\mu=0.999\))代替手动循环重启,进一步加速收敛。

损失函数 / 训练策略

使用LAION-POP数据集(600K样本,实际只用不到50%即收敛)。对Flux Dev采用嵌入式CFG随机采样 \(w \in [0,8]\),对SD3.5显式CFG采样 \([3.5, 5]\)。AdamW优化器,lr=2e-5,batch size=16。在A100上蒸馏Flux:8步学生约10小时收敛(1000次迭代),3步学生不到24小时完成。

实验关键数据

主实验——Flux蒸馏对比

方法 步数 延迟(s) ΔFID↓ FID↓ CLIP↑
Flux.1-Dev (教师) 32 15.62 27.43 33.60
Flux-Hyper-SD 8 3.71 +1.37 3.20 33.46
Flux-TDD 8 3.71 -0.37 4.02 33.17
Flux-SCFM 8 3.71 +0.16 2.58 33.76
Flux-Schnell 4 1.80 -6.41 6.76 33.17
Flux-Hyper-SD 4 1.80 -0.64 5.45 32.94
Flux-SCFM 4 1.80 -0.45 4.50 33.20
Flux-Schnell 3 1.33 -6.58 7.06 33.06
Flux-Hyper-SD 3 1.33 -1.52 9.65 31.95
Flux-SCFM 3 1.33 -1.01 6.34 33.10

消融实验——SD3.5蒸馏对比

方法 步数 ΔFID↓ FID↓ CLIP↑ 说明
SD3.5L (教师) 32 18.62 34.97 基线
SD3.5L-Turbo 8 +7.03 8.18 33.81 官方对抗蒸馏
SD3.5L-SCFM 8 +0.32 2.65 33.91 ΔFID仅+0.32
SD3.5L-Turbo 4 +6.36 6.98 33.03
SD3.5L-SCFM 4 +4.45 6.89 33.40
SD3.5L-Turbo 3 +6.85 7.76 32.25
SD3.5L-SCFM 3 +5.35 7.41 32.46

关键发现

  • ΔFID指标全面最优:SCFM的学生模型与教师模型的分布偏移最小,8步Flux-SCFM的ΔFID仅+0.16,远优于Hyper-SD的+1.37
  • 无需对抗蒸馏:所有baseline都使用了ADD/LADD对抗蒸馏,而SCFM在不用对抗训练的情况下达到或超越它们
  • 少样本蒸馏的可行性:仅用10对text-image训练对就能实现竞争性性能,这在大模型蒸馏中是首次
  • 训练效率极高:蒸馏12B参数Flux仅需不到1个A100-Day,比渐进蒸馏快数个量级
  • 双EMA策略消除手动重启:快/慢两个EMA自动平衡收敛速度和稳定性,8步学生约1000次迭代(5小时)即收敛

亮点与洞察

  • 速度空间操作是核心创新:在速度场(而非样本空间)上做蒸馏,自然保持了轨迹结构和生成多样性。这与直接预测干净样本的方法形成鲜明对比,后者往往牺牲多样性
  • 隐式渐进蒸馏:单阶段训练通过教师+自蒸馏双目标自动完成多阶段渐进蒸馏的效果,消除了阶段过渡和误差传播问题
  • LoRA的"几乎免费"特性:得益于LoRA参数化,仅更新极少量参数,EMA更新也可在LoRA空间高效完成
  • 泛化性设计:方法适用于任何预训练flow matching模型,理论上可扩展到视频、3D、音频等模态

局限与展望

  • SD3.5未做CFG嵌入蒸馏,导致推理时需要双倍函数评估(条件+无条件)
  • 1步生成能力有限,可能需要结合ADD等对抗蒸馏进一步提升
  • 仅在图像生成上验证,视频和3D等模态的适用性待探索
  • ΔFID评估方式虽有创新但缺乏更广泛的感知质量评估(如人工评估)
  • 少样本蒸馏的泛化边界和失败模式未深入分析

相关工作与启发

  • 与一致性模型(CM)的区别:CM将轨迹上任意点映射到干净样本,SCFM则保持速度场一致性,保留了更多信息
  • 与InstaFlow的联系:两者都在速度场上蒸馏,但SCFM通过自蒸馏机制避免了多阶段训练
  • 将shortcut models的核心思想(步长自一致性)成功迁移到后训练场景,展示了如何在不修改架构的前提下获得类似能力
  • 少样本蒸馏的成功暗示FM模型的速度场可能有较强的低秩结构

评分

  • 新颖性: ⭐⭐⭐⭐ 速度场自蒸馏和隐式渐进蒸馏的设计新颖,但整体思路在shortcut models和一致性蒸馏基础上演进
  • 实验充分度: ⭐⭐⭐⭐⭐ 在Flux 12B和SD3.5 8B两个大模型上验证,消融全面(EMA策略、混合比例、少样本),效率指标详实
  • 写作质量: ⭐⭐⭐⭐ 数学推导清晰,从shortcut models到SCFM的演进逻辑流畅,但部分推导密度较高
  • 价值: ⭐⭐⭐⭐⭐ 实用价值极高,1 A100-Day蒸馏12B模型的效率和少样本能力对社区有重要意义