Shortcutting Pre-trained Flow Matching Diffusion Models is Almost Free Lunch¶

会议: NeurIPS 2025
arXiv: 2510.17858
代码: 项目主页
领域: 扩散模型 / 图像生成
关键词: flow matching, 蒸馏, 少步采样, 速度场一致性, LoRA

一句话总结¶

提出SCFM（ShortCutting Flow Matching），一种超高效的后训练蒸馏方法，通过速度场自蒸馏将预训练flow matching模型（如12B参数的Flux）压缩为3步采样器，仅需不到1个A100-Day，无需步长嵌入或对抗蒸馏。

研究背景与动机¶

随着扩散模型规模扩展到数十亿参数（如Flux 12B、SD3.5 8B），加速推理的蒸馏需求日益迫切。当前方法面临以下困境：

Shortcut Models的适配难题：原始shortcut models通过步长嵌入 \(d\) 实现灵活的轨迹跳跃，但需要在架构中加入专门的步长条件化模块（如旋转位置编码）。现有预训练FM模型缺少此功能，如要适配则需从头重训——成本几乎等于预训练。

渐进蒸馏的高成本：传统Progressive Distillation需要多阶段师生蒸馏，通常需要数千GPU小时，且各阶段间的过渡点和误差传播难以控制。

理论与实践的不一致：Rectified flow理论上支持少步采样（因为学到的是线性轨迹），但实际中尤其在高噪声区域，速度场存在显著曲率，导致少步采样质量急剧下降。

数据依赖：大多数蒸馏方法需要大规模数据集来模拟教师模型的行为。

核心洞察：如果能将整个非线性速度场强制拉直为近似直线轨迹，那么显式步长参数 \(d\) 就变得不必要了——模型自然支持任意步数的高效采样。

方法详解¶

整体框架¶

SCFM工作在速度空间（而非样本空间），通过强制跨时间步的线性一致性来拉直弯曲的flow轨迹。结合教师模型和在线EMA自蒸馏的双目标训练，在单阶段端到端训练中实现隐式渐进蒸馏。

关键设计¶

速度空间一致性：基于shortcut models的自一致性原理（一个 \(2d\) 步预测应等于两个连续 \(d\) 步），推导出速度空间的一致性等式：

\[\mathcal{V}_\theta(\mathbf{x}_{t_i}, t_i) = \frac{d_i}{d_i + d_{i+1}} \mathcal{V}_\theta(\mathbf{x}_{t_i}, t_i) + \frac{d_{i+1}}{d_i + d_{i+1}} \mathcal{V}_\theta(\mathbf{x}_{t_{i+1}}, t_{i+1})\]

其中 \(d_i = t_{i-1} - t_i\) 是时间步长。左侧为训练目标（粗粒度速度预测），右侧为两个细粒度速度预测的加权插值。关键在于此等式不需要显式的步长嵌入 \(d\)。

双目标蒸馏损失（SCFM Loss）：

\[\mathcal{L}_{\text{scfm}} = \frac{1}{N}\left(\sum_{i=1}^{k}\left(\mathcal{V}_\theta - \mathcal{V}_{\theta^*}\right)^2 + \sum_{i=k+1}^{N}\left(\mathcal{V}_\theta - \mathcal{V}_{\theta^-}\right)^2\right)\]

第一项（教师蒸馏）：从教师模型 \(\theta^*\) 学习粗粒度方向校正。第二项（自蒸馏）：从EMA模型 \(\theta^-\) 自举学习跨尺度一致性。混合比例 \(k/N = 0.4\)。第一项类似渐进蒸馏的半步合并，第二项则自动拉直轨迹——两者无需分阶段优化。

LoRA高效训练：采用LoRA参数化 \(\theta = \theta_0 + \Delta\theta\)（\(\theta_0\) 冻结预训练权重），EMA更新规则在LoRA空间内推导为：

\[\Delta\theta^- = \mu \Delta\theta^- + (1-\mu)\Delta\theta\]

配合双EMA策略（快EMA \(\mu=0.99\) + 慢EMA \(\mu=0.999\)）代替手动循环重启，进一步加速收敛。

损失函数 / 训练策略¶

使用LAION-POP数据集（600K样本，实际只用不到50%即收敛）。对Flux Dev采用嵌入式CFG随机采样 \(w \in [0,8]\)，对SD3.5显式CFG采样 \([3.5, 5]\)。AdamW优化器，lr=2e-5，batch size=16。在A100上蒸馏Flux：8步学生约10小时收敛（1000次迭代），3步学生不到24小时完成。

实验关键数据¶

主实验——Flux蒸馏对比¶

方法	步数	延迟(s)	ΔFID↓	FID↓	CLIP↑
Flux.1-Dev (教师)	32	15.62	27.43	—	33.60
Flux-Hyper-SD	8	3.71	+1.37	3.20	33.46
Flux-TDD	8	3.71	-0.37	4.02	33.17
Flux-SCFM	8	3.71	+0.16	2.58	33.76
Flux-Schnell	4	1.80	-6.41	6.76	33.17
Flux-Hyper-SD	4	1.80	-0.64	5.45	32.94
Flux-SCFM	4	1.80	-0.45	4.50	33.20
Flux-Schnell	3	1.33	-6.58	7.06	33.06
Flux-Hyper-SD	3	1.33	-1.52	9.65	31.95
Flux-SCFM	3	1.33	-1.01	6.34	33.10

消融实验——SD3.5蒸馏对比¶

方法	步数	ΔFID↓	FID↓	CLIP↑	说明
SD3.5L (教师)	32	18.62	—	34.97	基线
SD3.5L-Turbo	8	+7.03	8.18	33.81	官方对抗蒸馏
SD3.5L-SCFM	8	+0.32	2.65	33.91	ΔFID仅+0.32
SD3.5L-Turbo	4	+6.36	6.98	33.03
SD3.5L-SCFM	4	+4.45	6.89	33.40
SD3.5L-Turbo	3	+6.85	7.76	32.25
SD3.5L-SCFM	3	+5.35	7.41	32.46

关键发现¶

ΔFID指标全面最优：SCFM的学生模型与教师模型的分布偏移最小，8步Flux-SCFM的ΔFID仅+0.16，远优于Hyper-SD的+1.37
无需对抗蒸馏：所有baseline都使用了ADD/LADD对抗蒸馏，而SCFM在不用对抗训练的情况下达到或超越它们
少样本蒸馏的可行性：仅用10对text-image训练对就能实现竞争性性能，这在大模型蒸馏中是首次
训练效率极高：蒸馏12B参数Flux仅需不到1个A100-Day，比渐进蒸馏快数个量级
双EMA策略消除手动重启：快/慢两个EMA自动平衡收敛速度和稳定性，8步学生约1000次迭代（5小时）即收敛

亮点与洞察¶

速度空间操作是核心创新：在速度场（而非样本空间）上做蒸馏，自然保持了轨迹结构和生成多样性。这与直接预测干净样本的方法形成鲜明对比，后者往往牺牲多样性
隐式渐进蒸馏：单阶段训练通过教师+自蒸馏双目标自动完成多阶段渐进蒸馏的效果，消除了阶段过渡和误差传播问题
LoRA的"几乎免费"特性：得益于LoRA参数化，仅更新极少量参数，EMA更新也可在LoRA空间高效完成
泛化性设计：方法适用于任何预训练flow matching模型，理论上可扩展到视频、3D、音频等模态

局限与展望¶

SD3.5未做CFG嵌入蒸馏，导致推理时需要双倍函数评估（条件+无条件）
1步生成能力有限，可能需要结合ADD等对抗蒸馏进一步提升
仅在图像生成上验证，视频和3D等模态的适用性待探索
ΔFID评估方式虽有创新但缺乏更广泛的感知质量评估（如人工评估）
少样本蒸馏的泛化边界和失败模式未深入分析

评分¶

新颖性: ⭐⭐⭐⭐ 速度场自蒸馏和隐式渐进蒸馏的设计新颖，但整体思路在shortcut models和一致性蒸馏基础上演进
实验充分度: ⭐⭐⭐⭐⭐ 在Flux 12B和SD3.5 8B两个大模型上验证，消融全面（EMA策略、混合比例、少样本），效率指标详实
写作质量: ⭐⭐⭐⭐ 数学推导清晰，从shortcut models到SCFM的演进逻辑流畅，但部分推导密度较高
价值: ⭐⭐⭐⭐⭐ 实用价值极高，1 A100-Day蒸馏12B模型的效率和少样本能力对社区有重要意义