Multidimensional Adaptive Coefficient for Inference Trajectory Optimization in Flow and Diffusion¶

会议: ICML2025
arXiv: 2404.14161
代码: 待确认
领域: Flow模型加速 / image_generation
关键词: Flow Matching, Diffusion加速, 推理轨迹优化, 多维自适应系数, 对抗训练

一句话总结¶

提出多维自适应系数 MAC（Multidimensional Adaptive Coefficient），作为 flow/diffusion 模型的即插即用模块，将传统的一维时间调度系数扩展为多维、样本自适应的系数，通过对抗训练优化推理轨迹，在 CIFAR-10 条件生成上以 5 NFE 取得 FID 1.37 的 SOTA 结果。

研究背景与动机¶

Flow 和 diffusion 模型在生成任务中展现了优异性能和训练稳定性，但相比基于仿真的方法（如 NeuralODE）缺少两个关键属性：

维度自由度：传统 flow/diffusion 中的插值系数 \(\alpha_0(t), \alpha_1(t) \in \mathbb{R}\) 是标量，对所有数据维度施加相同的时间调度

轨迹自适应性：推理时所有样本共享相同的步长和轨迹方向，无法根据不同样本动态调整

现有的轨迹优化方法（如 Rectified Flow 的直线性约束、OT 配对）都是预定义最优性标准，且在推理计划上缺乏维度灵活性。本文的动机是将仿真方法的优势融入 flow/diffusion 框架，同时保持训练效率。

方法详解¶

核心思路：从一维系数到多维自适应系数¶

传统 flow/diffusion 的插值路径为：

\[x(t) = \alpha_0(t) x_0 + \alpha_1(t) x_1, \quad \alpha_0(t), \alpha_1(t) \in \mathbb{R}\]

MAC 将系数从标量扩展为对角矩阵 \(\gamma(t) \in \mathbb{R}^{d \times 2}\)，允许不同维度拥有不同的时间调度：

\[x(t) = \gamma_0(t) \odot x_0 + \gamma_1(t) \odot x_1, \quad \gamma_0(t), \gamma_1(t) \in \mathbb{R}^d\]

进一步引入参数化的 MAC \(\gamma_\phi(t, \mathbf{x}_{\theta,\phi}^{\mathcal{S}})\)，使系数能根据不同推理轨迹自适应调整。

MAC 的参数化设计¶

MAC 使用加权正弦基函数（类似 Fourier 展开）建模：

基函数：\(b_m(t) = \sin(\pi m (t/T)^{1/q})\)
权重网络：\(w_\phi(x_T) = s \cdot \text{LPF} \circ \tanh(\text{nn}_\phi(x_T))\)，其中 \(\text{nn}_\phi\) 为 U-Net
低通滤波 LPF：高斯卷积排除高频噪声，保证系数平滑
tanh 约束：输出范围限制在 \((-1, 1)\)，支持预训练时直接从均匀分布采样权重

关键设计：\(\gamma_\phi\) 在 \(t=T\) 时只需一次前向传播即可计算整个推理调度。

推理轨迹优化¶

问题一（仅优化 MAC）：固定向量场 \(\theta\)，优化 \(\phi^* = \arg\min_\phi \mathbb{D}(\rho_0, \hat{\rho}_{0,\theta,\phi})\)

问题二（联合优化）：同时优化向量场和推理计划 \(\theta^*, \phi^* = \arg\min_{\theta,\phi} \mathbb{D}(\rho_0, \hat{\rho}_{0,\theta,\phi})\)

对抗训练策略¶

使用 hinge loss + StyleGAN-XL 判别器 \(D_\psi\)，三组损失函数分别更新：

\(\mathcal{L}_\phi\)：通过仿真 \(G_{\theta,\phi}\) 的完整推理过程，对抗优化 MAC 参数
\(\mathcal{L}_\theta\)：对抗优化向量场模型 \(H_\theta\)
\(\mathcal{L}_\psi\)：优化判别器

可选的 γ-预训练¶

用随机采样的多维系数 \(\gamma \sim \Gamma_h\) 预训练 \(H_\theta\)，使其适应多维输入。预训练阶段在 \(t\) 较大时约束多维性，对抗阶段完全放开。此步骤可选——MAC 可直接兼容标准 \(\alpha\) 预训练模型。

实验关键数据¶

2D 合成数据（仅优化 φ，冻结 θ）¶

方法	Gaussian→8Gaussians (NFE=5)	Gaussian→Moons (NFE=5)
SI_α	0.763	0.882
SI_γ + opt φ（MAC）	0.721	0.682
SI_α^OT	0.457	0.245
SI_γ^OT + opt φ（MAC）	0.399	0.230

仅优化 MAC 即可在所有配置下降低 \(\mathcal{W}_2\) 距离。

γ-预训练效果（CIFAR-10 FID↓）¶

方法	NFE=100	NFE=200
SI_α	4.75	4.30
SI_γ	3.98	3.63
FM_α	4.52	4.07
FM_γ	3.59	3.42

多维预训练在所有框架（SI/FM/DDPM）上一致提升。

CIFAR-10 SOTA 对比¶

模型	NFE	FID uncond.	FID cond.
EDM_α（Karras 2022）	35	1.98	1.79
CTM_α + adv θ（Kim 2024）	2	1.87	1.63
EDM_γ + adv θ,φ（MAC，本文）	5	1.69	1.37

CIFAR-10 条件生成 FID 1.37（5 NFE），刷新 SOTA。

ImageNet-64 条件生成¶

模型	NFE	FID	FD_DINOv2
CTM_α + adv θ	2	1.73	157.7
EDM_α + adv θ,φ（MAC）	5	1.48	70.2

FD_DINOv2 显著优于 CTM（70.2 vs 157.7），说明 MAC 在感知质量上优势更大。

自适应性消融（CIFAR-10，10 NFE）¶

γ_φ 的条件输入	SI_γ FID	DDPM_γ FID
常数 \(\mathbf{1}_d\)（无自适应）	7.84	26.09
随机 \(z \sim \rho_T\)	6.48	23.31
实际起点 \(x_T \sim \rho_T\)	4.14	10.04

以实际推理起点作为 MAC 输入时效果最佳，验证了样本自适应的重要性。

亮点与洞察¶

视角新颖：提出推理轨迹最优性不应由预定义标准（如直线性）决定，而应通过仿真后的最终生成质量来衡量
即插即用：MAC 作为模块可兼容 DDPM/FM/EDM/SI 等任意 flow/diffusion 框架，无需修改骨干网络结构
训练高效：MAC 网络参数量远小于主模型，γ_φ 仅需 1 NFE 即可计算完整推理调度
搜索空间扩展：从标量调度扩展到维度级自适应调度，允许非线性弯曲轨迹和样本级自适应步长
理论优雅：通过 Fourier 基+低通滤波的设计排除了粗糙系数，假设集设计合理

局限与展望¶

FID vs 感知质量：FID 在 NFE 极少（如 4 步）时性能骤降（DDPM_γ 在 4 NFE 时 FID=72.64），距离实用的 1-2 步生成仍有差距
判别器依赖：使用 StyleGAN-XL 判别器进行对抗训练，引入了额外的训练复杂度和超参数调优负担
分辨率限制：实验最高仅在 64×64 分辨率验证，对更高分辨率（256/512）的可扩展性未知
对角矩阵简化：为计算效率将 \(\gamma\) 限制为对角矩阵，可能丢失了维度间的交互信息
U-Net 依赖：MAC 网络使用 U-Net 架构，未探索更轻量的替代方案

评分¶

新颖性: ⭐⭐⭐⭐ — 多维自适应系数概念新颖，从系数设计角度优化推理轨迹是较少探索的方向
实验充分度: ⭐⭐⭐⭐ — 覆盖 4 种框架、4 个数据集、多种消融，SOTA 结果有说服力
写作质量: ⭐⭐⭐⭐ — 数学形式化清晰，符号统一，图示直观
价值: ⭐⭐⭐⭐ — 即插即用特性和训练效率使其具有实际应用潜力