Source-Guided Flow Matching¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=p56ZAQUCUr
领域: 扩散模型 / 生成模型 / 流匹配引导
关键词: Flow Matching, 引导生成, 最优传输, 源分布采样, 逆问题

一句话总结¶

本文提出 SGFM 框架，把流匹配的「引导生成」问题等价转化为「从一个修改过的源分布采样」——只改源分布、完全不动预训练向量场，从而精确恢复目标分布，并保留最优传输向量场的直线轨迹（快推理），还能让用户按需挑选采样器（重要性采样 / HMC / 优化）。

研究背景与动机¶

领域现状：流匹配（Flow Matching）通过学一个向量场 \(u_t(x)\)，把样本沿常微分方程 \(dx = u_t(x)dt\) 从源分布 \(q_0\) 推到目标分布 \(q_1\)。其中「最优流匹配」用最优传输（OT）耦合训练，得到的向量场让每个样本沿直线、匀速运动（对应 Wasserstein 测地线），训练稳定、推理时只需很少积分步。引导生成（guidance）则是在采样时额外满足某种约束——约束写成能量函数 \(J\)，新目标分布变为 \(q_1'(x_1) \propto q_1(x_1)\,e^{-J(x_1)}\)。

现有痛点：现有的「精确引导」方法（如把引导写成随机最优控制 SOC、或 Feng et al. 2025 的 g-MC 类方法）几乎都通过修改向量场来实现——往原向量场上加一个引导项 \(g_t\)。这带来两个具体问题：其一，向量场被改后，最优流匹配那条宝贵的直线轨迹被破坏，变成弯曲轨迹（见原文 Figure 2），必须用更细的时间离散才能保精度，推理变慢；其二，引导项 \(g_t\) 通常要在 \(t\in[0,1]\) 的许多中间时刻反复用蒙特卡洛估计，每次估计又要大量采样，整体开销极大。此外，每换一个约束场景，SOC 类方法就得重解一遍，灵活性差。

核心矛盾：引导的精确性、向量场直线性（推理速度）、采样灵活性三者，在「改向量场」这条路上被绑死——只要动了向量场，直线性就丢，且引导被固定在某种特定估计/控制方案里。

本文目标：在不碰预训练向量场的前提下，做到精确引导，同时保住直线轨迹，并把「怎么采样」的自由度交还给用户。

切入角度：作者注意到一个被忽视的对称性——既然向量场只是一张固定的传输地图 \(T=\phi_1\)，那么「让流终点落在 \(q_1'\)」完全可以靠调整起点的分布来实现，而不必改地图本身。

核心 idea：用一个修改后的源分布 \(q_0'(x_0) \propto q_0(x_0)\,e^{-J\circ T(x_0)}\) 代替原源分布 \(q_0\)，沿原封不动的向量场积分，就能精确得到引导目标 \(q_1'\)。引导问题于是被归约成一个定义清晰的子问题：从 \(q_0'\) 采样。

方法详解¶

整体框架¶

SGFM 的核心是一次「问题搬家」：把发生在 \(\mathbb{R}^d\times[0,1]\)（空间 × 时间）上、需要反复改向量场的引导，搬成只发生在单个时刻（\(t=0\)）、\(\mathbb{R}^d\) 上的一次源分布采样。整条流程是：先用标准流匹配损失训出（最好是最优 OT 的）向量场 \(v_t^\theta\)；引导时不重训、不加引导项，而是把约束 \(J\) 通过传输地图 \(T=\phi_1\) 拉回到源端，得到加权源分布 \(q_0'(x_0)\propto q_0(x_0)\,e^{-J\circ T(x_0)}\)；从 \(q_0'\) 采一批起点（用户自选采样器），再沿原向量场积 ODE，终点即服从引导目标 \(q_1'\)。

直观图景（原文 Figure 1）：最优向量场把每个源点 \(x_0\) 直线映到一个目标点 \(x_1\)；想满足约束 \(J\)，等价于在源端挑出那些会流向 \(q_1'\) 高密度区的源样本子集——这个子集恰好服从 \(q_0'\)。因为只动源分布、向量场不变，直线性被完整保留。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["预训练向量场<br/>v_t（最优OT，直线轨迹）"] --> B["源端改写<br/>q'_0 ∝ q_0·e^(−J∘T)"]
    B --> C["从修改源分布采样<br/>IS / HMC / 优化"]
    C -->|"沿原向量场积ODE<br/>dx=v_t(x)dt"| D["引导样本 x_1 ~ q'_1"]
    B -.->|"误差界<br/>W₂≤e^Lv·W₂(q'_0,q̃_0)+ε·e^Lv"| C

关键设计¶

1. 源端改写：把引导从「改向量场」搬成「改源分布」的精确等价

这一步直击「改向量场就丢直线性、还要在多时刻反复采样」的痛点。作者证明（Theorem 1）：给定一个把 \(q_0\) 推到 \(q_1\) 的流映射 \(\phi_1\)（记 \(T=\phi_1\)），只要把源分布替换为 \(q_0'(x_0)=\frac{1}{Z_0}q_0(x_0)\,e^{-J\circ T(x_0)}\)，那么同一个流 \(\phi_t\) 就会把 \(q_0'\) 精确推到 \(q_1'(x_1)=\frac{1}{Z_1}q_1(x_1)\,e^{-J(x_1)}\)，即 \((\phi_1)_\# q_0' = q_1'\)。其本质是一次经典的变量代换：约束的似然 \(e^{-J}\) 沿传输地图被「拉回」到源端，写成 \(e^{-J\circ T}\) 作为对源样本的重加权权重。

这之所以有效，是因为引导的全部信息现在都凝聚在源端的一个标量权重里，向量场完全不需要知道 \(J\) 的存在。于是推理时仍走原来的直线 ODE，且不存在「每个中间时刻都要估计引导项」的负担——引导只在 \(t=0\) 一次性体现为采样问题。这也是和 g-MC / SOC 类「改向量场」方法的根本区别：它们把 \(J\) 注入 \(\mathbb{R}^d\times[0,1]\) 的动力学，本文只把 \(J\) 注入 \(\mathbb{R}^d\) 的一个分布。

2. 误差界：用最优向量场的小 Lipschitz 常数控住两类近似误差

现实里向量场是学出来的（有偏差 \(\epsilon\)），源分布也只能近似采（得到 \(\tilde q_0\) 而非 \(q_0'\)）。作者给出 Theorem 2：若 \(\|v_t-v_t^\theta\|_\infty\le\epsilon\) 且学到的流 \(v_t^\theta\) 关于 \(x\) 是 \(L_v\)-Lipschitz，则生成分布与真目标的 2-Wasserstein 误差满足

\[W_2\big(q_1',\,[\phi_1^\theta]_\#\tilde q_0\big)\le e^{L_v}\,W_2(q_0',\tilde q_0) + \epsilon\,e^{L_v}.\]

第一项是源分布采样不准带来的偏差、被流映射的 Lipschitz 因子 \(e^{L_v}\) 放大；第二项是向量场学习误差沿轨迹的累积。两项都被 \(L_v\) 主导，所以 \(L_v\) 越小、引导越稳。这条界的妙处在于它把误差干净地分解成两个相互独立的来源，并直接给出一个工程指引：应当选用让 \(L_v\) 尽量小的向量场。

3. 偏好最优（直线）向量场，并按问题挑采样器

承接误差界的指引，作者主张用最优流匹配（mini-batch OT 训练，Tong et al. 2023）学最优向量场 \(v_t^*\)：它的轨迹是常速直线，对应的流映射就是最优 Monge 地图 \(T^*\)，既让 \(L_v\) 更小（实验里 \(L_v\) 从 ~16–20 降到 ~11），又因直线轨迹大幅减少积分步数（NFE 低），还顺带降低了「评估 \(T^*\) 以算 \(q_0'\) 权重」的成本。

而「从 \(q_0'\) 采样」这一子问题，作者给出一套可按场景挑选的采样器谱系： - 重要性采样（IS）：低维、且 \(J\) 不可微时最省事——以 \(q_0\) 为提议分布，权重直接是 \(w(x_0)=e^{-J\circ T^*(x_0)}\)，样本数 \(N\to\infty\) 时 \(W_2(\tilde q_N,q_0')\to 0\)，渐近精确。 - 哈密顿蒙特卡洛（HMC）：高维时绕开 IS 的维数灾难，用梯度信息在 \(-\ln q_0'(x_0)=-\ln q_0(x_0)+J\circ T^*(x_0)\) 上做 MCMC，遍历性保证渐近收敛。 - 优化式采样：当目标接近 Dirac（如成像逆问题只想要一个高概率解）时，直接 \(\min_{x_0}-\ln q_0'(x_0)\) 找众数。作者特别指出，朴素正则 \(-\ln q_0(x_0)=\|x_0\|^2/2\) 会把高斯源样本全吸到 \(x_0=0\) 造成模式坍缩；改用范数的卡方密度正则 \(-\ln p_{\chi^2_d}(\|x_0\|^2)\) 把众数从原点换成一层超球壳 \(\|x_0\|^2\approx d\)，或干脆加约束 \(|\,\|x_0\|^2-d\,|\le\sqrt{2d}\)（式 6）来保多样性。这套优化式采样恰好涵盖了 D-Flow（Ben-Hamu et al. 2024）的启发式正则——本文因此把 D-Flow 解释成 SGFM 的一个特例，并第一次给出它的理论依据。

这三个设计严格对应框架图三段：源端改写（把 \(J\) 拉回源端）→ 从修改源分布采样（挑采样器）→ 沿原向量场积分出引导样本，而误差界则是横贯全程、解释「为何要用直线最优向量场」的理论支撑。

损失函数 / 训练策略¶

训练阶段就是标准的条件流匹配损失 \(L_{FM}(\theta)=\mathbb{E}_{t,(x_0,x_1)\sim\pi}\|v_t^\theta((1-t)x_0+tx_1)-(x_1-x_0)\|^2\)，关键在于把耦合 \(\pi\) 选成最优 OT 耦合 \(\pi^*\)（实践用 mini-batch OT 近似），以获得直线轨迹和小 \(L_v\)。引导阶段不训练，只做源分布采样 + ODE 积分（见 Algorithm 1）。

实验关键数据¶

主实验¶

2D 合成（uniform 源 → 8-Gaussian 目标，源非高斯故扩散类引导不可用）：用 SGFM-IS，在「引导精度（与真引导分布的经验 Wasserstein 距离）vs. NFE」上一致优于基线；且降低 NFE 对精度影响很小，印证最优向量场直线轨迹「少步即可」。

最优 vs. 独立向量场（Table 1，引导误差 ↓）：

任务	向量场	\(L_v\)	引导误差
8gaussian→moon	独立	20.1	0.125 ± 0.186
8gaussian→moon	最优	11.9	0.066 ± 0.047
uniform→8gaussian	独立	16.8	0.124 ± 0.023
uniform→8gaussian	最优	11.1	0.067 ± 0.019

最优向量场 \(L_v\) 更小、引导误差更低，直接验证 Theorem 2。

CelebA 成像逆问题（Table 4，PSNR ↑）：

方法	去噪	去模糊	超分	随机补全	框补全
g-covA	26.73	29.72	18.45	19.61	24.88
g-covG	30.35	29.50	24.18	25.49	26.12
PnP	32.14	38.74	31.33	33.87	29.92
SGFM-OPT-2 (D-Flow)	28.95	35.23	33.32	34.01	28.43
SGFM-OPT-4	31.60	35.27	33.31	34.03	30.12

SGFM 各变体在所有任务上稳超 g-covA/g-covG；与专为成像设计的 PnP 互有胜负（去模糊弱一档，超分/补全反超）。

消融实验¶

Darcy flow PDE 逆问题（Table 2，多模态后验，median[IQR]，均 ↓）：

方法	解的有效性	引导代价	物理一致性
SGFM-HMC	0.591	0.281	0.188
SGFM-OPT-1	0.907	0.206	0.421
SGFM-OPT-2	0.474	0.187	0.194
g-covA	0.992	0.030	0.289
无条件采样	1.006	1.051	0.214

NFE 敏感性（Table 5，SGFM-OPT-2，PSNR ↑）：NFE=1→3 跳变明显（去噪 21.33→28.64），NFE 超过 3 几乎不再提升，证实直线向量场「3 步够用」。

关键发现¶

采样器选择是性能关键：SGFM-OPT-2（卡方范数正则，即 D-Flow 偏好正则）综合最好；SGFM-OPT-1（朴素 \(\|x_0\|^2\) 正则）因模式坍缩，物理一致性差（0.421）、有效性垫底。
「引导代价低」≠「解好」：g-covA 引导代价最低（0.030）却牺牲物理一致性，有效性反而最差——说明只压 \(J\) 不够，得兼顾贴合真实先验。
直线向量场让推理几乎免费提速：NFE 从 9 降到 3 性能基本不变，对应理论上最优向量场的小离散误差。

亮点与洞察¶

一次「问题搬家」省掉大量中间采样：把 \(\mathbb{R}^d\times[0,1]\) 上的多时刻引导，压成 \(t=0\) 单时刻的源采样问题——这是整篇最「啊哈」的地方，既保直线性又解耦了「引导」与「向量场」。
给 D-Flow 一个理论家：D-Flow 原是启发式优化正则，本文证明它就是 SGFM 优化式采样的特例，并解释了各种正则项（朴素 / 卡方 / 约束）在「找众数 vs. 保多样性」上的角色，把工程 trick 提升为有保证的方法族。
误差界直接当设计指南：\(W_2\le e^{L_v}W_2(q_0',\tilde q_0)+\epsilon e^{L_v}\) 把「该选哪种向量场」量化成「选 \(L_v\) 小的最优 OT 向量场」，理论与实现闭环。
可迁移思路：凡是「预训练生成器 + 推理时加约束」的场景（分子生成、决策规划、科学逆问题），都能套用「改源不改场」这一招，把约束拉回源端做加权采样。

局限与展望¶

采样难度被转移而非消除：作者自承，高维复杂源分布下「从 \(q_0'\) 采样」本身可能很难（HMC 收敛慢、IS 维数灾难），SGFM 把引导难度搬到了采样器上。
优化式采样会模式坍缩：当真实条件分布多模态时，优化式采样（含 D-Flow）会过度集中到某条线/某个众数（原文 'S' 形例子），丢失多样性；只有 HMC 这类才较好覆盖多模态。
运行时间偏长：复杂源分布下 SGFM（尤其 HMC）比 g-covA 慢，限制了可评估样本数，对「是否覆盖整族解」的评估不充分。
直线性是工程偏好非理论必需：Theorem 1–2 对任意向量场都成立，最优向量场只是为了小 \(L_v\) 和低 NFE；非最优场下界会松。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 「改源不改场」是引导生成里一个干净且少见的视角，且统一并解释了 D-Flow。
实验充分度: ⭐⭐⭐⭐ 覆盖 2D / PDE 逆问题 / CelebA 成像三档，验证了理论；但高维多模态覆盖度评估受运行时间所限略欠。
写作质量: ⭐⭐⭐⭐⭐ 理论—算法—实验闭环清晰，定理与设计动机一一对应。
价值: ⭐⭐⭐⭐⭐ 训练无关、即插即用、保直线轨迹，对生成模型推理时约束满足有很强的通用价值。