跳转至

Saving Foundation Flow-Matching Priors for Inverse Problems

会议: ICML 2026
arXiv: 2511.16520
代码: https://sun-umn.github.io/xm-plug/ (项目页)
领域: 扩散模型 / 逆问题 / Flow Matching
关键词: 基础流匹配先验、逆问题、warm-start、高斯正则、即插即用

一句话总结

针对 Stable Diffusion / Flux 这类基础流匹配模型在求解逆问题上明显逊于领域专用先验甚至未训练先验的现象,作者提出 FMPlug:用一个由近似样本指导、时间可学习的 warm-start 加上锐利高斯壳层约束,把基础 FM 的潜变量塞回它真正"懂"的薄壳上,从而显著恢复其作为逆问题先验的能力。

研究背景与动机

领域现状:逆问题 (Inverse Problems, IPs) 要从测量 \(y \approx A(x)\) 中恢复未知 \(x\),一般通过最小化 \(\ell(y, A(x)) + \Omega(x)\) 实现。近年来主流做法是把深度生成先验 (DGP) 插进 \(\Omega\),特别是基于 Flow Matching (FM) 的扩散/流模型——FM 已经在图像、视频、世界模型上取代了传统扩散,成为 SOTA 生成的事实标准。

现有痛点:基于 FM 解逆问题的现有方法 (D-Flow、FlowDPS、FlowChef 等) 几乎全是依赖领域特定 FM (例如在 FFHQ 上训练的人脸先验)。当切换到 Stable Diffusion V3、Flux 这类基础 FM 时,性能严重退化——作者在 AFHQ-Cat 高斯去模糊上发现:基础 FM 先验的 PSNR/LPIPS/CLIPIQA 普遍比领域 FM 差几个点,甚至连一个没训练过的 DIP (Deep Image Prior) 都打不过。在 DIV2k 上更夸张:恢复出来的图像比模糊输入本身还糟。

核心矛盾:基础 FM 模型作为"生成器"很强,但作为"先验"很弱——它对图像的约束只是"看起来像自然图",缺少领域特定的结构/语义信息。之前用于"加强"基础 FM 先验的技巧 (D-Flow 的 \(z_0 = \sqrt{\alpha} y_0 + \sqrt{1-\alpha} z\) warm-start、对 \(\|z_0\|^2\) 做对数似然正则) 基本无效。作者从测度集中 (Concentration of Measure, CoM) 的视角揭示了根因:标准 FM 的源分布 \(z_0 \sim \mathcal{N}(0, I_d)\) 几乎全部样本都集中在 \(S^{d-1}(0, \sqrt{d})\) 的超薄壳层 \(S\) 上,所以生成器 \(G_\theta\) 只在 \(S\) 上被训练过,shell 之外的行为完全未定义;而 D-Flow 那种把 \(y_0\) 混入 \(z_0\) 的初始化会让样本落在另一个跟 \(S\) 几乎不相交的壳里,等于把 \(G_\theta\) 推到"野外"。同理,D-Flow 的 \(-(d/2-1)\log\|z_0\|^2 + \|z_0\|^2/2\) 高斯似然惩罚在远离最优点的区域变化极慢 (例如 \(\|z_0\|^2 \in [62000, 70000]\) 区间相对最小值变化不到 0.031%),根本无法把 \(z\) 压回薄壳。

本文目标:在不改变 plug-in 框架的前提下,为基础 FM 先验找到 (i) 既能利用问题相关引导样本、又能保证落在 \(G_\theta\) 训练分布上的初始化策略;(ii) 真正"硬"的高斯性约束,把 \(z\) 锁死在 \(S^{d-1}(0, \sqrt{d})\) 周围的薄壳上。

切入角度:作者把问题归约为"为什么 D-Flow 的 warm-start/正则失效",并用高斯测度集中定理 (Vershynin 2018) 解释——只有当 \(z\) 几乎严格在 \(\sqrt{d}\) 半径球面上时,预训练的 FM 生成器才能正常工作。再加一点:当 \(x, y\) 很接近时,FM 的中间状态 \(z_t = \alpha_t x + \beta_t z\) 可以近似为 \(z_t \approx \alpha_t y + \beta_t z\),只要 \(\alpha_t\) 选得当,引入的误差就可控。

核心 idea:让 \(t\) 也变成可学习量(沿时间线找最佳"抄近道"起点),同时把 \(z\) 显式约束在锐利球壳上 \(\{z: \|z\|_2 \in [1-\epsilon, 1+\epsilon]\sqrt{d}\}\),把"瞎跑的 plug-in"变成"在生成器熟悉的流形上跑的 plug-in"。

方法详解

整体框架

FMPlug 沿用 plug-in 框架 \(\min_z \ell(y, A \circ G_\theta(z)) + \Omega \circ G_\theta(z)\),其中 \(G_\theta\) 是一个被固定的预训练基础 FM 模型(具体是 Stable Diffusion V3 或 Flux)。整个 pipeline 输入是测量 \(y\)(以及可能的引导样本集),输出是恢复的图像 \(\hat{x} = G_\theta(\alpha_{t^*} y + \beta_{t^*} z^*, t^*)\)。优化变量是 \((z, t)\)\(z\) 是 FM 的中间状态,\(t \in [0, 1]\) 是它对应的时间点;二者联合最小化数据项 \(\ell\),并强制 \(z\) 落在 \(\sqrt{d}\) 球壳上。当只有 \(y\) 时走 simple-distortion 模式;当还有少量引导图 \(\{x_i\}\) 时走 few-shot 模式(对 \(z\) 做混合分布约束)。

关键设计

  1. 实例引导的时间可学习 warm-start

    • 功能:用 \(y\)(或近似样本)替代纯随机初始化,并把它放进流的"合适时间点",让起点落在 \(G_\theta\) 训练时见过的薄壳内。
    • 核心思路:标准 FM 流是 \(z_t = \alpha_t x + \beta_t z\)\(z \sim \mathcal{N}(0, I)\)。当 \(x = y + \epsilon\)\(\|\epsilon\|\) 小时,可以近似 \(z_t \approx \alpha_t y + \beta_t z\),近似误差 \(\alpha_t \epsilon\)\(\epsilon\) 的真实大小未知,但只要让 \(t\)(进而 \(\alpha_t\))跟着优化器一起学,就能自适应地把误差压到无关紧要的量级。于是优化问题变为 \(\min_{z, t \in [0, 1]} \ell(y, A \circ G_\theta(\alpha_t y + \beta_t z, t))\)
    • 设计动机:解决 D-Flow 初始化把样本推出训练壳的问题——通过让 \(t > 0\) 而不是从 \(t = 0\) 出发,路径更短、起点更贴近 \(G_\theta\) 真正熟悉的分布;同时省掉一段 ODE 积分,加速收敛。
  2. 锐利高斯壳层约束

    • 功能:把 D-Flow 软弱的负对数似然正则换成"硬"约束,让 \(z\) 严格落在 \(\sqrt{d}\) 半径的薄壳上。
    • 核心思路:根据高斯测度集中定理,\(d\) 维标准高斯向量的范数以极高概率位于 \([(1-\epsilon)\sqrt{d}, (1+\epsilon)\sqrt{d}]\),于是定义壳集 \(S^{d-1}_\epsilon(0, \sqrt{d}) = \{z: \|z\|_2 \in [1-\epsilon, 1+\epsilon]\sqrt{d}\}\),把它作为约束加进优化:\(\min_{z, t} \ell(y, A \circ G_\theta(\alpha_t y + \beta_t z, t)) \;\text{s.t.}\; z \in S^{d-1}_\epsilon(0, \sqrt{d})\)。实现上等价于在目标函数上加一个 set-indicator 正则项,配合投影或惩罚法求解。
    • 设计动机:D-Flow 的 \(h(z_0)\) 在远离 \(\sqrt{d-2}\) 处变化极慢,根本拉不动样本;改成显式球壳后,凡是越界就直接被拍回来,真正实现"逼迫 \(z\) 像标准高斯"。
  3. few-shot 引导扩展(针对科学逆问题)

    • 功能:处理 \(y\)\(x\) 差距大(不能直接当 warm-start 种子)、但有少量"邻近样本" \(\{x_i\}\) 的场景,例如显微/天文等数据稀缺的科学成像。
    • 核心思路:把 warm-start 中的 \(y\) 替换为引导样本,例如用 \(\bar{x} = \frac{1}{n}\sum x_i\) 或随机抽样,构造 \(z_t \approx \alpha_t \bar{x} + \beta_t z\);保持锐利球壳约束不变;数据项 \(\ell(y, A \circ G_\theta(\cdot))\) 仍然约束生成结果要拟合实际测量。这样既利用了少量近邻样本的领域结构,又不被它们覆盖测量信号。
    • 设计动机:科学应用里既缺数据训不出领域 FM、又缺信号让 \(y \approx x\) 的 simple-distortion 假设失效;few-shot 引导是一个折中——只要有几张相近图,就能把基础 FM 拽到正确的子流形上。

损失函数 / 训练策略

不训练任何网络参数。目标函数就是 \(\min_{z, t} \ell(y, A \circ G_\theta(\alpha_t y + \beta_t z, t))\)\(\ell\) 用 L2 或感知损失;约束 \(z \in S^{d-1}_\epsilon(0, \sqrt{d})\) 用投影或惩罚实现;用 Adam/L-BFGS 一类优化器对 \((z, t)\) 联合优化,每步反传穿过 \(G_\theta\) 的 ODE 求解器。\(\epsilon\) 取很小的值(如 \(10^{-2}\)),让壳尽量薄。

实验关键数据

主实验

作者在 AFHQ-Cat (256×256) 高斯去模糊上做了基础 FM、领域 FM、未训练先验的全面对比:

方法 PSNR↑ SSIM↑ LPIPS↓ CLIPIQA↑
DIP (未训练) 27.59 0.718 0.390 0.240
D-Flow (领域 FM) 28.14 0.763 0.278 0.587
D-Flow (基础 FM) 25.01 0.708 0.534 0.361
D-Flow (基础 FM-S,旧加强) 25.15 0.683 0.521 0.323
FlowDPS (基础 FM) 22.14 0.593 0.541 0.291

可以看出 D-Flow 基础 FM 比领域 FM 掉 3 个 PSNR,旧的加强方法几乎没用;DIP 这种"零数据"先验反而比基础 FM 还强。

在 DIV2K 上做的"图像回归测试"(直接用 FM 表示一张已知图像,相当于看 \(G_\theta\) 的覆盖能力):

指标 D-Flow FMPlug
PSNR 36.19 37.92
LPIPS 0.181 0.093

FMPlug 把 LPIPS 砍掉将近一半,说明它确实把基础 FM 的潜变量塞回了能精确重建图像的子流形上。论文报告 FMPlug 在多种 simple-distortion 任务(去模糊、超分、修补)和科学逆问题上都恢复了"基础 FM 优于未训练先验、接近领域 FM"的合理排序。

消融实验

配置 现象
Full FMPlug 同时启用 warm-start 与锐利壳约束,效果最好
w/o 可学习 \(t\)(固定 \(t = 0\) 退化为 D-Flow 风格 warm-start,性能掉到接近基础 FM 基线
w/o 锐利壳约束 \(z\) 范数漂出训练壳,生成质量大幅劣化,验证 CoM 论点
用 D-Flow 的 \(h(z_0)\) 软正则替代壳约束 几乎无改善(即论文图 4 反复说明的"软正则等于没正则")
不同 \(\epsilon\) \(\epsilon\) 越小越像理想高斯壳,但太小会让优化困难;论文给出经验区间

关键发现

  • 基础 FM 当作逆问题先验的根本难点是 "训练分布是薄壳,但 plug-in 优化跑到了壳外",所以治本之道不是改正则形式,而是直接把变量约束到壳上。
  • \(t\) 可学习不仅是技巧,更是理论必然——它对应到"用多大的 \(\alpha_t\) 才能把未知 \(\epsilon\) 的影响压下去",等于在沿流方向自适应寻找最佳"换车点"。
  • 在 few-shot 科学成像设置下,FMPlug 让基础 FM 的表现超过了 untrained prior,这是之前所有用基础 FM 解 IP 的工作都没做到的。

亮点与洞察

  • 测度集中视角下重新审视 FM 先验:作者用 CoM 把"为什么基础 FM 不好用"讲透——这是一个非常漂亮、容易迁移的诊断角度,未来任何高维流模型 plug-in 方法都可以用同样的"训练壳 vs 优化轨迹"框架来分析。
  • \(t\) 提升为优化变量:通常人们把扩散/FM 的时间索引看成 ODE 求解器的"刻度",作者发现它其实是连接 warm-start 误差与训练分布壳的关键自由度,这种"把固定超参变成可学习量"的操作在很多 plug-in 场景里都值得尝试。
  • 硬约束 > 软正则:当目标分布在高维球壳上严重集中时,软的负对数似然正则形同虚设,必须改用显式 set-indicator 约束。这一点对所有"用高斯/球面先验"的工作都有警示意义。
  • 完全 training-free,只改优化目标和初始化,可以套到任何已发布的基础 FM 上(Stable Diffusion 3、Flux、未来更大的模型都行),实用价值高。

局限与展望

  • 方法只在图像 IP 上验证,对视频/3D/分子等其他基础 FM(如 Sora、Cosmos)能否同样有效未知,尤其在多模态条件 FM 上 \(z_t\) 的语义可能更复杂。
  • 锐利球壳约束需要选择 \(\epsilon\),论文未给出无参数自动版本;优化里加投影/惩罚也会带来工程复杂度,可能需要针对每个任务调。
  • few-shot 设置高度依赖"邻近样本"的选择质量;当 \(y\) 跟所有近邻样本都隔得远时,warm-start 的近似误差 \(\alpha_t \epsilon\) 不再小,理论保证就崩了。
  • 没讨论与 measurement noise 的相互作用——当 \(y\) 受到强噪声污染时,\(y\) 自身就不再是"贴近 \(x\) 的种子",可能需要对 \(\ell\) 加额外的 likelihood 建模。
  • 作者把 \(G_\theta\) 视为黑盒;如果能联合微调一小部分 FM 参数(类似 LoRA),可能进一步突破。

相关工作与启发

  • vs D-Flow (Ben-Hamu et al. 2024):本文继承 plug-in 框架,但替换其失效的 warm-start 与高斯正则;本质是给 D-Flow 配了"测度集中"理论后的修正版。
  • vs FlowDPS / FlowChef (Kim et al. 2025; Patel et al. 2024):那些是 interleaving 方法(ODE 步 + 测量梯度步),manifold 与 measurement feasibility 都没有保证;FMPlug 走 plug-in,输出天然在 \(G_\theta\) 的流形上。
  • vs DIP (Ulyanov et al. 2018) / 隐式神经表示:DIP 完全不依赖训练数据,胜在通用但弱在领域信息;FMPlug 用基础 FM 把"通用预训练 + 测量适配"做到一起,思路上是 DIP 的强化版。
  • vs 扩散 plug-in (DPS、PSLD 等):方法论几乎可以平移到基础扩散先验上——把 noise schedule 看成 FM 流的特例,FMPlug 的壳约束 + 可学习时间同样适用。

评分

  • 新颖性: ⭐⭐⭐⭐ 用测度集中重新解释"为什么 D-Flow 失效"很漂亮,warm-start + 壳约束的组合简洁有力;但单独看每个技术点都不算颠覆性。
  • 实验充分度: ⭐⭐⭐⭐ 既有跨先验 (基础/领域/未训练) 的横向对比,也有跨任务 (去模糊、超分、科学 IP) 的覆盖;不过对极端测量噪声/不同 FM 模型的鲁棒性还差点深度。
  • 写作质量: ⭐⭐⭐⭐ 问题动机和理论解释讲得非常清楚,CoM 图示 + D-Flow 软正则平台图都是亮点。
  • 价值: ⭐⭐⭐⭐ 直接把"用基础 FM 解 IP"从不可用拉到了可用,并指出了一个之前被忽视的根本难点,对所有想用基础生成模型做下游任务的人都有借鉴意义。