DBMSolver: A Training-free Diffusion Bridge Sampler for High-Quality Image-to-Image Translation¶

会议: CVPR 2026
arXiv: 2605.05889
代码: https://github.com/snumprlab/dbmsolver
领域: 扩散模型 / 图像生成 / Image-to-Image Translation
关键词: 扩散桥模型, 训练无关采样器, 指数积分器, 半线性结构, 高阶 ODE 求解

一句话总结¶

针对扩散桥模型（DBM）做图像到图像翻译时采样慢（动辄几十上百次网络评估）的问题，DBMSolver 不改网络、不训练，仅靠揭示 Bridge SDE/ODE 的「半线性结构」并用指数积分器（EI）推出闭式解，把采样步数（NFE）压到 6 步就超过此前 SOTA，在 DIODE 上 20 NFE 时 FID 比二阶基线降 53%。

研究背景与动机¶

领域现状：图像到图像翻译（I2I，如修复、上色、风格化、语义图生图）近年从 GAN 转向扩散模型。其中 Diffusion Bridge Models（DBM，DDBM）用 Doob's h-transform 在源图分布 $p_T(\boldsymbol{x})$ 与目标图分布 $p_0(\boldsymbol{x})$ 之间架一条「扩散桥」，理论优雅、生成质量高，是当前 I2I 的高保真主力。

现有痛点：DBM 采样太慢。原始的 Hybrid Heun 采样器要 119 次网络前向（NFE）才能得到连贯结果；后续的 DBIM-2/3 虽然降到 20 NFE，但它们的高阶解是靠线性多步法数值逼近的（非闭式），在低 NFE 时仍有明显的逼近误差，质量上不去。

核心矛盾：扩散桥的先验 $p_T(\boldsymbol{x})$ 是任意图像而非纯高斯噪声。这一点让为「噪声到图像（N2I）」设计的快速求解器（DDIM、DPMSolver++）的理论基础直接失效——它们假设 $p_T(\boldsymbol{x})\approx\mathcal{N}(\boldsymbol{0},\sigma_T^2\boldsymbol{I})$，先验非高斯时桥就不成立。于是 DBM 只能用专用但慢的采样器。

本文目标：在不额外训练、不改架构的前提下，为 DBM 推出一个又快又准的即插即用采样器，把 NFE 砍一个数量级且质量不降反升。

切入角度：作者重新审视 DBM 反向过程所遵循的 Bridge SDE（式 2）和 Bridge PF ODE（式 5），发现它们其实都具有被前人忽略的半线性结构——对 $\boldsymbol{x}_t$ 是线性的、只有 score 项是非线性的。这种结构正是指数积分器（Exponential Integrator, EI）最擅长精确求解的形式。

核心 idea：用 EI 对线性项求精确闭式解、对含 $\boldsymbol{x}_0$-预测网络的非线性项做 Taylor 展开逼近，从而推出 DBM 专用的一阶 SDE 解和二阶 ODE 解，再组合成一个高阶采样流程，替换掉现有的粗糙数值逼近。

方法详解¶

整体框架¶

DBMSolver 的输入是一张源图（作为先验样本 $\tilde{\boldsymbol{x}}_T\sim p_T(\boldsymbol{x})$）和一个预训练好的、做 $\boldsymbol{x}_0$ 预测的 DBM $\textbf{D}_{\boldsymbol{\theta}}$，输出是翻译后的目标图 $\tilde{\boldsymbol{x}}_0$，整个过程不碰网络权重。方法的骨架是先把 DBM 的反向 SDE/ODE 改写成「线性项 + 非线性项」的半线性形式，再分别求解，最后拼成一个三阶段采样调度：

初始随机一步：从 $s=T$ 走到 $t=T-\epsilon$（$\epsilon\approx10^{-4}$），用一阶 Bridge SDE 解（Proposition 1，式 8）。之所以单独处理，是因为 ODE 解在 $s\to T$ 时会发散（系数里的 $\rho(\lambda_s,\lambda_T)\to0$），所以起步必须用 SDE。
中间确定性精修：从 $t_{N-1}$ 迭代到 $t_1$，每步用 $k=2$ 的二阶 Bridge PF ODE 解（Proposition 2，式 9），逐步把噪声样本逼向干净图。
最后一步 Euler：从 $t_1$ 到 $t_0=0$，把 $\boldsymbol{x}_0$-预测转成 score 后用一次标准 Euler 更新，得到高保真输出。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["源图先验<br/>x_T ~ p_T(x)"] --> B["半线性结构改写<br/>Bridge SDE/ODE = 线性项+非线性项"]
    B --> C["初始随机一步<br/>一阶 Bridge SDE 解(式8)"]
    C --> D["中间确定性精修<br/>二阶 Bridge ODE 解 k=2(式9)"]
    D -->|"迭代 t_{N-1}→t_1"| D
    D --> E["末步 Euler 更新<br/>x0-预测转 score 后单步"]
    E --> F["翻译结果 x_0"]

关键设计¶

1. 揭示 Bridge SDE/ODE 的半线性结构：找到能精确求解的「钥匙」

此前的 DBM 采样器没意识到 Bridge SDE/ODE 内部藏着可被精确处理的结构，只能整体做数值积分，误差大。作者把 $\boldsymbol{x}_0$-预测器 $\textbf{D}_{\boldsymbol{\theta}}$ 代回 Bridge PF ODE（式 5），将其改写成半线性形式 $\frac{\text{d}\boldsymbol{x}_t}{\text{d}t}=\underbrace{L(t)\,\boldsymbol{x}_t}_{\text{线性项}}+\underbrace{N(\textbf{D}_{\boldsymbol{\theta}}(\boldsymbol{x}_t),t,\boldsymbol{x}_T)}_{\text{非线性项}}$，其中线性项对 $\boldsymbol{x}_t$ 线性、非线性项才包含神经网络。Bridge SDE 同样具备这一结构。这个观察是全文的地基：一旦分离出线性项，就能对它用指数积分器求解析精确解，把数值逼近误差只留给非线性项，从根本上比「整体数值积分」更准

2. 一阶 Bridge SDE 解：用指数积分器拿下起步随机步

ODE 解在 $t=T$ 处会发散，所以必须有个专门的起步求解器。作者对半线性的 Bridge SDE 用 EI 方法求精确解，再做一阶 Taylor 展开（误差 $O(\Delta t^2)$）得到 Proposition 1： $$\boldsymbol{x}_t=\frac{\text{SNR}_s}{\text{SNR}_t}\frac{\alpha_t}{\alpha_s}\boldsymbol{x}_s+\alpha_t\left(1-\frac{\text{SNR}_s}{\text{SNR}_t}\right)\textbf{D}_{\boldsymbol{\theta}}(\boldsymbol{x}_s)+\sigma_t\sqrt{1-\frac{\text{SNR}_s}{\text{SNR}_t}}\,\boldsymbol{z}_t$$ 其中 $\boldsymbol{z}_t\sim\mathcal{N}(\boldsymbol{0},\boldsymbol{I})$，$\text{SNR}_t:=\alpha_t^2/\sigma_t^2$ 是 $t$ 时刻的信噪比。它只在 $s=T\to t=T-\epsilon$ 这一极小区间上用一次，区间小到一阶逼近就足够准——作者据此论证起步不必上更高阶，省下复杂度

3. 二阶 Bridge PF ODE 闭式解：把中间精修做到既精确又解析可算

中间这些步是采样质量的主战场，DBIM-2/3 在这里用线性多步法做数值逼近，误差较大。作者改为对 Bridge PF ODE 走 EI → 换元 → 把解写成指数加权积分的路线，得到 Proposition 2 的精确闭式解（式 9），核心是那一项「指数积分」$\int_{\lambda_s}^{\lambda_t}\frac{e^{2\lambda}\textbf{D}_{\boldsymbol{\theta}}(\boldsymbol{x}_\lambda)}{\sqrt{\rho(\lambda,\lambda_T)}}\text{d}\lambda$，其中 $\lambda_t:=\log(\alpha_t/\sigma_t)$ 可理解为半个 log-SNR、$\rho(a,b):=e^{2(a-b)}-1$。再对这个积分做 $(k-1)$ 阶 Taylor 展开：把 $\textbf{D}_{\boldsymbol{\theta}}$ 的各阶导数估计出来、剩下的积分解析求出（式 10）。关键在于：$k=1$ 时它就退化成 DBIM-1，而本文取 $k=2$，多出来的二阶项让逼近误差界更小、低 NFE 下细节更准——且因为解是解析的，不像 DBIM-2/3 那样背负数值多步法的额外误差

4. 三阶段采样调度与「为什么是 k=2」的阶数选择：把三个解拼成完整算法

光有两个 Proposition 还要拼成能跑的采样器。作者设计了 SDE 起步 → ODE 中段 → Euler 收尾的三段式调度（见 Algorithm 1）：起步用一阶 SDE 绕开 ODE 在 $t=T$ 的发散；最后从 $t_1$ 到 $0$ 用一次 Euler（先用式 6 把 $\boldsymbol{x}_0$-预测转成 score）。阶数上特意停在 $k=2$ 而非更高：因为 $k\ge3$ 的积分会出现非初等原函数（无法用多项式/指数/对数等初等函数写成闭式），只能退回数值多步法——而那正是 DBIM-2/3 的做法、会重新引入更大误差界。所以 DBMSolver 守住「解析可算」的边界，用二阶闭式解换取最干净的逼近，这也是它能在 6 NFE 就超过 DBIM-3 的根因

损失函数 / 训练策略¶

本文是训练无关的采样器，不引入任何新损失或训练。它直接复用前人公开的 DBM checkpoint（如 DDBM 在 E2H/DIODE 的权重、DBIM 在 ImageNet inpainting 的 $\text{I}^2\text{SB}$ 微调权重）；对缺权重的数据集（Face2Comics、CelebAMask-HQ）则按标准做法用 ADM U-Net 从头训一个 DBM，再套 DBMSolver 采样。

实验关键数据¶

主实验¶

评测涵盖草图生图（E2H）、表面法线生图（DIODE）、人脸漫画化（Face2Comics）、类条件中心修复（ImageNet）、语义标签生人脸（CelebAMask-HQ），指标为 FID/IS/LPIPS/MSE/CA，效率用 NFE 衡量。

DIODE (256×256) 上 FID 对比（越低越好）：

方法	NFE	FID↓	IS↑	LPIPS↓	MSE↓
Hybrid Heun	119	4.43	6.21	0.244	0.084
DBIM-1	20	4.99	6.10	0.201	0.017
DBIM-2	20	4.40	6.11	0.200	0.017
DBIM-3	20	4.23	6.05	0.201	0.017
ODES3	28	2.29	5.92	0.203	0.018
DBMSolver (Ours)	6	3.38	6.00	0.196	0.015
DBMSolver (Ours)	20	2.06	6.00	0.198	0.018

20 NFE 时 FID 2.06 vs. 二阶基线 DBIM-2 的 4.40，约降 53%（与摘要一致）；仅 6 NFE 时 FID 3.38 已优于 119 NFE 的 Hybrid Heun（4.43）和所有 20 NFE 的 DBIM 变体。

E2H (64×64) 上的小分辨率验证：

方法	NFE	FID↓	LPIPS↓
Hybrid Heun	119	1.83	0.142
DBIM-3	20	1.45	0.098
ODES3	28	0.54	0.097
DBMSolver (Ours)	6	0.93	0.106
DBMSolver (Ours)	20	0.53	0.099

6 NFE 即达 FID 0.93（优于 119 NFE 的 Hybrid Heun），20 NFE 达 0.53（与 28 NFE 的 ODES3 持平且步数更少）。

Face2Comics / CelebAMask-HQ / ImageNet 修复补充：

任务	方法	NFE	FID↓	备注
Face2Comics	DBIM-3	20	8.61	—
Face2Comics	DBMSolver	6	3.04	6 步超 20 步 DBIM
Face2Comics	DBMSolver	20	0.96	—
ImageNet 修复	DBIM-2	20	4.07 (CA 72.0)	耗时 13.67
ImageNet 修复	DBMSolver	6	4.98 (CA 70.8)	耗时 3.66、吞吐 45.4×
ImageNet 修复	DBMSolver	20	4.07 (CA 72.0)	与 DBIM 持平

ImageNet 修复上 6 NFE 把单图耗时从 ~13.7 压到 3.66、吞吐率提到 45.41（约 4× 加速）；CelebAMask-HQ 上 20 NFE FID 17.56，优于 DBIM-3 的 19.49 和 200 步 BBDM 的 21.35。

消融实验¶

配置	关键现象	说明
$k=1$（≈ DBIM-1）	FID 较高	一阶 Taylor 展开，逼近误差大
$k=2$（DBMSolver 采用）	FID 更优	二阶闭式解，误差界更小（附录证实优于 $k=1$）
$k\ge3$	不可解析	出现非初等原函数，只能退回数值多步法（即 DBIM-2/3 路线）
起步用一阶 SDE	稳定	绕开 ODE 在 $t=T$ 的系数发散

关键发现¶

半线性结构是质量来源：把线性项做精确闭式解、非线性项做 Taylor 逼近，比 DBIM-2/3 的整体数值多步法误差更小，这解释了为何同为二阶、DBMSolver 6 NFE 就能压过 DBIM-3 的 20 NFE。
阶数停在 $k=2$ 是刻意的：不是越高越好——$k\ge3$ 会失去解析可算性、被迫引入数值误差，反而不划算；二阶是「解析可解」与「精度」的最佳折中。
低 NFE 下细节优势最明显：在 DIODE 树枝、手袋纹理、人脸眼角/发际线/掩膜边缘等细结构上，DBMSolver 6 NFE 仍清晰，而 DBIM 同步数下偏糊。

亮点与洞察¶

「训练无关 + 闭式解」的双重红利：作为现有 DBM 采样的即插即用替换，零重训就把 NFE 砍一个量级（如 6 vs 119），同时质量还升——这种「又快又好、还不用动模型」的组合在工程落地上极有吸引力。
把半线性结构挖出来是真正的 aha 点：DPMSolver 系列早就用 EI 加速 N2I 扩散，但大家默认它在 DBM 上不适用（因先验非高斯）。本文证明 Bridge SDE/ODE 同样半线性、同样能上 EI，等于把 N2I 的加速红利「搬」到了 I2I，思路可迁移到其他带任意先验的桥式生成模型。
「阶数边界即误差边界」的洞察可复用：用「原函数是否初等」来界定能走多高阶、超过就该停手，这个判断准则对设计其他高阶扩散求解器同样有指导意义。

局限与展望¶

依赖已有 $\boldsymbol{x}_0$-预测形式的 DBM：方法推导绑定 Bridge Score Matching 训练出的 $\boldsymbol{x}_0$-预测器与 VP/VE 桥；换成其他参数化或非标准桥时，闭式解需重新推导。
分辨率仅验证到 256×256：论文未在更高分辨率（512/1024）或更大规模潜空间 DBM 上验证，加速比与质量优势能否保持是开放问题。
极低 NFE 下并非全面最优：如 ImageNet 修复 6 NFE 时 FID 4.98 仍高于 20 NFE 的 DBIM（4.07），即「更省步」和「更高绝对质量」之间仍有取舍；CelebAMask-HQ 也只报了 20 NFE。
二阶为上限：受「非初等原函数」限制无法解析地上三阶，若未来能找到三阶的解析近似或更紧的二阶 Taylor 余项，质量或可进一步提升。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次揭示 Bridge SDE/ODE 的半线性结构并据此推出 DBM 专用闭式高阶 EI 解，把 N2I 的加速红利系统地搬到 I2I。
实验充分度: ⭐⭐⭐⭐ 覆盖 5 个任务、多分辨率、多基线，含 NFE-FID 曲线与阶数消融；但分辨率止于 256，极低 NFE 的绝对质量仍有取舍。
写作质量: ⭐⭐⭐⭐ 推导分层清晰（半线性→SDE 解→ODE 解→调度），用表 1 把各采样器的先验假设/阶数/马尔可夫性讲明白；公式偏多，需对照附录。
价值: ⭐⭐⭐⭐⭐ 训练无关、即插即用、NFE 降一个量级且质量升，对 DBM 实时化与落地有直接价值，代码已开源。

配置	关键现象	说明
\(k=1\)（≈ DBIM-1）	FID 较高	一阶 Taylor 展开，逼近误差大
\(k=2\)（DBMSolver 采用）	FID 更优	二阶闭式解，误差界更小（附录证实优于 \(k=1\)）
\(k\ge3\)	不可解析	出现非初等原函数，只能退回数值多步法（即 DBIM-2/3 路线）
起步用一阶 SDE	稳定	绕开 ODE 在 \(t=T\) 的系数发散