Resolving Endpoint Underfitting in Diffusion Bridges via Noise Alignment¶
会议: CVPR 2026
论文: CVF Open Access
代码: https://github.com/gyr02/NADB
领域: 扩散模型 / 图像生成
关键词: 扩散桥, 端点欠拟合, 噪声对齐, 随机插值, 图像复原
一句话总结¶
作者发现以 I2SB 为代表的扩散桥模型在靠近目标端点(\(t\to0\))时会出现"端点欠拟合"——预测方差崩塌、方向错乱,根因是网络输入与回归目标的噪声幅度趋势相互矛盾;他们提出 NADB,用一个"幅度对齐的随机插值"修方差、用一个均值网络拉近桥的两端来修方向,在 ImageNet 多个复原/翻译任务上稳定超过 I2SB。
研究背景与动机¶
领域现状:图像复原(去模糊、JPEG 去伪影、超分)近年被生成模型主导。标准条件扩散把低质图一路映射到纯高斯噪声、再反向重建,路径"绕远路"。扩散桥(diffusion bridge)则直接在"退化分布"和"清晰分布"之间学一条随机轨迹,天然契合复原任务,I2SB 是其中开创性的工作。
现有痛点:I2SB 的做法是"照搬"标准扩散——学一个 score 函数、用和扩散一样的回归目标训练。作者把 I2SB 网络在整个时间轴上的输出画出来后发现:在 \(t\to0\) 的目标端点附近,网络严重欠拟合,表现为预测方差急剧崩塌、预测方向(与真值的余弦相似度)骤降。而这恰恰是生成最后、最需要补高频细节的阶段,等于给复原质量加了一个天花板。
核心矛盾:根因是输入与目标之间的噪声调度趋势不一致。看 I2SB 的插值路径(Eq. 2):网络输入 \(X_t\) 的噪声系数随 \(t\to0\) 趋于 0,输入几乎变成确定性的清晰图 \(X_0\);但训练目标 \(\frac{X_t-X_0}{\sigma_t}\)(Eq. 3、展开为 Eq. 4)的噪声系数却趋于 1,目标几乎变成纯噪声 \(Z\)。于是网络被迫"从一个确定性的干净输入去预测随机噪声"——这是一个病态(ill-conditioned)的学习任务。
本文目标:把端点欠拟合拆成两个可分别解决的子问题——幅度失败(方差对不上)和方向失败(方向对不上),并分别修掉。
核心 idea:不再照搬 score-matching,而是从更灵活的随机插值(Stochastic Interpolants)视角重新设计映射,让输入和目标的噪声幅度"对齐"在同一量级,并用均值网络把桥的两端拉近。
方法详解¶
整体框架¶
NADB 的输入是退化图 \(X_1\),输出是复原后的清晰图 \(X_0\),整条管线在 I2SB 的基础上动了两处。第一处在桥的"起点":先用一个冻结的均值网络把退化图 \(X_1\) 预处理成它的后验均值估计 \(\hat{X}_0=\mathbb{E}[X_0\mid X_1]\),用 \(\hat{X}_0\) 取代原来的 \(X_1\) 当作桥的代理端点——这一端比 \(X_1\) 离目标 \(X_0\) 近得多。第二处在桥的"形状":用一个幅度对齐的随机插值重新定义 \(X_0\) 与 \(\hat{X}_0\) 之间的轨迹 \(X_t\) 和回归目标,使输入和目标的噪声幅度在 \(t=0\) 和 \(t=1\) 两端同时归零。复原网络 \(\epsilon(X_t,t;\theta)\) 在这条新插值上训练;推理时反向采样,并在临近端点处切换成一个端点条件化的两段式过程。
%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
A["退化图 X1"] --> B["均值网络<br/>估计后验均值 X̂0<br/>把桥的起点拉近 X0"]
B --> C["幅度对齐随机插值<br/>构造 Xt:噪声幅度两端归零"]
A2["清晰图 X0 + 噪声 Z"] --> C
C --> D["复原网络 εθ<br/>回归幅度对齐目标 Yt"]
D --> E["两段式反向采样<br/>阈值 d≈(1-α)/(2-α) 处切换"]
E --> F["复原结果 X0"]
关键设计¶
1. 均值网络:把桥的起点从"退化图"挪到"后验均值",先修方向失败
幅度对齐(设计 2)能把方差拉回来,但回归目标里始终留着一项确定性的位移 \((X_1-X_0)\)。当退化图 \(X_1\) 和清晰图 \(X_0\) 的分布差距很大时,这一项很难回归准,于是预测方向就会出错。作者的对策是引入一个均值网络 \(M(\cdot;\phi)\),它被单独训练去逼近后验均值 \(\mathbb{E}[X_0\mid X_1]\):
输出记为 \(\hat{X}_0=M(X_1;\phi)\)。它带来两个好处:其一,把要回归的位移从复杂的 \((X_1-X_0)\) 简化成更短的 \((\hat{X}_0-X_0)\),直接缓解方向误差;其二,\(\hat{X}_0\) 形成的分布 \(\hat\rho_0\) 比原始 \(\rho_1\) 离目标 \(\rho_0\) 更近——论文用 Theorem 2 给出 Wasserstein-2 意义下的保证 \(W_2(\rho_0,\hat\rho_0)\le W_2(\rho_0,\rho_1)\)。在更近的一对分布之间建桥,拟合自然更稳。\(\hat{X}_0\) 可能偏平滑(over-smoothed),但它只是桥的端点、不是最终输出,后续复原网络仍会补回细节。训练时 \(M\) 先在每个任务上独立训练到 MSE 收敛、再冻结,喂给它的时间步恒为 0。
2. 幅度对齐的随机插值:让输入和目标的噪声同涨同落,根治方差崩塌
I2SB 病在输入噪声系数趋于 0、目标噪声系数却趋于 1。作者直接重新设计插值路径和训练目标,要求二者的噪声幅度"耦合"、且在两个端点都消失。定义幅度对齐插值(用 \(\hat{X}_0\) 当端点的最终形式):
对应的训练目标取"缩放位移":
其中 \(\alpha\in(0,1)\)、\(k\) 为有限常数,\(Z\sim\mathcal{N}(0,I)\)。这样输入 \(X_t\) 的噪声系数 \(\gamma_X(t)=kt(1-t)\) 与目标 \(Y_t\) 的噪声系数 \(\gamma_Y(t)=kt^{1-\alpha}(1-t)\) 在 \(t=0\) 和 \(t=1\) 处同时归零(Proposition 1),整段时间里二者都保持在同一量级——这正是 I2SB 缺的"幅度对齐"。复原网络用如下目标训练:
和均值网络是互补关系:消融显示只做幅度对齐能修好方差、但方向仍崩;只加均值网络则方差、方向都救不回来——两者缺一不可。
损失函数 / 训练策略¶
两个网络都用相同的 U-Net 结构(用 ImageNet 256×256 上预训练的 ADM checkpoint 初始化)。先把均值网络 \(M_\phi\) 在每个任务上独立训练到收敛并冻结,再用 \(\mathcal{L}_{\text{NADB}}\) 训练复原网络 \(\epsilon_\theta\)(Algorithm 1)。超参 \(\alpha=0.4\)、\(k=0.75\),Adam,学习率 \(1\times10^{-4}\),batch 256,8×A100。推理(Algorithm 2)先一次性算出 \(\hat{X}_0\),反向采样时在时间阈值 \(d\approx\frac{1-\alpha}{2-\alpha}\) 处切换:\(t\ge d\) 用常规转移、\(t<d\) 用端点条件化的转移,以保证临近 \(t\to0\) 时方差项非负。
实验关键数据¶
主实验¶
在 ImageNet 256×256 的三类复原任务上与直接对标的 I2SB 头对头比较(训练预算一致),NFE=10 与 100 两档。NADB 在感知指标(FID/LPIPS)和保真指标上几乎全面占优,去模糊任务提升尤其大:
| 任务 (NFE=10) | 指标 | I2SB | NADB |
|---|---|---|---|
| JPEG QF5 | FID↓ / LPIPS↓ | 8.0 / 0.30 | 6.9 / 0.30 |
| 4× 超分 (Pool) | FID↓ / LPIPS↓ | 7.3 / 0.27 | 5.3 / 0.23 |
| 去模糊 (Uniform) | FID↓ / PSNR↑ / LPIPS↓ | 10.3 / 24.19 / 0.32 | 4.8 / 27.70 / 0.18 |
| 去模糊 (Gaussian) | FID↓ / PSNR↑ / SSIM↑ | 7.4 / 25.42 / 0.71 | 4.2 / 30.03 / 0.87 |
和主流条件扩散模型对比(NFE=100,FID 为主指标):
| 任务 | 最优 baseline | NADB FID↓ |
|---|---|---|
| JPEG QF5 | Palette 8.3 | 4.3 |
| 4× 超分 (Pool) | DDNM/ΠGDM 3.8 | 1.1 |
| 去模糊 (Uniform) | DDNM 3.0 | 3.4 ⚠️ 此项略逊 |
图像翻译(64×64,edges→handbags / edges→shoes)上也优于 I2SB 与强基线 DDBM,且低 NFE 下质量更稳(DDBM 退化明显):
| 任务 | DDBM | I2SB | NADB |
|---|---|---|---|
| Edges→Handbags FID↓ | 114.3 | 116.0 | 111.3 |
| Edges→Shoes FID↓ | 120.1 | 119.5 | 117.8 |
消融实验¶
在退化最重、最能放大端点失败的 JPEG-5 上比较四个模型(NFE=10):
| 配置 | FID↓ | PSNR↑ | 说明 |
|---|---|---|---|
| I2SB | 8.0 | 24.50 | 原始基线,方差+方向双崩 |
| I2SB w. Mean | 8.8 | 24.51 | 只加均值网络,欠拟合没救回来 |
| NADB w/o Mean | 7.0 | 24.36 | 只做幅度对齐,方差好了但方向仍崩 |
| NADB (Full) | 6.9 | 24.45 | 两者齐全才完整解决 |
关键发现¶
- 两个组件分工明确、互不可替代:均值网络专修"方向"(余弦相似度),幅度对齐插值专修"方差"(幅度)。单独任一个都不够——"只加均值网络"甚至 FID 还略升到 8.8,说明底层映射仍病态时光预处理端点没用。
- 端点是胜负手:增益集中在 \(t\to0\) 的最后精修阶段,这也是去模糊任务(PSNR 从 ~24 跳到 ~30)提升最猛的原因——重退化任务对端点拟合最敏感。
- 低 NFE 鲁棒:在图像翻译上 NADB 随 NFE 下降仍保持质量,而 DDBM 显著退化,说明噪声对齐让采样轨迹更"好走"。
亮点与洞察¶
- 把"端点欠拟合"诊断成噪声趋势矛盾:作者没有泛泛说"扩散桥不好训",而是把网络输入与回归目标的噪声系数曲线摆在一起,指出二者在 \(t\to0\) 一个趋 0、一个趋 1 是病根——诊断本身就很有说服力,且把问题干净地拆成"幅度+方向"两个可分别攻克的轴。
- "幅度对齐"是个可迁移的设计原则:让网络输入和回归目标的噪声系数在端点同时归零(\(\gamma_X,\gamma_Y\) 都含 \(t(1-t)\) 因子),这个约束对任何"桥式/插值式"生成框架都适用,不限于复原。
- 均值网络 = 用一个便宜的确定性预测器缩短桥:先回归后验均值把端点拉近、再让扩散桥补细节,这种"粗到细两段接力"思路可迁移到其他配对生成/翻译任务。
局限与展望¶
- 多了一个网络的训练/存储成本:均值网络需为每个任务单独训练并冻结,整体是"双 U-Net",比单网络的 I2SB 重。
- 端点采样需要分段技巧:反向过程要在阈值 \(d\) 处切换才能保证方差非负,\(d\) 与 \(\alpha\) 耦合,超参(\(\alpha=0.4,k=0.75\))的普适性未充分讨论。
- 个别任务未全面领先:去模糊 Uniform 核下 FID(3.4)略逊于 DDNM(3.0),说明在某些核/退化下条件扩散仍有优势。
- ⚠️ 桥的反向采样推导、Theorem 2 证明都放在补充材料,正文只给结论,复现细节需结合代码核对。
相关工作与启发¶
- vs I2SB:I2SB 照搬标准扩散的 score-matching 目标,导致端点处输入/目标噪声趋势矛盾、欠拟合;NADB 改从随机插值视角重设映射(幅度对齐)+ 均值网络拉近端点,本质是"让训练目标和插值路径耦合",这是本文反复强调的核心价值。
- vs 条件扩散(DDRM/DDNM/ΠGDM/Palette):它们把低质图映射到纯噪声再重建、路径绕远,且常受 perception-distortion trade-off 影响输出偏糊;扩散桥直接在退化↔清晰两个流形间建轨迹,NADB 在 FID 上整体更优。
- vs 其他扩散桥(DDBM/I3SB/RDBM/GOUB):多数沿着标准扩散的改进路径走(h-transform、加速采样等),NADB 转而从 Stochastic Interpolants 重新构造桥,直指端点失败这一被忽视的结构性缺陷。
评分¶
- 新颖性: ⭐⭐⭐⭐ 把"端点欠拟合"诊断为噪声趋势矛盾并给出幅度对齐+均值网络的针对性修法,视角新且干净。
- 实验充分度: ⭐⭐⭐⭐ 覆盖三类复原 + 图像翻译、多 NFE,消融把两组件分工讲透;个别核下未全面领先。
- 写作质量: ⭐⭐⭐⭐ 问题—诊断—解法逻辑闭环,公式清晰;采样/证明放补充材料略影响自洽。
- 价值: ⭐⭐⭐⭐ "幅度对齐"原则可迁移到广义桥式生成,对扩散桥社区有方法论意义。