Structured Diffusion Bridges: Inductive Bias for Denoising Diffusion Bridges¶

会议: ICML 2026
arXiv: 2605.02973
代码: 无
领域: 扩散模型 / 模态翻译 / 图像超分 / 无成对学习
关键词: Latent diffusion bridge、Marginal matching、Cycle consistency、Winner-takes-all、半成对训练

一句话总结¶

SDB 把模态翻译重写为"在所有满足边缘约束的耦合集合 \(\mathcal{P}\) 中挑一个"，在 LDDBM 之上叠加边缘匹配（WTA + 容量约束）+ 端点级 + 轨迹级双层 cycle consistency，把成对监督仅作为可选启发式之一，从而在零成对、半成对、全成对三种监督预算下都能跑，并且全成对时也比 paired-only 基线更好（FFHQ→CelebA-HQ PSNR 从 25.6 提到 25.9）。

研究背景与动机¶

领域现状：Diffusion bridge（DDBM、LDDBM 等）已成为分布间翻译的强大范式，LDDBM 通过共享潜空间解决端点维度不一致问题，在图像超分、shape↔voxel 等任务上达到 SOTA。但几乎所有 bridge 方法都要求全成对监督——训练样本必须是 \((x,y)\) 配对的 LR-HR、多视角图-体素等。

现有痛点：成对数据隐式承担了三种独立约束——(i) 语义对应（源→目标的正确映射）、(ii) 分布有效性（输出落在目标边缘上）、(iii) 几何一致性（可逆性）。让一个 paired loss 同时承担三件事是次优的：哪怕数据够多，模型也可能最小化重建误差但偏离真实流形。更糟糕的是，很多场景成对数据稀缺甚至不存在（医学影像、艺术风格转换），让 bridge 方法寸步难行。

核心矛盾：仅给定边缘 \(p_\mathcal{X}, p_\mathcal{Y}\) 时，可行联合分布集合 \(\mathcal{P}=\{p(x,y)|p(x)=p_\mathcal{X},p(y)=p_\mathcal{Y}\}\) 有无数个，边缘信息本身不能唯一确定 coupling；现有方法用"成对样本"做 Doob h-transform 的隐式约束，相当于用数据穷举去选一个 \(p\)，既低效又脆弱。

本文目标：(i) 把模态翻译显式重述为"在 \(\mathcal{P}\) 中选耦合"的几何问题；(ii) 引入可组合的结构性约束（边缘匹配 + cycle consistency），让 paired loss 退化为众多启发式之一；(iii) 在 \(\rho\in\{0,0.5,1\}\) 三种成对比例下保持优雅退化；(iv) 即使全成对也能涨点。

切入角度：经典 unpaired translation（CycleGAN、CUT）已用过 cycle consistency；Schrödinger bridge 路线（UNSB）则用对抗 + 熵正则。作者把这两条经验移植到 latent diffusion bridge 框架——既享受 LDDBM 维度无关的便利，又用扩散过程暴露的中间状态 \(z_t\) 让 cycle consistency 能在整条轨迹而不只是端点上做约束。

核心 idea：把"训练 diffusion bridge"重构为多个独立启发式的加权组合：边缘匹配（确保终态落在目标 marginal）+ 端点级 cycle（\(y\to x\to\hat y\approx y\)）+ 轨迹级 cycle（前向轨迹与反向轨迹在 \(t\) 与 \(T-t\) 时刻潜状态一致）+ 可选 paired 监督。

方法详解¶

整体框架¶

沿用 LDDBM 的双向扩散桥架构：模态特定编码器 \(E_\mathcal{X}, E_\mathcal{Y}\) 把 \(x\in\mathcal{X}, y\in\mathcal{Y}\) 映到共享 latent，桥在 latent 学，前向 \(\mathcal{X}\to\mathcal{Y}\) 的 score 为 \(s_{\mathcal{X}\to\mathcal{Y}}(z,t)\)、反向为 \(s_{\mathcal{Y}\to\mathcal{X}}(z,t)\)。每个训练 step 同时优化四个目标的加权和（公式 10）：\(\mathcal{L}_{total}=\mathcal{L}_{DSM}+\lambda_{end}\mathcal{L}_{cycle}^{end}+\lambda_{traj}\mathcal{L}_{cycle}^{traj}+\lambda_{pair}\mathbf{1}_{(x,y)\in\mathcal{D}_{pair}}\mathcal{L}_{pair}\)，全部 \(\lambda=1\)。当 \(\rho>0\) 时第四项在该子集生效，\(\rho=0\) 时纯启发式跑得起来。

关键设计¶

端点边缘匹配 + WTA 分配 (Marginal Matching with Winner-Takes-All):
- 功能：在无 / 半成对设置下保证 bridge 终态落在目标边缘 \(p_\mathcal{X}\) 上，同时缓解"任意配对都能优化 DSM"的退化耦合问题。
- 核心思路：从两边独立采样 \(x\sim p_\mathcal{X}, y\sim p_\mathcal{Y}\)，对每个 target \(z_0=E_\mathcal{X}(x)\) 抽 \(K\) 个条件候选 \(\{y^{(k)}\}_{k=1}^K\sim p_\mathcal{Y}\)，算 DSM 损失 \(\mathcal{L}_{DSM}=\mathbb{E}\|s_\theta(z_t,t|y)-\nabla_{z_t}\log q(z_t|z_0)\|_2^2\)，只对 \(k^\star=\arg\min_k \mathcal{L}_{DSM}(z_0,y^{(k)})\) 反传——选当前 bridge 最能解释 target 的条件。为防止"少数低信息量 \(y\) 被反复挑中"造成 condition dominance，加入容量约束 \(C_y=2\)：每个候选 \(y^{(i)}\) 一个 epoch 内最多被选 2 次。
- 设计动机：纯随机配对的 DSM 在 \(\rho=0\) 下能学到任意混合的耦合（mode mixing），WTA 是经典优化启发式把"局部最相容"的候选挑出来缩小耦合不确定性；容量约束又防止 WTA 退化成"少数 \(y\) 解释所有 \(x\)"。注意作者明确说 WTA 不是 identifiability 保证，只是减小耦合歧义的优化技巧。
双层 Cycle Consistency (端点级 + 轨迹级):
- 功能：约束 bridge 在端点和整条轨迹上都近似可逆，惩罚不可逆的信息丢失模式（mode dropping、source/target 任意混合）。
- 核心思路：设前向 stochastic flow \(\Phi_{\mathcal{X}\to\mathcal{Y}}\)，反向 \(\Phi_{\mathcal{Y}\to\mathcal{X}}\)。端点级 \(\mathcal{L}_{cycle}^{end}=\mathbb{E}\|\hat z_0-z_0\|_2^2\) 其中 \(\hat z_0=\Phi_{\mathcal{Y}\to\mathcal{X}}\circ\Phi_{\mathcal{X}\to\mathcal{Y}}(z_0)\)；轨迹级在前向轨迹 \(\{z_t^{X\to Y}\}\) 与反向轨迹 \(\{z_{T-t}^{Y\to X}\}\) 配对时刻上求 \(\mathcal{L}_{cycle}^{traj}=\mathbb{E}[w(t)\|z_t^{X\to Y}-z_{T-t}^{Y\to X}\|_2^2]\)，权重 \(w(t)=1/(\sigma_t^2+\epsilon)\) 对尺度变化做归一化。
- 设计动机：CycleGAN 的端点 cycle 是确定性映射，扩散桥本身随机所以端点 cycle 不足；轨迹级把约束扩展到整条 stochastic path，强制"前后向走的是同一条隧道"，等价于一种 trajectory-level identifiability 正则。两层组合使可逆性既约束粗粒度（终点）又约束细粒度（路径），实证显示 trajectory 项把 unpaired 内容准确率从 16% 拉到 87%。
统一目标 = 启发式可组合性 + Paired 退化为可选项:
- 功能：把成对监督从"必需品"降级为四个并列启发式之一，使同一份代码可在 \(\rho\in[0,1]\) 任意位置训练且优雅退化。
- 核心思路：\(\mathcal{L}_{total}=\mathcal{L}_{DSM}+\lambda_{end}\mathcal{L}_{cycle}^{end}+\lambda_{traj}\mathcal{L}_{cycle}^{traj}+\lambda_{pair}\mathbf{1}_{(x,y)\in\mathcal{D}_{pair}}\mathcal{L}_{pair}\)，paired loss 用 indicator 仅对成对子集激活；所有 \(\lambda=1\)，未做精细调权（作者实验未观察到调权显著收益）。这种"加性组合 + indicator gating"等价于在 \(\mathcal{P}\) 中加多个软约束面，逐步把可行集压缩到偏好 reversible、condition-preserving 的耦合。
- 设计动机：把训练目标几何化为"启发式的并集"让消融变得清晰——可单独打开每一项看其作用（论文 Table 1 给了完整 ablation 矩阵）；同时 paired 项的 indicator 让 dataloader 不必严格区分成对/不成对样本，工程上极简单。

损失函数 / 训练策略¶

详见上方第三个关键设计；具体配置 \(K\) 个 WTA 候选、容量 \(C_y=2\)，所有 \(\lambda=1\)；双向桥同时训练（cycle 项必需）；半成对时 paired 子集大小由 \(\rho\) 决定，总端点样本量固定不变（仅改变标签可用比例）。

实验关键数据¶

主实验¶

FFHQ→CelebA-HQ Super-Resolution（Zero-shot SR，\(\rho\) 扫描）：

方法	\(\rho=0\)	\(\rho=0.5\)	\(\rho=1.0\)
SDB PSNR↑	19.0 ± 0.6	25.2 ± 0.3	25.9 ± 0.3
DiWa PSNR	n/a	22.6 ± 0.2	23.3
LDDBM PSNR	n/a	24.9 ± 0.3	25.6 ± 0.4
SDB SSIM↑	0.54	0.68	0.69
SDB LPIPS↓	0.37	0.32	0.31

合成 benchmark 上结构约束对耦合质量的影响（\(\rho=0\) 切片）：

方法	SWD ↓	MMD² ↓	Content Acc. ↑	Cycle MSE ↓
Marginal matching only	0.02021	\(-1.03\times10^{-4}\)	0.162	0.972
+ Endpoint cycle	0.01891	\(-1.69\times10^{-4}\)	0.662	0.831
+ Trajectory cycle	0.01968	\(-1.11\times10^{-4}\)	0.868	0.680

消融实验¶

配置 (\(\rho\))	关键变化	结论
MM only (\(\rho=0\))	Content Acc 0.162	边缘匹配能对齐分布但不学耦合
+ Endpoint cycle	Acc 0.662	端点可逆性显著恢复语义对应
+ Trajectory cycle	Acc 0.868	轨迹约束进一步压缩耦合歧义
Paired-only (\(\rho=0.5\))	Acc 0.641	半成对 paired loss 不如 SDB 启发式组合
SDB Semi-paired (\(\rho=0.5\))	Acc 0.955	启发式 + paired 补充协同最强
Paired-only (\(\rho=1.0\))	Acc 0.887	全成对时纯 paired 也不及结构约束加持
SDB (\(\rho=1.0\))	Acc 0.965	全成对 + 结构约束同时涨点

关键发现¶

半成对 SDB 在 \(\rho=0.5\) 已经达到 Paired-only (\(\rho=1.0\)) 的水平甚至超过——说明结构约束确实把"成对数据所承担的对应/有效/可逆三件事"中的两件接管过去。
即使 \(\rho=1\) 全成对，SDB 仍优于纯 paired baseline（PSNR 25.9 vs 25.6, Content Acc 0.965 vs 0.887），证实结构约束是互补而非替代。
\(\rho=0\) 时纯启发式 PSNR 19.0 仍然有意义（超过随机基线），首次让 LDDBM 框架在零成对设定下可训。
Multi-view→3D Voxel（ShapeNet）实验中，SDB 在 \(\rho\in\{0.5,1.0\}\) 全面胜过 EDM 与 LDDBM，且在 \(\rho=0\) 时仍可训（baseline 直接不可用）。

亮点与洞察¶

把训练目标重塑为"启发式组合"的视角：以前 bridge 方法都把目标当作整体优化，作者把它拆成 4 个可独立增删的几何约束，让 ablation 真正"几何上可解释"——每个被关掉的项对应放松一类可逆性。
轨迹级 cycle consistency：在 stochastic 扩散框架里做轨迹一致性，比 CycleGAN 的端点 cycle 严格得多，等价于约束整条 SDE 路径的对称性，是把 OT/Schrödinger bridge 的可逆性直觉嫁接到 DDBM 的精彩一步。
WTA + 容量约束：是"无对应监督下选耦合"的小巧实现，比对抗训练或 InfoNCE 都简单，几乎是零成本插件，但实证带来巨大 Content Acc 涨幅。
优雅退化：在三种成对预算下同一份目标都跑得通，让 SDB 成为现实场景中真正可用的统一框架——许多医学/科学影像就是部分成对，少有 0/1 极端。

局限与展望¶

全部 \(\lambda=1\) 看似优雅，但在更困难的高分辨率/3D 任务上可能需要调权；论文未给出系统调权研究。
WTA 候选数 \(K\) 和容量 \(C_y=2\) 是经验值，对计算预算敏感；自适应 \(K\) 是自然延伸。
Cycle 一致性需要双向桥同步训练，参数量与训练成本翻倍。
评测局限在图像超分、3D voxel 翻译等成熟基准；对真正"语义未对齐"的开放域翻译（如 sketch↔photo 跨域）仍待验证。
与 OT-style 工作的联系还可深挖，例如把轨迹 cycle 与 Schrödinger bridge 的 marginals + cost 结构对齐做理论化。

评分¶

新颖性: ⭐⭐⭐⭐ 把 cycle consistency 推广到 stochastic 扩散轨迹是优雅创新，整体框架是漂亮的"组合"
实验充分度: ⭐⭐⭐⭐ 合成 + 真实 SR + 3D voxel 三类任务 + 三种 \(\rho\) + 完整 ablation 矩阵
写作质量: ⭐⭐⭐⭐⭐ 把"翻译 = 在 \(\mathcal{P}\) 中挑耦合"这一几何 framing 写得极清晰
价值: ⭐⭐⭐⭐ 解锁 LDDBM 的零/半成对应用场景，对成对数据稀缺领域价值显著