跳转至

Structured Diffusion Bridges: Inductive Bias for Denoising Diffusion Bridges

会议: ICML 2026
arXiv: 2605.02973
代码: 无
领域: 扩散模型 / 模态翻译 / 图像超分 / 无成对学习
关键词: Latent diffusion bridge、Marginal matching、Cycle consistency、Winner-takes-all、半成对训练

一句话总结

SDB 把模态翻译重写为"在所有满足边缘约束的耦合集合 \(\mathcal{P}\) 中挑一个",在 LDDBM 之上叠加边缘匹配(WTA + 容量约束)+ 端点级 + 轨迹级双层 cycle consistency,把成对监督仅作为可选启发式之一,从而在零成对、半成对、全成对三种监督预算下都能跑,并且全成对时也比 paired-only 基线更好(FFHQ→CelebA-HQ PSNR 从 25.6 提到 25.9)。

研究背景与动机

领域现状:Diffusion bridge(DDBM、LDDBM 等)已成为分布间翻译的强大范式,LDDBM 通过共享潜空间解决端点维度不一致问题,在图像超分、shape↔voxel 等任务上达到 SOTA。但几乎所有 bridge 方法都要求全成对监督——训练样本必须是 \((x,y)\) 配对的 LR-HR、多视角图-体素等。

现有痛点:成对数据隐式承担了三种独立约束——(i) 语义对应(源→目标的正确映射)、(ii) 分布有效性(输出落在目标边缘上)、(iii) 几何一致性(可逆性)。让一个 paired loss 同时承担三件事是次优的:哪怕数据够多,模型也可能最小化重建误差但偏离真实流形。更糟糕的是,很多场景成对数据稀缺甚至不存在(医学影像、艺术风格转换),让 bridge 方法寸步难行。

核心矛盾:仅给定边缘 \(p_\mathcal{X}, p_\mathcal{Y}\) 时,可行联合分布集合 \(\mathcal{P}=\{p(x,y)|p(x)=p_\mathcal{X},p(y)=p_\mathcal{Y}\}\)无数个,边缘信息本身不能唯一确定 coupling;现有方法用"成对样本"做 Doob h-transform 的隐式约束,相当于用数据穷举去选一个 \(p\),既低效又脆弱。

本文目标:(i) 把模态翻译显式重述为"在 \(\mathcal{P}\) 中选耦合"的几何问题;(ii) 引入可组合的结构性约束(边缘匹配 + cycle consistency),让 paired loss 退化为众多启发式之一;(iii) 在 \(\rho\in\{0,0.5,1\}\) 三种成对比例下保持优雅退化;(iv) 即使全成对也能涨点。

切入角度:经典 unpaired translation(CycleGAN、CUT)已用过 cycle consistency;Schrödinger bridge 路线(UNSB)则用对抗 + 熵正则。作者把这两条经验移植到 latent diffusion bridge 框架——既享受 LDDBM 维度无关的便利,又用扩散过程暴露的中间状态 \(z_t\) 让 cycle consistency 能在整条轨迹而不只是端点上做约束。

核心 idea:把"训练 diffusion bridge"重构为多个独立启发式的加权组合:边缘匹配(确保终态落在目标 marginal)+ 端点级 cycle(\(y\to x\to\hat y\approx y\))+ 轨迹级 cycle(前向轨迹与反向轨迹在 \(t\)\(T-t\) 时刻潜状态一致)+ 可选 paired 监督。

方法详解

整体框架

沿用 LDDBM 的双向扩散桥架构:模态特定编码器 \(E_\mathcal{X}, E_\mathcal{Y}\)\(x\in\mathcal{X}, y\in\mathcal{Y}\) 映到共享 latent,桥在 latent 学,前向 \(\mathcal{X}\to\mathcal{Y}\) 的 score 为 \(s_{\mathcal{X}\to\mathcal{Y}}(z,t)\)、反向为 \(s_{\mathcal{Y}\to\mathcal{X}}(z,t)\)。每个训练 step 同时优化四个目标的加权和(公式 10):\(\mathcal{L}_{total}=\mathcal{L}_{DSM}+\lambda_{end}\mathcal{L}_{cycle}^{end}+\lambda_{traj}\mathcal{L}_{cycle}^{traj}+\lambda_{pair}\mathbf{1}_{(x,y)\in\mathcal{D}_{pair}}\mathcal{L}_{pair}\),全部 \(\lambda=1\)。当 \(\rho>0\) 时第四项在该子集生效,\(\rho=0\) 时纯启发式跑得起来。

关键设计

  1. 端点边缘匹配 + WTA 分配 (Marginal Matching with Winner-Takes-All):

    • 功能:在无 / 半成对设置下保证 bridge 终态落在目标边缘 \(p_\mathcal{X}\) 上,同时缓解"任意配对都能优化 DSM"的退化耦合问题。
    • 核心思路:从两边独立采样 \(x\sim p_\mathcal{X}, y\sim p_\mathcal{Y}\),对每个 target \(z_0=E_\mathcal{X}(x)\)\(K\) 个条件候选 \(\{y^{(k)}\}_{k=1}^K\sim p_\mathcal{Y}\),算 DSM 损失 \(\mathcal{L}_{DSM}=\mathbb{E}\|s_\theta(z_t,t|y)-\nabla_{z_t}\log q(z_t|z_0)\|_2^2\),只对 \(k^\star=\arg\min_k \mathcal{L}_{DSM}(z_0,y^{(k)})\) 反传——选当前 bridge 最能解释 target 的条件。为防止"少数低信息量 \(y\) 被反复挑中"造成 condition dominance,加入容量约束 \(C_y=2\):每个候选 \(y^{(i)}\) 一个 epoch 内最多被选 2 次。
    • 设计动机:纯随机配对的 DSM 在 \(\rho=0\) 下能学到任意混合的耦合(mode mixing),WTA 是经典优化启发式把"局部最相容"的候选挑出来缩小耦合不确定性;容量约束又防止 WTA 退化成"少数 \(y\) 解释所有 \(x\)"。注意作者明确说 WTA 不是 identifiability 保证,只是减小耦合歧义的优化技巧。
  2. 双层 Cycle Consistency (端点级 + 轨迹级):

    • 功能:约束 bridge 在端点和整条轨迹上都近似可逆,惩罚不可逆的信息丢失模式(mode dropping、source/target 任意混合)。
    • 核心思路:设前向 stochastic flow \(\Phi_{\mathcal{X}\to\mathcal{Y}}\),反向 \(\Phi_{\mathcal{Y}\to\mathcal{X}}\)。端点级 \(\mathcal{L}_{cycle}^{end}=\mathbb{E}\|\hat z_0-z_0\|_2^2\) 其中 \(\hat z_0=\Phi_{\mathcal{Y}\to\mathcal{X}}\circ\Phi_{\mathcal{X}\to\mathcal{Y}}(z_0)\);轨迹级在前向轨迹 \(\{z_t^{X\to Y}\}\) 与反向轨迹 \(\{z_{T-t}^{Y\to X}\}\) 配对时刻上求 \(\mathcal{L}_{cycle}^{traj}=\mathbb{E}[w(t)\|z_t^{X\to Y}-z_{T-t}^{Y\to X}\|_2^2]\),权重 \(w(t)=1/(\sigma_t^2+\epsilon)\) 对尺度变化做归一化。
    • 设计动机:CycleGAN 的端点 cycle 是确定性映射,扩散桥本身随机所以端点 cycle 不足;轨迹级把约束扩展到整条 stochastic path,强制"前后向走的是同一条隧道",等价于一种 trajectory-level identifiability 正则。两层组合使可逆性既约束粗粒度(终点)又约束细粒度(路径),实证显示 trajectory 项把 unpaired 内容准确率从 16% 拉到 87%。
  3. 统一目标 = 启发式可组合性 + Paired 退化为可选项:

    • 功能:把成对监督从"必需品"降级为四个并列启发式之一,使同一份代码可在 \(\rho\in[0,1]\) 任意位置训练且优雅退化。
    • 核心思路:\(\mathcal{L}_{total}=\mathcal{L}_{DSM}+\lambda_{end}\mathcal{L}_{cycle}^{end}+\lambda_{traj}\mathcal{L}_{cycle}^{traj}+\lambda_{pair}\mathbf{1}_{(x,y)\in\mathcal{D}_{pair}}\mathcal{L}_{pair}\),paired loss 用 indicator 仅对成对子集激活;所有 \(\lambda=1\),未做精细调权(作者实验未观察到调权显著收益)。这种"加性组合 + indicator gating"等价于在 \(\mathcal{P}\) 中加多个软约束面,逐步把可行集压缩到偏好 reversible、condition-preserving 的耦合。
    • 设计动机:把训练目标几何化为"启发式的并集"让消融变得清晰——可单独打开每一项看其作用(论文 Table 1 给了完整 ablation 矩阵);同时 paired 项的 indicator 让 dataloader 不必严格区分成对/不成对样本,工程上极简单。

损失函数 / 训练策略

详见上方第三个关键设计;具体配置 \(K\) 个 WTA 候选、容量 \(C_y=2\),所有 \(\lambda=1\);双向桥同时训练(cycle 项必需);半成对时 paired 子集大小由 \(\rho\) 决定,总端点样本量固定不变(仅改变标签可用比例)。

实验关键数据

主实验

FFHQ→CelebA-HQ Super-Resolution(Zero-shot SR,\(\rho\) 扫描):

方法 \(\rho=0\) \(\rho=0.5\) \(\rho=1.0\)
SDB PSNR↑ 19.0 ± 0.6 25.2 ± 0.3 25.9 ± 0.3
DiWa PSNR n/a 22.6 ± 0.2 23.3
LDDBM PSNR n/a 24.9 ± 0.3 25.6 ± 0.4
SDB SSIM↑ 0.54 0.68 0.69
SDB LPIPS↓ 0.37 0.32 0.31

合成 benchmark 上结构约束对耦合质量的影响(\(\rho=0\) 切片):

方法 SWD ↓ MMD² ↓ Content Acc. ↑ Cycle MSE ↓
Marginal matching only 0.02021 \(-1.03\times10^{-4}\) 0.162 0.972
+ Endpoint cycle 0.01891 \(-1.69\times10^{-4}\) 0.662 0.831
+ Trajectory cycle 0.01968 \(-1.11\times10^{-4}\) 0.868 0.680

消融实验

配置 (\(\rho\)) 关键变化 结论
MM only (\(\rho=0\)) Content Acc 0.162 边缘匹配能对齐分布但不学耦合
+ Endpoint cycle Acc 0.662 端点可逆性显著恢复语义对应
+ Trajectory cycle Acc 0.868 轨迹约束进一步压缩耦合歧义
Paired-only (\(\rho=0.5\)) Acc 0.641 半成对 paired loss 不如 SDB 启发式组合
SDB Semi-paired (\(\rho=0.5\)) Acc 0.955 启发式 + paired 补充协同最强
Paired-only (\(\rho=1.0\)) Acc 0.887 全成对时纯 paired 也不及结构约束加持
SDB (\(\rho=1.0\)) Acc 0.965 全成对 + 结构约束同时涨点

关键发现

  • 半成对 SDB 在 \(\rho=0.5\) 已经达到 Paired-only (\(\rho=1.0\)) 的水平甚至超过——说明结构约束确实把"成对数据所承担的对应/有效/可逆三件事"中的两件接管过去。
  • 即使 \(\rho=1\) 全成对,SDB 仍优于纯 paired baseline(PSNR 25.9 vs 25.6, Content Acc 0.965 vs 0.887),证实结构约束是互补而非替代。
  • \(\rho=0\) 时纯启发式 PSNR 19.0 仍然有意义(超过随机基线),首次让 LDDBM 框架在零成对设定下可训。
  • Multi-view→3D Voxel(ShapeNet)实验中,SDB 在 \(\rho\in\{0.5,1.0\}\) 全面胜过 EDM 与 LDDBM,且在 \(\rho=0\) 时仍可训(baseline 直接不可用)。

亮点与洞察

  • 把训练目标重塑为"启发式组合"的视角:以前 bridge 方法都把目标当作整体优化,作者把它拆成 4 个可独立增删的几何约束,让 ablation 真正"几何上可解释"——每个被关掉的项对应放松一类可逆性。
  • 轨迹级 cycle consistency:在 stochastic 扩散框架里做轨迹一致性,比 CycleGAN 的端点 cycle 严格得多,等价于约束整条 SDE 路径的对称性,是把 OT/Schrödinger bridge 的可逆性直觉嫁接到 DDBM 的精彩一步。
  • WTA + 容量约束:是"无对应监督下选耦合"的小巧实现,比对抗训练或 InfoNCE 都简单,几乎是零成本插件,但实证带来巨大 Content Acc 涨幅。
  • 优雅退化:在三种成对预算下同一份目标都跑得通,让 SDB 成为现实场景中真正可用的统一框架——许多医学/科学影像就是部分成对,少有 0/1 极端。

局限与展望

  • 全部 \(\lambda=1\) 看似优雅,但在更困难的高分辨率/3D 任务上可能需要调权;论文未给出系统调权研究。
  • WTA 候选数 \(K\) 和容量 \(C_y=2\) 是经验值,对计算预算敏感;自适应 \(K\) 是自然延伸。
  • Cycle 一致性需要双向桥同步训练,参数量与训练成本翻倍。
  • 评测局限在图像超分、3D voxel 翻译等成熟基准;对真正"语义未对齐"的开放域翻译(如 sketch↔photo 跨域)仍待验证。
  • 与 OT-style 工作的联系还可深挖,例如把轨迹 cycle 与 Schrödinger bridge 的 marginals + cost 结构对齐做理论化。

相关工作与启发

  • vs LDDBM (Berman 2026):直接基座;SDB 在其上加结构约束并把 paired 降级为可选项。
  • vs DDBM (Zhou 2024):用 Doob h-transform 隐式靠成对数据约束 bridge,SDB 把这种约束显式化 + 可分解
  • vs CycleGAN / CUT:他们用确定性端点 cycle;SDB 把 cycle 推广到 stochastic 扩散轨迹。
  • vs UNSB (Schrödinger bridge 对抗版):UNSB 用 GAN 训,常见 mode collapse;SDB 走 score matching + cycle,训练更稳。
  • vs LADB:LADB 通过复用预训练 source latent diffusion 减少成对需求,SDB 用一阶启发式直接在 bridge 里加约束,路径正交且可组合。

评分

  • 新颖性: ⭐⭐⭐⭐ 把 cycle consistency 推广到 stochastic 扩散轨迹是优雅创新,整体框架是漂亮的"组合"
  • 实验充分度: ⭐⭐⭐⭐ 合成 + 真实 SR + 3D voxel 三类任务 + 三种 \(\rho\) + 完整 ablation 矩阵
  • 写作质量: ⭐⭐⭐⭐⭐ 把"翻译 = 在 \(\mathcal{P}\) 中挑耦合"这一几何 framing 写得极清晰
  • 价值: ⭐⭐⭐⭐ 解锁 LDDBM 的零/半成对应用场景,对成对数据稀缺领域价值显著