Bi-Bridge: Bidirectional Diffusion Bridges for Low-Light Image Enhancement¶
会议: CVPR 2026
论文: CVF Open Access
代码: 未公开
领域: 图像恢复 / 扩散模型
关键词: 低光增强, 扩散桥, 双向一致性, DDBM, 内容保真
一句话总结¶
把"低光→正常光"的增强和"正常光→低光"的退化塞进同一个对称扩散桥里、用一张共享 U-Net 同时学,靠这个双向一致性约束当隐式正则,让低光增强在保真度(PSNR/LPIPS)上显著超过现有 SOTA。
研究背景与动机¶
领域现状:低光图像增强(LLIE)本质是一个病态逆问题——暗区里纹理和颜色信息严重丢失,一张低光图可以对应多张"看起来都对"的正常光图(one-to-many)。主流做法分两类:① 回归式(CNN/Transformer,如 SNR-Aware、Retinexformer、CIDNet)学一个一对一映射;② 生成式扩散模型("Noise-to-Image",如 GSAD、ReDDiT)从随机噪声出发建模复原分布。
现有痛点:回归式方法面对 one-to-many 只能输出所有可能解的"平均预测",结果纹理过度平滑、高频细节丢失;"Noise-to-Image"扩散从一个无信息的随机先验起步,要跨越巨大的 domain gap 才能回到源图的结构,往往保不住原图的内容与结构(content fidelity 差、颜色漂移)。即便是近年的"Image-to-Image"扩散桥(DDBM),它在数据域之间直接搭桥、缩小了 domain gap,但只学了单向——只盯着复原过程。
核心矛盾:现有 LLIE 范式几乎都是非对称、单向的,只建模"增强"这一个方向,丢掉了"光照变化天然是对称可逆的"这一物理先验。增强(变亮)和退化(变暗)共享同一套内容结构,单向训练学不到这种不变性,导致保真度上不去。
本文目标:能不能把退化过程和增强过程一起学,用这个对称性当约束来提升复原保真度?
切入角度:作者抓住 DDBM 一个被忽视的数学性质——它那个可解析的高斯桥分布,其均值关于两个端点 \(x_0\)、\(x_T\) 是结构对称的。既然增强和退化只是端点角色互换,那就完全可以用同一个网络、同一套桥公式覆盖两个方向。
核心 idea:在 DDBM 之上引入双向一致性约束——训练时随机互换起点/终点角色,强迫一张共享 U-Net 学一个"与方向无关"的统一映射,让网络被迫把"内容"和"光照"解耦,从而当隐式正则大幅提升保真度。
方法详解¶
整体框架¶
Bi-Bridge 建立在 DDBM(Denoising Diffusion Bridge Model)之上。DDBM 不像标准扩散那样把图像腐蚀成纯噪声,而是用 Doob's h-transform 在两个数据分布之间(正常光 \(x_0\) ↔ 低光 \(x_T\))直接搭一条随机桥:前向 SDE 带一个引导项 \(h(\cdot)=\nabla_{x_t}\log p(x_T\mid x_t)\) 保证轨迹精确落到指定端点;学习目标是去逼近反向过程的 score(通过 Denoising Bridge Score Matching)。
Bi-Bridge 的改动只在一处、却很关键:不再为增强和退化各训一个模型,而是用一张共享 U-Net \(D_\theta\) 同时承担两个方向。训练时对每个配对 \((x_A,x_B)\) 随机采一个二值方向指示 \(m\),动态决定谁当起点 \(x_0\)、谁当终点 \(x_T\);网络只干一件事——在给定终点的条件下预测正确的起点。推理时则通过选择不同的条件端点 \(x_T\),让同一条反向路径既能做增强(\(x_A\to x_B\))也能做退化(\(x_B\to x_A\))。
%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
A["配对 (xA, xB)<br/>正常光 / 低光"] --> B["对称桥构造 + 方向随机互换<br/>采样 m 指派 (x0, xT)"]
B --> C["前向桥 SDE 采样 xt<br/>解析高斯桥 q(xt|x0,xT)"]
C --> D["统一端点预测训练<br/>共享 U-Net Dθ 预测 x̂0"]
D -->|MSE + 感知损失| E["训练目标 L = LBi + λp·Lper"]
D -.推理.-> F["双向推理<br/>选端点 xT + 预测-校正采样器"]
F -->|xT=xA| G["增强:低光→正常光"]
F -->|xT=xB| H["退化:正常光→低光"]
关键设计¶
1. 对称桥构造 + 方向随机互换:用一张网络覆盖增强与退化两个方向
单向 DDBM 要做双向就得训两个模型,既翻倍算力,更糟的是网络永远学不到"光照变化是对称的"这一内在关系,保真度被限死。作者发现 DDBM 的可解析高斯桥 \(q(x_t\mid x_0,x_T)=\mathcal{N}(x_t;\hat\mu_t,\hat\sigma_t^2 I)\),其均值
对两个端点 \((x_0,x_T)\) 呈显式对称耦合(\(\mathrm{SNR}_t=\alpha_t^2/\sigma_t^2\) 是信噪比)。既然公式本身对端点对称,那就可以让端点角色随机互换:对每个配对 \((x_A,x_B)\) 采二值变量 \(m\),\(m=0\) 时 \((x_0,x_T)=(x_A,x_B)\),\(m=1\) 时 \((x_0,x_T)=(x_B,x_A)\)。同一张网络一会儿学"从低光端点回到正常光起点"、一会儿学"从正常光端点回到低光起点"——这就是双向一致性约束的来源,它逼网络把会变的"光照"和不变的"内容"分开,本质是个强力隐式正则。
2. 统一端点预测训练:用最朴素的 MSE 实现稳定的双向 score matching
直接优化 score-matching 目标虽然理论成立,但训练不稳。作者沿用 pred-x 参数化:让统一网络直接预测起点 \(\hat x_0=D_\theta(x_t,x_T,t)\),再把这个预测代回去近似那个本来不可解的 score:
也就是把均值公式里的真值 \(x_0\) 换成网络预测 \(\hat x_0\)。这样一来,训练就退化成一个极简的 MSE 回归目标:
其中 \(x_t\sim q(x_t\mid x_0,x_T)\)。最小化这一个目标,就等价于在两个方向上同时做稳定的 score matching——共享预测器被迫"保住不变内容、灵活建模可变光照"。妙在整个双向能力没有引入任何新结构,只是改了训练时端点的指派方式。
3. 双向推理 + 预测-校正混合采样器:同一模型按需做增强或退化
训练好后,\(D_\theta\) 可无缝用于两个任务,区别只在推理时选哪个端点当条件:增强时设 \(x_T=x_A\)(低光),从 \(t=T\) 反向积分反向 SDE 生成正常光 \(x_B\);退化时设 \(x_T=x_B\) 生成低光 \(x_A\)。每一步要近似 SDE 的漂移项,由解析 h-transform 与 score \(s_\theta\) 组合,而 score 又由当前预测 \(\hat x_0\) 经上面的重参数化实时导出。为兼顾保真与采样效率,作者用一个高阶混合的预测-校正采样器:先走一步随机步(Euler-Maruyama)注入有益噪声以生成细粒度纹理,再走一步确定性校正步(Heun)做更稳更准的更新——在"随机性带来细节"和"ODE 求解的稳定性"之间取平衡。这也是 Bi-Bridge 仅用 10 NFE 就能逼平别的桥模型 80 NFE 的原因之一。
损失函数 / 训练策略¶
总目标在桥损失外再加一个辅助感知损失 \(L_{per}\),惩罚预测 \(\hat x_0\) 与真值 \(x_0\) 在预训练网络深层特征上的 MSE:\(L_{per}=\lVert\phi(\hat x_0)-\phi(x_0)\rVert_2^2\)。最终目标为加权和
\(\lambda_p\) 平衡两项,感知损失主要帮结构与纹理细节更贴近人眼偏好。
实验关键数据¶
主实验¶
在 LOL-v1(485 训练对)和 LOL-v2(real / synthetic)三个配对基准上评测,指标 PSNR↑ / SSIM↑ / LPIPS↓。Bi-Bridge 在 PSNR 与 LPIPS 上全面领先,尤其相对自己的单向基线 DDBM 提升巨大。
| 数据集 | 指标 | 本文 Bi-Bridge | DDBM(单向基线) | 此前较优 | 提升(vs 基线) |
|---|---|---|---|---|---|
| LOL-v2-Synthetic | PSNR / LPIPS | 31.019 / 0.025 | 27.872 / 0.079 | ReDDiT 30.166 / 0.028 | +3.15 dB / −0.05 |
| LOL-v2-Real | PSNR / LPIPS | 31.287 / 0.040 | 26.353 / 0.165 | PyDiff 29.629 / ReDDiT 0.040 | +4.93 dB / −0.12 |
| LOL-v1 | PSNR / LPIPS | 27.879 / 0.052 | 24.451 / 0.159 | CIDNet 28.141 / ReDDiT 0.052 | +3.43 dB / −0.11 |
相对回归式 SOTA CIDNet,在 LOL-v2-real 上 PSNR +2.894 dB;相对 Noise-to-Image 的 ReDDiT,感知指标更优。⚠️ 注意 SSIM 并非全面第一:LOL-v2-real 上本文 SSIM 0.841 仍低于 CIDNet(0.887)、ReDDiT(0.895),论文的卖点集中在 PSNR/LPIPS 这两类保真度与感知指标。
无配对零样本泛化(在 LOL-v2-syn 上训练、直接测 5 个真实低光数据集,指标 NIQE↓):
| 方法 | DICM | LIME | MEF | NPE | VV |
|---|---|---|---|---|---|
| CIDNet | 3.79 | 4.13 | 3.56 | 3.74 | 3.21 |
| 3.62 | 3.45 | 3.93 | 3.24 | 3.00 | |
| Ours | 3.35 | 3.14 | 3.11 | 3.11 | 3.19 |
5 个数据集里 4 个拿到最优 NIQE,无需任何微调,说明对称学习带来的鲁棒性。
消融实验¶
对照完整模型与三个削弱版(Baseline 单向 DDBM、去掉双向目标 w/o Bi-directional、去掉感知损失 w/o \(L_{per}\)),在不同 NFE 下比较(Figure 6,曲线无逐点数值):
| 配置 | 相对表现 | 说明 |
|---|---|---|
| Full (Ours) | 最优 | 双向 + 感知损失 |
| w/o \(L_{per}\) | 次优 | 去感知损失略降,主要影响结构/纹理细节 |
| w/o Bi-directional | 中等 | 仅桥结构、无对称约束 |
| Baseline (单向 DDBM) | 最差 | 标准单向扩散桥 |
关键发现¶
- 双向一致性约束是性能主引擎:w/o Bi-directional → Full 的大幅跃升,且这个跃升完全不来自任何结构改动,纯靠对称训练;作者据此论证它是把"内容"与"光照"解耦、抑制单向训练易学到的伪相关的关键。
- 采样效率约 4×:20-NFE 的 Bi-Bridge 在 LOL-v2-real 上即可匹配甚至超过 80-NFE 的 Baseline;10-NFE 时已能超过 DDBM/I2SB 的 80-NFE PSNR,源于对称目标学到了更直接的增强路径。
- 退化方向的涌现优势:双向训练出来的模型做"正常光→低光"退化时,竟然比专门只训退化的单向 DDBM 还保真(极暗阴影里保留更多纹理、颜色更真实),暗示对称学习学到了更本质、可迁移的光照变化表征,可用作高保真数据增广。
亮点与洞察¶
- 几乎零成本的强正则:双向能力不靠新模块、不靠新损失项的堆叠,只是"训练时随机互换端点角色"这一行改动,却能换来 +4.9 dB PSNR——把数学性质(高斯桥均值对端点对称)直接翻译成训练技巧,非常优雅。
- 物理先验的工程化:把"光照变化天然可逆对称"这个直觉,落到 DDBM 桥公式的对称结构上,是"对的先验 + 对的载体"的范例;通用双向框架 BDBM 没针对视觉任务,反而被这个更简单的专用设计超过。
- 可迁移思路:凡是"正变换/逆变换共享同一内容、只换一个属性"的成对翻译任务(去雾/加雾、去噪/加噪、超分/降采样),都可以照搬"端点随机互换 + 共享预测器"来当隐式正则提保真。
局限与展望¶
- 迭代采样仍慢:作者承认扩散桥的迭代本质对实时应用不友好,把推理加速列为未来方向(虽然 10-NFE 已经比同类省)。
- SSIM 上不占优(自己发现):在 LOL-v2-real 等数据集 SSIM 落后于 CIDNet/ReDDiT,说明结构相似度上对称约束未必处处更好,论文叙事主要押在 PSNR/LPIPS。
- 数据合成只有定性评估:退化方向"比专家模型还好"的结论靠可视化(缺标准定量指标),强度有限,⚠️ 这一观察的可重复性有待更系统的量化验证。
- 依赖配对数据训练:核心训练目标是配对 MSE,对完全无配对场景的可扩展性论文未深入。
相关工作与启发¶
- vs DDBM:DDBM 是单向 Image-to-Image 扩散桥(固定 \(x_0\to x_T\))。本文不改架构,只在其高斯桥对端点对称这一性质上加双向一致性约束,把它从"专家单向模型"升级成"统一双向模型",是直接的超越式改进(同一基线 +4.9 dB)。
- vs BDBM:BDBM 也是双向桥,但建立在 Chapman-Kolmogorov 的通用数学理论上、面向任意分布,没为视觉任务的结构先验优化。本文走任务定向路线,用更简单的设计在 LLIE 上反超 BDBM。
- vs LLFlow(Normalizing Flow):NF 的可逆性只是为精确似然训练服务的数学工具,并没显式学物理退化过程;本文显式让网络同时掌握增强与退化两个物理方向。
- vs Noise-to-Image 扩散(GSAD/ReDDiT):它们从随机先验起步、要跨大 domain gap,难保内容;本文在数据域间直接搭桥并强制双向,从根上缓解保真问题。
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 把"高斯桥均值对端点对称"翻译成双向一致性约束,几乎零成本却换来大幅保真提升,视角巧妙。
- 实验充分度: ⭐⭐⭐⭐ 配对+无配对+效率+消融+数据合成五维覆盖,但消融仅给曲线无数值表,数据合成只定性。
- 写作质量: ⭐⭐⭐⭐⭐ 动机推导清晰,把"为什么对称有用"讲透,公式与叙事衔接好。
- 价值: ⭐⭐⭐⭐ LLIE 上刷新保真 SOTA 且采样更省,对称训练思路可迁移到其他成对复原任务。