Adaptive Domain Shift in Diffusion Models for Cross-Modality Image Translation¶
会议: ICLR 2026
arXiv: 2601.18623
代码: https://github.com/LaplaceCenter/CDTSDE
领域: 医学图像 / 扩散模型
关键词: 跨模态图像翻译, 扩散SDE, 域迁移调度, 空间自适应混合, 逆向SDE
一句话总结¶
提出CDTSDE框架,在扩散模型的逆向SDE中嵌入可学习的空间自适应域混合场 \(\Lambda_t\),使跨模态翻译路径沿低能量流形前进,在MRI模态转换、SAR→光学、工业缺陷语义映射任务上以更少去噪步数实现更高保真度。
研究背景与动机¶
领域现状:跨模态图像翻译(如MRI T1→T2、SAR→光学)已从GAN时代进入扩散模型时代,扩散方法在稳定性和生成质量上优于GAN。
现有痛点:现有扩散翻译方法普遍依赖源域→目标域之间的固定线性插值 \(d_t = \eta_t \hat{x}_0^{\text{src}} + (1-\eta_t) x_0\),这条直线路径会穿过两个模态流形之间的高能量区域,迫使采样器做大量偏离流形的校正。
核心矛盾:线性插值假设源-目标变换是全局均匀的,但真实跨模态差异在空间上高度异质——某些区域(如纹理差异大的边缘)需要更多校正,而均匀区域几乎不需要。
本文目标:能否让域迁移调度本身学习一条"自适应弯曲"的路径,绕过高能量区域,从而减轻去噪负担并提高语义一致性?
切入角度:作者从路径能量泛函的几何视角出发,证明了在温和异质性条件下,逐像素自适应路径的能量严格低于任何全局调度路径(Theorem 1)。
核心 idea:将域迁移从"全局线性插值"升级为"逐像素、逐通道的可学习非线性混合场",并将其嵌入扩散SDE的漂移项中。
方法详解¶
整体框架¶
CDTSDE(Cross-Domain Translation SDE)在VP扩散过程中引入自适应域混合场 \(\Lambda_t \in (0,1)^{C \times H \times W}\)。前向过程的边际分布以 \(\sqrt{\bar\alpha_t} \cdot d_t\) 为均值(\(d_t = \Lambda_t \odot \hat{x}_0^{\text{src}} + (1-\Lambda_t) \odot x_0\)),逆向SDE的漂移项中包含显式的域迁移恢复力。输入是源模态图像,输出是目标模态翻译结果。
关键设计¶
-
空间自适应域混合场(Adaptive Dynamic Domain Shift)
- 功能:在每个逆向时步 \(t\) 预测一个全分辨率的混合场 \(\Lambda_t \in (0,1)^{C \times H \times W}\)
- 核心思路:用一个轻量卷积网络 \(\mathcal{S}_\theta\) 接收基础线性步 \(\lambda_t^{\text{lin}}\) 和位置编码 \(\pi(p)\),输出空间调制信号 \(h_{t,c}(p)\)。通过零中心化变换 \(g = 2h-1\) 和一个保端点的插值公式 \(f_{t,c} = \lambda_t^{\text{lin}}[1 + g_{t,c}(1-\lambda_t^{\text{lin}})]\),再经calibrated logistic map压缩到 \((0,1)\),得到 \(\Lambda_{t,c}(p)\)
- 设计动机:Theorem 1证明,在局部几何异质(不同像素有不同的最优混合比例)和非退化对比度条件下,\(\inf_{\Lambda \in \mathcal{C}_{\text{pix}}} \mathcal{E}[d] < \inf_{\Lambda \in \mathcal{C}_{\text{glob}}} \mathcal{E}[d]\),即逐像素调度严格优于全局调度。这为空间自适应提供了理论支撑
-
域感知前向/逆向SDE(Cross-Modal Diffusion Process)
- 功能:将自适应混合场嵌入VP扩散的前向边际和逆向漂移项
- 核心思路:前向边际 \(q(x_t | x_0, \hat{x}_0^{\text{src}}) = \mathcal{N}(\sqrt{\bar\alpha_t} d_t, \sigma_t^2 I)\),增加的漂移 \(\sqrt{\bar\alpha_t} \dot\Lambda(t) \odot (\hat{x}_0^{\text{src}} - x_0)\) 使前向均值追踪域混合路径。逆向SDE(Eq.9)包含三项力:标准漂移 \(f(t)x_t\)、域迁移恢复力、以及score函数
- 设计动机:将域迁移物理直接编码到生成动力学中,使得即使采用大步长积分也能保持在流形上,因为每步更新本身就携带了域感知的校正方向
-
精确解与一阶采样器(Exact Solution & First-order Sampler)
- 功能:推导逆向SDE在变换坐标下的精确解(Proposition 1),并设计一阶数值采样器
- 核心思路:引入坐标变换 \(\Upsilon_t = \sqrt{\bar\alpha_t}(1-\Lambda_t)\),\(y_t = x_t \oslash \Upsilon_t\),\(\lambda_t = \sigma_t \oslash \Upsilon_t\),将逆向SDE化为可用variation-of-constants公式精确求解的形式。Proposition 1给出包含四项的精确解:(a) 缩放传播、(b) 数据预测积分、(c) 源图像恢复项、(d) 随机项
- 设计动机:精确解保证了边际一致性,一阶采样器仅需5步即可达到 ~15dB PSNR,远快于需要1000步的BBDM等方法
-
中间时步截断(Middle-point Truncation)
- 功能:在采样起始时间 \(t_1 < T\) 直接从 \(x_{t_1} \sim \mathcal{N}(\sqrt{\bar\alpha_{t_1}} \hat{x}_0^{\text{src}}, \sigma_{t_1}^2 I)\) 初始化,跳过 \(T - t_1\) 步
- 设计动机:\(t \geq t_1\) 后 \(\Lambda_t = 1\),前向均值变为纯源图像中心的噪声过程,无需从纯噪声开始
训练策略¶
- 噪声预测模型 \(\varepsilon_\theta\) 与域调度网络 \(\mathcal{S}_\theta\) 联合训练
- UNet backbone + PyTorch Lightning混合精度
- 各任务训练步数适中:Sentinel 20K, IXI 10K, PSCDE 5K
实验关键数据¶
主实验¶
在三个跨模态翻译任务上与Pix2Pix、BBDM、ABridge、DBIM、DOSSR对比:
| 任务 | 指标 | CDTSDE | DOSSR(次优) | Pix2Pix |
|---|---|---|---|---|
| Sentinel (SAR→Optical) | SSIM↑ | 0.382 | 0.360 | 0.230 |
| Sentinel | PSNR↑(dB) | 17.46 | 17.14 | 15.12 |
| IXI (T2→T1) | SSIM↑ | 0.825 | 0.800 | 0.710 |
| IXI (T2→T1) | PSNR↑(dB) | 24.33 | 24.13 | 22.24 |
| PSCDE (缺陷语义) | Dice↑ | 0.488 | 0.460 | 0.178 |
| PSCDE | Hausdorff↓ | 39.87 | 59.53 | 156.28 |
CDTSDE在几乎所有指标上居首,在效率方面仅需5个采样步(1.8s/图)达到15dB PSNR,比DOSSR(10步, 3.6s)快2x。
消融实验¶
| 调度类型 | Dice (PSCDE) | Hausdorff↓ | 说明 |
|---|---|---|---|
| Linear (全局线性) | 0.46 | 59.5 | 固定 \(\eta_t \cdot \mathbf{1}\) |
| Channel Non-linear | 0.46 | 43.0 | 逐通道非线性但空间均匀 |
| Dynamic (完整) | 0.49 | 39.8 | 空间+通道自适应 |
关键发现¶
- 从Linear→Dynamic,Dice提升6.1%,Hausdorff降低33%,说明空间自适应域调度的核心价值
- Channel Non-linear已能显著改善边界质量(Hausdorff 59.5→43.0),但区域重叠不变,空间维度的自适应提供了额外的overlap提升
- Bridge-based方法(BBDM、ABridge、DBIM)在高度异质的PSCDE任务上几乎完全失效(Dice<0.17),而CDTSDE和DOSSR因显式域迁移设计表现远好
亮点与洞察¶
- 理论驱动的设计:Theorem 1从路径能量泛函角度严格证明了逐像素调度优于全局调度,这个理论结果不仅支撑了方法设计,还具有更广泛的启示——在任何需要学习两个分布间过渡路径的生成任务中,空间自适应调度都可能有益
- 精确解→高效采样:通过坐标变换得到逆向SDE的精确解,实现5步高质量翻译,是理论到实践的典范
- 域迁移力嵌入漂移项的设计让去噪模型从"全局对齐"降级为"局部残差校正",大幅降低了学习难度
局限与展望¶
- 在低域差异场景(如IXI)改善幅度有限(SSIM从0.80→0.82),说明当模态差异小时额外的自适应调度并非必要
- 仅在配对数据上训练和评估,未探索非配对跨模态翻译
- GAN方法在感知质量(sharpness)上可能更好,CDTSDE可以考虑加入轻量感知/对抗损失
- 域调度网络 \(\mathcal{S}_\theta\) 的容量和架构选择对性能的影响没有充分探讨
- 仅验证了256×256分辨率,高分辨率场景的计算开销和显存待评估
相关工作与启发¶
- vs DOSSR: 同为显式域迁移扩散方法,但DOSSR用固定线性调度,CDTSDE用可学习空间自适应调度,后者在PSCDE上Dice高3个点
- vs BBDM/Bridge方法: Bridge方法在配对数据间建布朗桥,但缺乏对域异质性的建模,在复杂翻译任务上严重退化
- vs SDEdit: SDEdit通过固定噪声水平控制翻译,无显式域迁移机制,在复杂跨模态场景下语义漂移严重
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 将域迁移物理嵌入SDE漂移项+理论证明空间调度优越性,理论和方法都有创新
- 实验充分度: ⭐⭐⭐⭐ 三个不同难度任务+消融+效率分析完整,但数据集规模偏小
- 写作质量: ⭐⭐⭐⭐ 数学推导严谨,Fig.1的流形路径可视化直观,整体逻辑清晰
- 价值: ⭐⭐⭐⭐ 在医学图像和遥感领域有实际应用价值,自适应调度idea可迁移到其他条件生成任务