Adaptive Domain Shift in Diffusion Models for Cross-Modality Image Translation¶

会议: ICLR 2026
arXiv: 2601.18623
代码: https://github.com/LaplaceCenter/CDTSDE
领域: 医学图像 / 扩散模型
关键词: 跨模态图像翻译, 扩散SDE, 域迁移调度, 空间自适应混合, 逆向SDE

一句话总结¶

提出CDTSDE框架，在扩散模型的逆向SDE中嵌入可学习的空间自适应域混合场 \(\Lambda_t\)，使跨模态翻译路径沿低能量流形前进，在MRI模态转换、SAR→光学、工业缺陷语义映射任务上以更少去噪步数实现更高保真度。

研究背景与动机¶

领域现状：跨模态图像翻译（如MRI T1→T2、SAR→光学）已从GAN时代进入扩散模型时代，扩散方法在稳定性和生成质量上优于GAN。

现有痛点：现有扩散翻译方法普遍依赖源域→目标域之间的固定线性插值 \(d_t = \eta_t \hat{x}_0^{\text{src}} + (1-\eta_t) x_0\)，这条直线路径会穿过两个模态流形之间的高能量区域，迫使采样器做大量偏离流形的校正。

核心矛盾：线性插值假设源-目标变换是全局均匀的，但真实跨模态差异在空间上高度异质——某些区域（如纹理差异大的边缘）需要更多校正，而均匀区域几乎不需要。

本文目标：能否让域迁移调度本身学习一条"自适应弯曲"的路径，绕过高能量区域，从而减轻去噪负担并提高语义一致性？

切入角度：作者从路径能量泛函的几何视角出发，证明了在温和异质性条件下，逐像素自适应路径的能量严格低于任何全局调度路径（Theorem 1）。

核心 idea：将域迁移从"全局线性插值"升级为"逐像素、逐通道的可学习非线性混合场"，并将其嵌入扩散SDE的漂移项中。

方法详解¶

整体框架¶

CDTSDE（Cross-Domain Translation SDE）要解决的是：跨模态翻译里源域到目标域的过渡路径若走全局线性直线，会穿过两模态流形之间的高能量区，逼着采样器做大量偏离流形的校正。它的整体思路是把这条过渡路径变成可学习的弯路——在 VP 扩散过程里引入一个空间自适应域混合场 \(\Lambda_t \in (0,1)^{C \times H \times W}\)，逐像素决定每一步该掺入多少源域信息，并把这条混合路径 \(d_t = \Lambda_t \odot \hat{x}_0^{\text{src}} + (1-\Lambda_t)\odot x_0\) 直接写进扩散 SDE 的漂移项。运行时（见下图）：给定源模态图像，采样不从纯噪声、而从中间时步 \(t_1\) 的"源图像中心噪声"起步；此后每一步先由混合场网络 \(\mathcal{S}_\theta\) 预测当前 \(\Lambda_t\)，再用带域迁移恢复力的逆向 SDE 配合闭式精确解采样器走一大步，迭代收敛到 \(t=0\) 即得目标模态图像，全程仅需约 5 步。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    SRC["源模态图像 x_src"]
    TRUNC["中间时步截断<br/>从 t1 起步、x_t1~N(√ᾱ·x_src, σ²)"]
    MIX["空间自适应域混合场 Λt<br/>S_θ 逐像素/逐通道预测混合比例"]
    SDE["域感知逆向 SDE<br/>漂移 = 标准项 + 域迁移恢复力 + score"]
    SAMP["精确解一阶采样器<br/>坐标变换求闭式解、走一大步"]
    OUT["目标模态翻译结果"]
    SRC --> TRUNC --> MIX
    MIX --> SDE --> SAMP
    SAMP -->|"t > 0：迭代下一步"| MIX
    SAMP -->|"t = 0"| OUT

关键设计¶

1. 空间自适应域混合场：让每个像素自己决定混合多少源域信息

固定线性插值的根本问题是全局均匀，但跨模态差异在空间上高度异质，纹理差异大的边缘和几乎不变的均匀区域不该用同一个混合比例。CDTSDE 因此在每个逆向时步 \(t\) 预测一个全分辨率的混合场 \(\Lambda_t \in (0,1)^{C \times H \times W}\)，逐像素、逐通道地给出当前该掺入多少源图像。具体由一个轻量卷积网络 \(\mathcal{S}_\theta\) 承担：它接收基础线性步 \(\lambda_t^{\text{lin}}\) 和位置编码 \(\pi(p)\)，输出空间调制信号 \(h_{t,c}(p)\)；再经零中心化变换 \(g = 2h-1\) 与保端点插值

\[f_{t,c} = \lambda_t^{\text{lin}}\big[1 + g_{t,c}(1-\lambda_t^{\text{lin}})\big]\]

把调制叠加到线性基准上（保端点保证 \(t=0,T\) 处仍退化到正确边界），最后经 calibrated logistic map 压缩回 \((0,1)\) 得到 \(\Lambda_{t,c}(p)\)。这一设计不是拍脑袋：Theorem 1 在局部几何异质（不同像素有不同的最优混合比例）和非退化对比度条件下，证明了 \(\inf_{\Lambda \in \mathcal{C}_{\text{pix}}} \mathcal{E}[d] < \inf_{\Lambda \in \mathcal{C}_{\text{glob}}} \mathcal{E}[d]\)——逐像素调度的路径能量严格低于任何全局调度，这就是绕过高能量区域、减轻去噪负担的理论依据。

2. 域感知前向/逆向 SDE：把域迁移直接写进扩散的漂移项里

光有混合场还不够，关键是让生成动力学本身知道域在迁移。CDTSDE 把 \(\Lambda_t\) 嵌进 VP 扩散：前向边际取 \(q(x_t \mid x_0, \hat{x}_0^{\text{src}}) = \mathcal{N}(\sqrt{\bar\alpha_t}\, d_t,\ \sigma_t^2 I)\)，其中域混合路径 \(d_t = \Lambda_t \odot \hat{x}_0^{\text{src}} + (1-\Lambda_t)\odot x_0\)；相比标准扩散多出一项漂移 \(\sqrt{\bar\alpha_t}\,\dot\Lambda(t)\odot(\hat{x}_0^{\text{src}} - x_0)\)，使前向均值随时间追踪这条混合路径。对应的逆向 SDE（Eq.9）由三股力合成：标准漂移 \(f(t)x_t\)、显式的域迁移恢复力、以及 score 函数。把域迁移物理编码进漂移项的好处是，即使用大步长积分，每一步更新本身就携带域感知的校正方向，从而始终保持在流形上——去噪模型的活也因此从"全局对齐"降级为"局部残差校正"。

3. 精确解与一阶采样器：靠坐标变换求出闭式解，5 步出图

要把上面那条带域迁移漂移的逆向 SDE 高效求解，作者引入坐标变换 \(\Upsilon_t = \sqrt{\bar\alpha_t}(1-\Lambda_t)\)、\(y_t = x_t \oslash \Upsilon_t\)、\(\lambda_t = \sigma_t \oslash \Upsilon_t\)，把方程化成可用 variation-of-constants 公式精确积分的形式。Proposition 1 给出的精确解含四项：(a) 缩放传播、(b) 数据预测积分、(c) 源图像恢复项、(d) 随机项。精确解的意义在于它保证了边际一致性，于是据此设计的一阶数值采样器仅需 5 步即可达到 ~15dB PSNR，而 BBDM 这类方法要走到 1000 步。

4. 中间时步截断：从源图像中心起步，省掉前半段噪声

由于 \(t \geq t_1\) 之后 \(\Lambda_t = 1\)，前向均值已退化为以纯源图像为中心的噪声过程，那段路径不含任何域迁移信息、走它纯属浪费。于是采样不必从纯噪声开始，而是在起始时间 \(t_1 < T\) 直接从 \(x_{t_1} \sim \mathcal{N}(\sqrt{\bar\alpha_{t_1}}\,\hat{x}_0^{\text{src}},\ \sigma_{t_1}^2 I)\) 初始化，跳过 \(T - t_1\) 步，进一步压缩采样开销。

训练策略¶

噪声预测模型 \(\varepsilon_\theta\) 与域调度网络 \(\mathcal{S}_\theta\) 联合训练
UNet backbone + PyTorch Lightning混合精度
各任务训练步数适中：Sentinel 20K, IXI 10K, PSCDE 5K

实验关键数据¶

主实验¶

在三个跨模态翻译任务上与Pix2Pix、BBDM、ABridge、DBIM、DOSSR对比：

任务	指标	CDTSDE	DOSSR(次优)	Pix2Pix
Sentinel (SAR→Optical)	SSIM↑	0.382	0.360	0.230
Sentinel	PSNR↑(dB)	17.46	17.14	15.12
IXI (T2→T1)	SSIM↑	0.825	0.800	0.710
IXI (T2→T1)	PSNR↑(dB)	24.33	24.13	22.24
PSCDE (缺陷语义)	Dice↑	0.488	0.460	0.178
PSCDE	Hausdorff↓	39.87	59.53	156.28

CDTSDE在几乎所有指标上居首，在效率方面仅需5个采样步（1.8s/图）达到15dB PSNR，比DOSSR（10步, 3.6s）快2x。

消融实验¶

调度类型	Dice (PSCDE)	Hausdorff↓	说明
Linear (全局线性)	0.46	59.5	固定 \(\eta_t \cdot \mathbf{1}\)
Channel Non-linear	0.46	43.0	逐通道非线性但空间均匀
Dynamic (完整)	0.49	39.8	空间+通道自适应

关键发现¶

从Linear→Dynamic，Dice提升6.1%，Hausdorff降低33%，说明空间自适应域调度的核心价值
Channel Non-linear已能显著改善边界质量（Hausdorff 59.5→43.0），但区域重叠不变，空间维度的自适应提供了额外的overlap提升
Bridge-based方法（BBDM、ABridge、DBIM）在高度异质的PSCDE任务上几乎完全失效（Dice<0.17），而CDTSDE和DOSSR因显式域迁移设计表现远好

亮点与洞察¶

理论驱动的设计：Theorem 1从路径能量泛函角度严格证明了逐像素调度优于全局调度，这个理论结果不仅支撑了方法设计，还具有更广泛的启示——在任何需要学习两个分布间过渡路径的生成任务中，空间自适应调度都可能有益
精确解→高效采样：通过坐标变换得到逆向SDE的精确解，实现5步高质量翻译，是理论到实践的典范
域迁移力嵌入漂移项的设计让去噪模型从"全局对齐"降级为"局部残差校正"，大幅降低了学习难度

局限与展望¶

在低域差异场景（如IXI）改善幅度有限（SSIM从0.80→0.82），说明当模态差异小时额外的自适应调度并非必要
仅在配对数据上训练和评估，未探索非配对跨模态翻译
GAN方法在感知质量（sharpness）上可能更好，CDTSDE可以考虑加入轻量感知/对抗损失
域调度网络 \(\mathcal{S}_\theta\) 的容量和架构选择对性能的影响没有充分探讨
仅验证了256×256分辨率，高分辨率场景的计算开销和显存待评估

评分¶

新颖性: ⭐⭐⭐⭐⭐ 将域迁移物理嵌入SDE漂移项+理论证明空间调度优越性，理论和方法都有创新
实验充分度: ⭐⭐⭐⭐ 三个不同难度任务+消融+效率分析完整，但数据集规模偏小
写作质量: ⭐⭐⭐⭐ 数学推导严谨，Fig.1的流形路径可视化直观，整体逻辑清晰
价值: ⭐⭐⭐⭐ 在医学图像和遥感领域有实际应用价值，自适应调度idea可迁移到其他条件生成任务