CD-DPE: Dual-Prompt Expert Network Based on Convolutional Dictionary Feature Decoupling for Multi-Contrast MRI Super-Resolution¶
会议: AAAI 2026
arXiv: 2511.14014
代码: 有
领域: 医学图像
关键词: 多对比度MRI超分辨率, 卷积字典, 特征解耦, 双提示, 专家网络
一句话总结¶
提出 CD-DPE 网络,通过迭代卷积字典特征解耦模块(CD-FDM)将多对比度 MRI 特征分离为跨对比度共有和模态特有成分,再利用双提示特征融合专家模块(DP-FFEM)进行自适应融合重建,在多个公开数据集上超越现有 SOTA 方法。
研究背景与动机¶
MRI 超分辨率(SR)旨在从低分辨率(LR)扫描重建高分辨率(HR)图像以提升诊断精度。临床上通常采集多种对比度序列(T1W、T2W、PD 等),快速获取的 HR 参考图(如 T1W)可辅助增强需要更长扫描时间的 LR 目标图(如 T2W)。
现有方法的三大局限:
简单融合策略:早期 CNN 方法直接拼接参考和目标图像,无法捕获复杂的跨对比度依赖关系,导致重建细节模糊
Transformer 方法的局限:虽然注意力机制能建模长程依赖,但在极低分辨率输入下重建高频细节能力有限,且计算开销大、显存消耗高
分解方法缺乏严格约束:现有将参考图分解为共有/特有成分的方法(如 Lei et al.)缺乏对分解和融合机制的严格约束,共有特征可能过度平滑
核心挑战:如何有效提取多对比度 MRI 中的共有和特有特征,并在保留结构细节的同时消除冗余信息干扰?
方法详解¶
整体框架¶
CD-DPE 包含两个核心模块:
- CD-FDM(卷积字典特征解耦模块):提取共有特征和特有特征
- DP-FFEM(双提示特征融合专家模块):自适应融合特征并重建 HR 图像
关键设计¶
1. 卷积字典特征解耦模块(CD-FDM)¶
CD-FDM 基于卷积字典学习思想,将多对比度 MRI 分解为三组稀疏表示:
数学建模:多对比度图像可分解为:
其中 \(u_j^x, u_j^y\) 为特有稀疏表示,\(c_j\) 为共有稀疏表示,\(\theta_d\) 为字典滤波器。
迭代更新过程(展开学习思想):
- 特有特征提取:\(U_x^l = \text{Prox}(U_x^{l-1} - \eta_x \Delta U_x)\),通过 CDME(编码器)和 CDMD(解码器)的残差迭代优化
- 参考图像对齐:引入 OffNet(偏移网络),使用轻量级 U-Net 学习位移场 \(\phi\) 和特征表示 \(\mathcal{A}\),通过空间变换对齐参考特征与目标图像
- 共有特征更新:从公共特征中减去参考和目标特有特征的残差,确保共有特征仅保留两者真正共享的结构信息
- 迭代 L=3 次,逐步优化解耦质量
关键子结构:
- CDM 编码器/解码器:3 级多尺度结构,通道数 64/96/128
- MFFN(多尺度前馈网络):实现近端算子 Prox
- OffNet:处理参考与目标图像的空间错位
2. 双提示特征融合专家模块(DP-FFEM)¶
DP-FFEM 通过两种提示机制引导特征融合:
频率提示(Frequency Prompt):
- 构建参考表示 \(F_r = [F_y^L, F_c^L]\) 和目标表示 \(F_t = [F_x^L, F_c^L]\)
- 学习可训练的频率原型 \(\mathcal{P}_F\),对参考特征的傅里叶变换进行注意力调制
- 生成注意力图 \(\mathcal{V}^y = f_{\phi_1}(\mathscr{F}(F_r), \mathcal{P}_F)\)
- 将参考图的注意力迁移到目标表示:\(\tilde{F}_t = F_t \otimes \mathcal{V}^y + F_t\)
自适应路由提示(Adaptive Routing Prompt):
- 可学习路由提示 \(\mathcal{P}_R \in \mathbb{R}^{(C \times H \times W) \times E}\)
- 与目标特征相乘生成路由 logits,Top-K 选择最相关的 K 个专家分支
- Softmax 归一化得到路由权重 \(\mathcal{V}^x\)
- 最终重建:\(\hat{I}_x = \sum_{i=1}^E \mathcal{V}^x \cdot \mathcal{E}_i(\tilde{F}_t \cdot \mathcal{V}^x)\)
- 设置 E=4 个专家,K=2
损失函数 / 训练策略¶
总损失由三部分组成:\(\mathcal{L} = \mathcal{L}_{rec} + \lambda_1 \mathcal{L}_{fc} + \lambda_2 \mathcal{L}_{mi}\)
- 重建损失 \(\mathcal{L}_{rec} = \|\hat{I}_x - I_x^{hr}\|_1\):L1 距离确保内容一致性
- 一致性损失 \(\mathcal{L}_{fc}\):约束特有+共有特征的组合能重建原始图像,\(\lambda_y = 0.01\) 平衡两项
- 解耦损失 \(\mathcal{L}_{mi}\):最小化共有特征与特有特征之间的互信息,强制特征独立性
训练设置:Adam 优化器(lr=1e-4),batch size=4,50 epochs,NVIDIA RTX A6000 48GB,\(\lambda_1=1, \lambda_2=0.1\)。
实验关键数据¶
主实验¶
在 BraTS2018 和 IXI 两个公开数据集上对比 5 种 SOTA 方法:
BraTS2018 数据集(T1W→T2W 重建):
| 方法 | 2× PSNR↑ | 2× SSIM↑ | 4× PSNR↑ | 4× SSIM↑ | Params(M) | FLOPs(G) |
|---|---|---|---|---|---|---|
| WavTrans | 39.79 | 0.9874 | 34.83 | 0.9677 | 10.0 | 216.2 |
| A2-CDic | 40.47 | 0.9883 | 35.70 | 0.9704 | 10.1 | 831.1 |
| CD-DPE | 40.70 | 0.9885 | 36.00 | 0.9716 | 11.7 | 426.1 |
IXI 数据集(PD→T2W 重建):
| 方法 | 2× PSNR↑ | 4× PSNR↑ | 4× SSIM↑ |
|---|---|---|---|
| WavTrans | 42.88 | 38.51 | 0.9711 |
| A2-CDic | 41.59 | 37.91 | 0.9726 |
| CD-DPE | 43.22 | 38.59 | 0.9735 |
消融实验¶
模块消融(BraTS2018 4× SR):
| 设置 | PSNR 变化 | SSIM 变化 |
|---|---|---|
| w/o CD-FDM(CNN 替代) | -13.48% | -1.92% |
| w/o DP-FFEM(CNN 替代) | -5.93% | -0.55% |
| w/o 双提示(保留 DP-FFEM) | 低于完整模型 | 低于完整模型 |
| w/o \(\mathcal{L}_{mi}\) | -3.05% | -0.22% |
| w/o \(\mathcal{L}_{fc}\) | -2.90% | -0.31% |
泛化性实验(IXI 训练 → FastMRI Knee 测试):
| 方法 | PSNR↑ | SSIM↑ |
|---|---|---|
| WavTrans | 28.07 | 0.7428 |
| A2-CDic | 25.21 | 0.7517 |
| CD-DPE | 29.41 | 0.8387 |
CD-DPE 在未见数据集上 PSNR 提升 4.8%,SSIM 提升 11.6%,泛化能力远超其他方法。
关键发现¶
- CD-FDM 是性能的核心支柱,移除后 PSNR 下降 13.48%——证明卷积字典解耦远优于简单 CNN 分解
- 互信息损失 \(\mathcal{L}_{mi}\) 对防止特征纠缠至关重要,移除后特有与共有特征无法正确分离
- DP-FFEM 的双提示机制互补:频率提示引导特征选择,路由提示决定最优融合策略
- CD-DPE 参数量(11.7M)和推理时间(0.061s)适中,FLOPs(426G)低于 A2-CDic(831G)
亮点与洞察¶
- 卷积字典解耦的严谨性:用展开学习(unfolding learning)将优化问题转化为可学习的网络层,比启发式分解更有理论支撑
- 双提示的互补设计:频率提示在频域捕获结构模式(what to fuse),路由提示决定融合路径(how to fuse),分工明确
- MoE 思想的引入:专家网络+路由提示的组合是 MoE 在图像重建中的自然应用,增加了融合策略的灵活性
- 泛化能力突出:在完全未见的 FastMRI Knee 数据集上大幅领先,说明解耦-融合范式具有内在的泛化优势
局限与展望¶
- 对比度差异敏感:当参考与目标的对比度机制差异极大时性能受限,可引入 MRI 物理先验(如弛豫时间映射)
- 迭代计算开销:CD-FDM 的迭代展开引入额外计算,需探索更高效的解耦机制
- 仅限 2D 切片:实验在 2D 切片上进行,未扩展到 3D 体数据
- 单一参考图像:仅使用一种对比度作为参考,可探索多参考多对比度联合重建
相关工作与启发¶
- A2-CDic:同样基于卷积字典但缺乏双提示融合,CD-DPE 在其基础上引入 MoE 思想
- DiffMSR:使用扩散模型进行多对比度 SR,推理效率较低
- DANCE:邻域引导聚合策略,手工设计泛化性差
- 卷积字典解耦 + MoE 融合的框架可推广到其他多模态医学图像重建任务(CT-MRI fusion 等)
评分¶
- 创新性: ★★★★☆ — 卷积字典解耦与双提示 MoE 的结合有新意
- 实验充分度: ★★★★★ — 两个数据集、详细消融、泛化性验证、特征可视化
- 写作质量: ★★★★☆ — 数学推导严谨,但公式较多读起来偏重
- 实用性: ★★★★☆ — 推理速度快(0.061s),有代码开源,泛化性强