跳转至

Regularizing INR with Diffusion Prior for Self-Supervised 3D Reconstruction of Neutron CT Data

会议: CVPR 2025
arXiv: 2603.10947
代码: 待公开
领域: 3D视觉 / CT重建
关键词: 隐式神经表示, 扩散先验, 中子CT, 稀疏视角重建, 自监督3D重建

一句话总结

提出 DINR (Diffusive INR),将隐式神经表示 (INR/SIREN) 与预训练扩散模型先验结合,通过 proximal loss 在每个 DDIM 时间步用扩散去噪输出正则化 INR 重建,在稀疏视角中子 CT(低至 4-5 个视角)上超越 FBP、纯 INR、DD3IP 和经典 MBIR(qGGMRF) 方法。

研究背景与动机

领域现状:中子 CT 是以氢分布表征体积的重要成像模态(燃料电池、锂电池、混凝土结构等),但中子束通量低导致曝光时间长,急需稀疏视角重建以加速采集。

现有痛点:FBP 在子 Nyquist 采样下产生严重伪影;MBIR + 手工先验 (TV/qGGMRF) 需要大量参数调节且表达能力有限;纯 INR (SIREN) 缺少强图像先验,高频重建不稳定。

核心矛盾:扩散模型能建模复杂图像先验,但直接用于逆问题(如 DD3IP/SCD)的后验采样不够利用数据一致性;INR 能灵活集成前向模型但缺乏学习先验。

本文目标:如何将扩散先验的强生成能力与 INR 的数据一致性优势结合,实现高质量稀疏视角中子 CT 重建?

切入角度:基于 DD3IP 框架的模块化设计——在 DDIM 的每个时间步内,用 INR 替代原有的逆问题求解器 (DIS),通过 proximal 损失融入扩散去噪估计。

核心 idea:将 INR 嵌入 DD3IP 扩散框架作为可微逆问题求解器,通过 proximal 正则化实现扩散先验对 INR 的在线引导。

方法详解

整体框架

DINR 在 DD3IP 框架内运行:初始化 INR 参数 \(\phi_T\)(纯数据一致性)→ 从 \(t=T\)\(t=1\) 的逆扩散循环中,每步先适应扩散模型权重 \(\theta_{t-1}\)(SCD),获取去噪估计 \(\hat{x}_t\),然后用 proximal loss 优化 INR 参数 \(\phi_{t-1}\),最后通过 DDIM 采样推进到下一步。

关键设计

  1. Proximal INR 损失函数

    • 功能:在标准数据一致性(投影域 MSE)上添加扩散去噪输出的近端正则项
    • 核心公式:\(\mathcal{L}_\phi(S, y, \hat{x}_{0|t}, \rho) = \text{MSE}(A F_\phi(S, A^*y), y) + \rho \cdot \text{MSE}(\hat{x}_t, F_\phi(S, A^*y))\)
    • 设计动机:\(\rho\) 控制扩散先验的影响强度。初始化时 \(\rho=0\)(纯数据拟合),后续时间步中扩散估计提供越来越干净的先验引导
  2. INR 架构 (SIREN + FBP 输入)

    • 功能:用 SIREN (正弦激活 MLP) 将 3D 坐标映射为衰减系数
    • 核心思路:接受 FBP 重建 \(A^*y\) 作为额外输入通道以提供初始估计加速收敛
    • 设计动机:坐标 + FBP 的双输入让 INR 既有精确坐标定位又有粗略结构信息
  3. 噪声注入缩放 \(\omega\)

    • 功能:在逆扩散初始化时控制 \(A^*y\) 与噪声 \(\epsilon\) 的相对比例
    • 核心公式:\(x_T \leftarrow \sqrt{\alpha_T} A^*y + \sqrt{1-\alpha_T} \epsilon * \omega\)
    • 设计动机:\(\omega\) 作为可调参数,平衡低频初始估计与随机探索

损失函数 / 训练策略

  • 扩散模型预训练在合成椭球体数据上(无需真实中子 CT 数据)
  • SCD 在每个时间步通过最小化 \(\text{MSE}(A D_\theta(x_t|y), y)\) 适应扩散模型权重
  • INR 通过 proximal loss 在每步重新优化,使用 Tomosipo 实现距离驱动平行束投影器

实验关键数据

合成数据 (256×256, 2 slices)

视角数 FBP INR (SIREN) DD3IP DINR
4 views 19.31/0.08 14.76/0.18 26.17/0.25 26.27/0.24
8 views 21.67/0.18 28.15/0.35 28.37/0.34 28.56/0.38
16 views 25.27/0.30 30.34/0.54 31.21/0.61 31.30/0.63
32 views 29.62/0.43 32.85/0.66 32.91/0.74 33.43/0.76

真实中子 CT 数据

视角数 FBP MBIR(qGGMRF) INR DD3IP DINR
5 views 19.9/0.10 21.02/0.04 20.18/0.03 20.89/0.06 21.27/0.05
9 views 22.9/0.33 26.0/0.38 24.08/0.27 25.41/0.34 25.22/0.35
17 views 25.91/0.55 28.1/0.58 27.3/0.54 28.04/0.62 27.56/0.62
33 views 30.11/0.73 31.0/0.77 29.7/0.71 31.19/0.79 31.37/0.77

消融 / ROI 分析

ROI 大小 观察
8×8 ~ 32×32 (微结构区) DINR 显著优于其他方法
48×48 ~ 64×96 (含背景) MBIR 接近或超过 DINR
  • DINR 在微结构细节(孔隙/边界)上重建最优,但在大面积均匀背景上优势减弱
  • 这与 MBIR 的 qGGMRF 先验在平滑区域的天然优势一致

关键发现

  • 仅用合成椭球体预训练的扩散模型即可有效引导真实混凝土微结构的重建——展示了 OOD 适应能力
  • 在超稀疏范围(4-5 views)DINR 优势最明显,因为此时数据约束极弱,强先验最关键
  • INR 的 proximal 正则化比 DD3IP 的共轭梯度 DIS 更灵活,可无缝融入前向物理模型
  • 需要更好的定量指标——PSNR/SSIM 在评估微结构重建质量上不够区分

亮点与洞察

  • 模块化的扩散-INR 融合:DD3IP 框架的 DIS 模块化设计使得 INR 可以即插即用替换其他求解器,这一框架的可扩展性值得关注
  • 合成预训练+OOD推理:扩散模型仅在合成数据上预训练就能引导真实数据重建——降低了对域内训练数据的依赖
  • ROI 分析的启发:传统全图 PSNR 可能掩盖方法在重要区域(微结构)的真实优势,呼应了任务导向评估的需求

局限与展望

  • 计算开销大——每个 DDIM 时间步都需要优化 INR 参数和扩散模型权重
  • 真实数据上 DINR 未能在所有视角数下超越 MBIR(9/17 views MBIR 更优)
  • \(\rho\)\(\omega\) 需要精细参数搜索——作者也承认更全面的搜索可能改善结果
  • 仅验证了平行束几何——未扩展到锥束/螺旋 CT
  • 未与其他学习型 CT 重建方法(如端到端 U-Net)比较

相关工作与启发

  • vs DD3IP: DINR 用 INR 替换 DD3IP 的 CG 迭代作为 DIS,在超稀疏视角下更优
  • vs MBIR+qGGMRF: MBIR 在中等视角数下仍有竞争力,但需要穷举正则化参数搜索——DINR 在超稀疏下和微结构区域更优
  • vs 纯 SIREN/INR: 缺乏强先验导致高频不稳定,DINR 的扩散正则化有效解决了这一问题
  • 对做工业/科学 CT(需要少量扫描)的研究者有直接参考价值

评分

  • 新颖性: ⭐⭐⭐⭐ INR 作为 DIS 嵌入 DD3IP 是新颖的融合方式
  • 实验充分度: ⭐⭐⭐ 数据规模较小(2 slices),缺少消融和更多 baseline
  • 写作质量: ⭐⭐⭐ 方法描述清晰但实验分析可以更深入
  • 价值: ⭐⭐⭐⭐ 对科学 CT 重建领域有实用价值