跳转至

Distributional Consistency Loss: Beyond Pointwise Data Terms in Inverse Problems

会议: ICLR 2026
arXiv: 2510.13972
代码:
领域: 医学图像
关键词: 逆问题, 数据保真项, 分布一致性, PET重建, Deep Image Prior

一句话总结

提出分布一致性(DC)损失,用分布级别的校准替代传统逐点数据保真项(如MSE/NLL),避免对噪声的过拟合,在DIP去噪和PET图像重建中显著提升性能且无需早停。

研究背景与动机

逆问题(医学成像、地球物理、信号处理等)的核心挑战是从噪声测量中恢复真实信号。传统方法将目标函数分为数据保真项正则化项两部分。数据保真项(如MSE、负对数似然NLL)逐点地衡量预测与含噪测量的差异,但这导致一个根本性问题:优化目标鼓励模型逐个匹配噪声实现,而非确保测量在统计意义上与模型一致

在含噪实现下,真实信号并非逐点数据项的最小化解。正则化必须同时承担"抑制噪声拟合"和"施加结构先验"两个任务,二者相互对抗。虽然早停或偏差准则可以缓解,但它们需要显式调参,并不改变目标函数本身。

核心动机:能否设计一种数据保真项,从根本上消除对噪声的拟合激励,使正则化专注于结构约束?

方法详解

整体框架

DC损失把数据保真项从"逐点比对测量与预测"换成"检验整批测量是否与模型在统计意义上一致",其理论支点是概率积分变换(PIT):若模型预测的噪声分布正确,每个测量值落在其预测分布中的累积概率应服从均匀分布。于是只要衡量这些累积概率的经验分布偏离均匀的程度,就能在不逐点拟合噪声的前提下判断模型好坏——欠拟合时测量值挤在预测分布两端(分位数直方图在0或1附近隆起),过拟合时挤在中心(直方图在0.5附近尖峰),唯有恰好校准时直方图才平坦。

关键设计

1. PIT校准取代逐点比对:从根本上消除拟合噪声的激励

逐点数据项(MSE、NLL)的最小值正好落在含噪测量上,因此优化越久越贴近噪声。DC转而对每个测量 \(m_i\) 和它的预测噪声分布 \(\mathcal{D}_i(\hat{y}_i)\) 算出累积概率 \(s_i = F_i(m_i \mid \hat{y}_i) = \mathbb{P}_{c \sim \mathcal{D}_i(\hat{y}_i)}(c \leq m_i)\),再要求这一批 \(s_i\) 整体服从均匀分布。这样最优解不再是某次噪声实现,而是一个等价类——所有让 \(\{s_i\}\) 近似均匀的预测都获得低损失,它们在最大似然解附近构成一片流形,正则化只需在这片流形里挑结构最合理的解,而不必再和数据保真项争夺主导权。

2. Logit变换抗梯度消失:让远离解时仍有可用的下降信号

直接拿 \(s_i\) 去匹配均匀分布有个隐患:当预测离真值很远时 \(s_i\) 会饱和在0或1,梯度几乎为零,优化卡死。为此把累积概率经 logit 变换 \(r_i = \mathrm{logit}(s_i) = \ln\frac{s_i}{1-s_i}\) 拉伸到全实轴,对应的目标分布从 Uniform(0,1) 变为 Logistic(0,1)。变换后即便在分布尾部,梯度也不会消失——用高斯尾部近似可证 \(\partial r_i / \partial \hat{y}_i \approx -(m_i - \hat{y}_i)/\sigma^2\),与MSE的下降方向一致,从而保证远离解时DC和传统损失走同一条收敛路径。

3. Wasserstein-1距离度量分布偏离:把"是否均匀"写成可微目标

有了变换后的 \(\{r_i\}\),剩下的问题是如何量化它与 Logistic(0,1) 的差距。做法是对 \(r_i\) 排序,并取同样数量的 Logistic(0,1) 参考样本 \(u_i\)(同样排序),用一维 Wasserstein-1 距离作为损失:

\[\mathcal{L}_{\text{DC}}(\hat{\boldsymbol{\theta}}) = \frac{1}{N}\sum_{i=1}^{N}\lvert r_i - u_i \rvert\]

排序后的逐点绝对差正是一维最优传输的闭式解,既可微又对样本数稳健,等价于一个可微版的拟合优度检验。

损失函数 / 训练策略

DC损失是传统数据保真项的即插即用替代:网络结构、优化器(Adam 等)和无监督正则项都不用改,直接把 MSE/NLL 换成 \(\mathcal{L}_{\text{DC}}\) 即可,并兼容无配对数据的无监督方法。它的核心收益在于训练行为——因为最优解是等价类而非单点噪声实现,模型收敛后会自动停在校准状态、不再追逐噪声,因此无需早停也能长期稳定,把"抑制噪声拟合"从正则化的负担里彻底剥离出来。代价是需要满足两个前提:噪声分布已知、且有足够多的独立测量值供PIT统计成立。

实验关键数据

主实验

实验1:DIP去噪(高斯噪声)

方法 是否需要早停 Peak PSNR (σ=75/255) 长期稳定性
DIP-MSE 需要 较低 1000次后退化
DIP-DC 不需要 更高 10000次仍稳定

DIP-DC在所有噪声水平下均超越最优早停的DIP-MSE,且高噪声时优势更大。

实验2:PET图像重建(Poisson噪声)

方法 10000次迭代表现 噪声伪影 是否需早停
NLL-Adam 严重退化 大量噪声尖峰 需要
MLEM 逐渐退化 逐渐累积 需要
DC-Adam 收敛后稳定 极少 不需要

实验3:DC+TV正则化 vs NLL+TV

指标 NLL+TV DC+TV
最优NRMSE 较高 更低
最优β量级 小数量级
图像细节 过度平滑 保留细节

消融实验

  • 噪声模型误指定实验:DC损失在噪声方差估计偏差时仍保持鲁棒性
  • 过参数化影响:过参数化程度越高,DC损失优势越明显
  • 真实3D PET脑数据验证:DC-Adam在Siemens临床扫描仪数据上同样展现稳定行为

关键发现

  1. DC损失在远离解时提供与MSE/NLL相同的收敛方向,接近解时自动停止追逐噪声
  2. DC+TV的最优正则化强度比NLL+TV小数量级,因为DC已内置噪声抑制
  3. 在真实临床PET数据上验证了实际可行性

亮点与洞察

  • 数据保真项范式转变:从"逐点匹配测量值"转为"分布级校准一致性",是逆问题领域的基础性创新
  • 正则化角色重定义:DC使正则化专注结构而非同时抵抗噪声
  • 理论优雅:PIT + logit变换 + Wasserstein距离,每一步有清晰动机
  • 实用性强:无需修改网络结构或优化流程,真正的drop-in replacement

局限与展望

  • 假设独立测量和已知噪声分布,小数据或噪声未知场景不适用
  • 对离散噪声(如Poisson)需要随机化PIT
  • 不保证结构属性(稀疏性等),仍需配合先验
  • 前向算子病态性不在DC loss解决范围内
  • 计算开销略高于逐点方法
  • 未与score-based生成模型深入结合,是重要的未来方向

相关工作与启发

  • 与鲁棒损失(Huber/Student-t)的区别:后者减少异常值影响但不阻止噪声拟合
  • 与Noise2Noise的区别:N2N需多次噪声观测,DC仅需单次但要求大量独立测量
  • 与经典拟合优度检验(K-S/CvM)的联系:DC可视为其可微优化版本
  • 潜在扩展:与plug-and-play先验和score-based生成模型的结合

评分

维度 分数
创新性 ★★★★★
理论深度 ★★★★☆
实验充分性 ★★★★☆
实用价值 ★★★★★
写作质量 ★★★★★