Distributional Consistency Loss: Beyond Pointwise Data Terms in Inverse Problems¶

会议: ICLR 2026
arXiv: 2510.13972
代码: 有
领域: 医学图像
关键词: 逆问题, 数据保真项, 分布一致性, PET重建, Deep Image Prior

一句话总结¶

提出分布一致性（DC）损失，用分布级别的校准替代传统逐点数据保真项（如MSE/NLL），避免对噪声的过拟合，在DIP去噪和PET图像重建中显著提升性能且无需早停。

研究背景与动机¶

逆问题（医学成像、地球物理、信号处理等）的核心挑战是从噪声测量中恢复真实信号。传统方法将目标函数分为数据保真项和正则化项两部分。数据保真项（如MSE、负对数似然NLL）逐点地衡量预测与含噪测量的差异，但这导致一个根本性问题：优化目标鼓励模型逐个匹配噪声实现，而非确保测量在统计意义上与模型一致。

在含噪实现下，真实信号并非逐点数据项的最小化解。正则化必须同时承担"抑制噪声拟合"和"施加结构先验"两个任务，二者相互对抗。虽然早停或偏差准则可以缓解，但它们需要显式调参，并不改变目标函数本身。

核心动机：能否设计一种数据保真项，从根本上消除对噪声的拟合激励，使正则化专注于结构约束？

方法详解¶

整体框架¶

DC损失把数据保真项从"逐点比对测量与预测"换成"检验整批测量是否与模型在统计意义上一致"，其理论支点是概率积分变换（PIT）：若模型预测的噪声分布正确，每个测量值落在其预测分布中的累积概率应服从均匀分布。于是只要衡量这些累积概率的经验分布偏离均匀的程度，就能在不逐点拟合噪声的前提下判断模型好坏——欠拟合时测量值挤在预测分布两端（分位数直方图在0或1附近隆起），过拟合时挤在中心（直方图在0.5附近尖峰），唯有恰好校准时直方图才平坦。

关键设计¶

1. PIT校准取代逐点比对：从根本上消除拟合噪声的激励

逐点数据项（MSE、NLL）的最小值正好落在含噪测量上，因此优化越久越贴近噪声。DC转而对每个测量 \(m_i\) 和它的预测噪声分布 \(\mathcal{D}_i(\hat{y}_i)\) 算出累积概率 \(s_i = F_i(m_i \mid \hat{y}_i) = \mathbb{P}_{c \sim \mathcal{D}_i(\hat{y}_i)}(c \leq m_i)\)，再要求这一批 \(s_i\) 整体服从均匀分布。这样最优解不再是某次噪声实现，而是一个等价类——所有让 \(\{s_i\}\) 近似均匀的预测都获得低损失，它们在最大似然解附近构成一片流形，正则化只需在这片流形里挑结构最合理的解，而不必再和数据保真项争夺主导权。

2. Logit变换抗梯度消失：让远离解时仍有可用的下降信号

直接拿 \(s_i\) 去匹配均匀分布有个隐患：当预测离真值很远时 \(s_i\) 会饱和在0或1，梯度几乎为零，优化卡死。为此把累积概率经 logit 变换 \(r_i = \mathrm{logit}(s_i) = \ln\frac{s_i}{1-s_i}\) 拉伸到全实轴，对应的目标分布从 Uniform(0,1) 变为 Logistic(0,1)。变换后即便在分布尾部，梯度也不会消失——用高斯尾部近似可证 \(\partial r_i / \partial \hat{y}_i \approx -(m_i - \hat{y}_i)/\sigma^2\)，与MSE的下降方向一致，从而保证远离解时DC和传统损失走同一条收敛路径。

3. Wasserstein-1距离度量分布偏离：把"是否均匀"写成可微目标

有了变换后的 \(\{r_i\}\)，剩下的问题是如何量化它与 Logistic(0,1) 的差距。做法是对 \(r_i\) 排序，并取同样数量的 Logistic(0,1) 参考样本 \(u_i\)（同样排序），用一维 Wasserstein-1 距离作为损失：

\[\mathcal{L}_{\text{DC}}(\hat{\boldsymbol{\theta}}) = \frac{1}{N}\sum_{i=1}^{N}\lvert r_i - u_i \rvert\]

排序后的逐点绝对差正是一维最优传输的闭式解，既可微又对样本数稳健，等价于一个可微版的拟合优度检验。

损失函数 / 训练策略¶

DC损失是传统数据保真项的即插即用替代：网络结构、优化器（Adam 等）和无监督正则项都不用改，直接把 MSE/NLL 换成 \(\mathcal{L}_{\text{DC}}\) 即可，并兼容无配对数据的无监督方法。它的核心收益在于训练行为——因为最优解是等价类而非单点噪声实现，模型收敛后会自动停在校准状态、不再追逐噪声，因此无需早停也能长期稳定，把"抑制噪声拟合"从正则化的负担里彻底剥离出来。代价是需要满足两个前提：噪声分布已知、且有足够多的独立测量值供PIT统计成立。

实验关键数据¶

主实验¶

实验1：DIP去噪（高斯噪声）

方法	是否需要早停	Peak PSNR (σ=75/255)	长期稳定性
DIP-MSE	需要	较低	1000次后退化
DIP-DC	不需要	更高	10000次仍稳定

DIP-DC在所有噪声水平下均超越最优早停的DIP-MSE，且高噪声时优势更大。

实验2：PET图像重建（Poisson噪声）

方法	10000次迭代表现	噪声伪影	是否需早停
NLL-Adam	严重退化	大量噪声尖峰	需要
MLEM	逐渐退化	逐渐累积	需要
DC-Adam	收敛后稳定	极少	不需要

实验3：DC+TV正则化 vs NLL+TV

指标	NLL+TV	DC+TV
最优NRMSE	较高	更低
最优β量级	大	小数量级
图像细节	过度平滑	保留细节

消融实验¶

噪声模型误指定实验：DC损失在噪声方差估计偏差时仍保持鲁棒性
过参数化影响：过参数化程度越高，DC损失优势越明显
真实3D PET脑数据验证：DC-Adam在Siemens临床扫描仪数据上同样展现稳定行为

关键发现¶

DC损失在远离解时提供与MSE/NLL相同的收敛方向，接近解时自动停止追逐噪声
DC+TV的最优正则化强度比NLL+TV小数量级，因为DC已内置噪声抑制
在真实临床PET数据上验证了实际可行性

亮点与洞察¶

数据保真项范式转变：从"逐点匹配测量值"转为"分布级校准一致性"，是逆问题领域的基础性创新
正则化角色重定义：DC使正则化专注结构而非同时抵抗噪声
理论优雅：PIT + logit变换 + Wasserstein距离，每一步有清晰动机
实用性强：无需修改网络结构或优化流程，真正的drop-in replacement

局限与展望¶

假设独立测量和已知噪声分布，小数据或噪声未知场景不适用
对离散噪声（如Poisson）需要随机化PIT
不保证结构属性（稀疏性等），仍需配合先验
前向算子病态性不在DC loss解决范围内
计算开销略高于逐点方法
未与score-based生成模型深入结合，是重要的未来方向

评分¶

维度	分数
创新性	★★★★★
理论深度	★★★★☆
实验充分性	★★★★☆
实用价值	★★★★★
写作质量	★★★★★