Noise-Adaptive Diffusion Sampling for Inverse Problems Without Task-Specific Tuning¶

会议: ICLR2026
OpenReview: https://openreview.net/forum?id=Yfk4ex3Z1G
代码: https://github.com/NA-HMC/NA-HMC
领域: 图像复原
关键词: 扩散逆问题, 后验采样, Hamiltonian Monte Carlo, 未知噪声, 图像复原

一句话总结¶

这篇论文把扩散模型逆问题求解从“中间图像状态上加数据一致性梯度”改成“在 DDIM 初始噪声空间做 HMC 后验采样”，并通过边缘化未知测量噪声得到 NA-NHMC，在超分、修复、去模糊、相位恢复和 HDR 等图像逆问题上无需任务级调参就取得更稳健的重建质量。

研究背景与动机¶

领域现状：扩散模型已经成为图像逆问题的一类强先验。给定观测 \(y=A(x)+\eta\)，常见任务包括超分辨率、随机 inpainting、去模糊、相位恢复和 HDR 重建；核心目标是在满足测量一致性的同时，让重建图像仍落在自然图像分布上。现有扩散逆问题方法大致分成两类：一类在反向扩散每一步用似然梯度修正中间状态，另一类把扩散模型当作正则器或生成器，做 MAP 优化。

现有痛点：第一类 guidance 方法需要近似 \(p(y|x_t)\)，通常把测量一致性梯度直接加到中间噪声图像 \(x_t\) 上。问题是扩散 denoiser 只在训练分布的噪声流形附近见过这些状态，而似然梯度可能有很大一部分指向流形外，久而久之会把 \(x_t\) 推到低概率区域，导致伪影累积。第二类 MAP 方法可以得到锐利图像，但容易为了拟合观测而拟合噪声；当噪声水平高或未知时，早停、步长、数据一致性权重都要针对任务重新调。还有像 DMPlug 这样在初始噪声空间优化的方法，虽然避免了中间状态漂移，但确定性优化会卡在单一局部模式，尤其是相位恢复这种多模态问题。

核心矛盾：这篇论文抓住的矛盾是，逆问题既需要“探索”完整后验，又不能破坏扩散模型学到的数据流形。若在图像空间或中间扩散状态上强行贴近观测，容易 off-manifold；若只做单点优化，又容易陷入局部最优或过拟合噪声。一个理想解法应该只在扩散模型自然的潜变量空间中移动，同时显式采样 \(p(x|y)\) 而不是只寻找一个 MAP 解。

本文目标：作者希望解决三个具体问题：一是避免中间扩散状态被测量梯度推离训练流形；二是在病态或多模态逆问题中能探索多个可能解，而不是卡在一个局部模式；三是在测量噪声类型和水平未知时，不再依赖任务专属的似然权重、早停阈值或人工调参。

切入角度：DDIM 的确定性采样给了一个关键观察：如果反向扩散过程固定为确定性映射 \(D\)，那么初始噪声 \(x_T\) 可以被看成唯一潜变量，干净图像就是 \(\hat{x}_0=D(x_T)\)。这样逆问题不必在每个中间时间步近似 \(p(y|x_t)\)，而可以直接在初始噪声空间中评估 \(p(y|D(x_T))\)。

核心 idea：用 Hamiltonian Monte Carlo 在 DDIM 初始噪声空间采样后验，并用 Jeffreys 非信息先验边缘化未知噪声方差，让数据一致性强度随残差自动归一化。

方法详解¶

整体框架¶

N-HMC 把预训练扩散模型看成一个确定性生成器：从标准高斯噪声 \(x_T\sim\mathcal{N}(0,I)\) 出发，经少步 DDIM 得到图像 \(\hat{x}_0=D(x_T)\)，再通过已知 forward operator \(A\) 生成预测测量 \(A(\hat{x}_0)\)。因此求解逆问题就变成在 \(x_T\) 空间中采样 \(p(x_T|y)\)，而不是直接更新图像或中间扩散状态。

NA-NHMC 是它的未知噪声版本。对于已知高斯噪声，势能里有普通的平方残差项；对于未知噪声，作者把 \(\sigma_y^2\) 当作潜变量，用 Jeffreys prior 积分掉，最终得到一个不需要指定噪声水平的数据项。HMC 每轮先采样动量，再用 leapfrog 在噪声空间推进 proposal，最后用 Metropolis-Hastings 接受/拒绝来修正离散化误差。早期还使用较大的噪声 schedule 促进探索，后期再进入真正的 noise-adaptive 采样。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["观测 y 与算子 A"] --> B["初始噪声 x_T"]
    B --> C["确定性 DDIM 映射 D(x_T)"]
    C --> D["测量残差<br/>y - A(D(x_T))"]
    D --> E["噪声自适应似然"]
    B --> F["高斯噪声先验"]
    E --> G["HMC leapfrog<br/>噪声空间提案"]
    F --> G
    G --> H["MH 接受/拒绝"]
    H --> I["后验样本与重建图像"]

这个框架里真正的贡献节点有三个：噪声空间后验建模、HMC 探索机制、以及未知噪声下的自适应似然。DDIM 本身、forward operator 和最终重建只是脚手架，但它们让这三个设计能闭环工作。

关键设计¶

1. 噪声空间后验采样：把“修图像”改成“采初始噪声”

传统 guidance 方法的问题在于，它们要在扩散中间状态 \(x_t\) 上使用 \(\nabla_{x_t}\log p(y|x_t)\)。可是 \(x_t\) 并不是干净图像，\(p(y|x_t)\) 本身需要近似；梯度一旦把 \(x_t\) 推离对应噪声层的高概率流形，后续 denoiser 就会处理训练时没见过的输入。本文把 DDIM 反向过程写成确定性映射 \(\hat{x}_0=D(x_T)\)，于是观测似然可以直接写成 \(p(y|x_T)=p(y|D(x_T))\)。在已知高斯噪声下，它对应

\[ \log p(y|x_T)=-\frac{\|y-A(D(x_T))\|^2}{2\sigma_y^2}+\text{const}. \]

这样做的好处是，HMC 的所有更新都发生在初始噪声 \(x_T\) 上，而每一个 proposal 都会通过完整的 DDIM 轨迹映射回干净图像。换句话说，方法没有在中间扩散层“硬拽”状态，而是只改变生成器的输入；只要 DDIM 映射本身来自预训练扩散模型，输出就更自然地受数据流形约束。与此同时，噪声先验 \(p(x_T)=\mathcal{N}(0,I)\) 很简单，score 直接是 \(-x_T\)，比在图像空间手写复杂先验更干净。

2. HMC 替代 MAP 优化：用动量探索多模态解空间

如果只在 \(x_T\) 上做梯度下降，会变成类似 DMPlug 的确定性 MAP 优化：能减少残差，却可能卡在某个局部模式。本文用 HMC 的原因正是高维图像逆问题通常有很多可行解，尤其当 forward operator 丢失相位、遮挡大量像素或强降采样时，后验不是单峰的。HMC 给 \(x_T\) 引入辅助动量 \(p\)，在势能和动能组成的 Hamiltonian 中沿轨道前进，比随机游走式 MCMC 更适合高维空间。

在 N-HMC 中，当前 Hamiltonian 可以理解为三项相加：噪声先验能量 \(\frac{1}{2}\|x_T\|^2\)、测量残差能量 \(\frac{1}{2\sigma_y^2}\|y-A(D(x_T))\|^2\)、动量能量 \(\frac{1}{2}p^\top p\)。leapfrog 更新会交替更新动量和位置，最后用 MH 接受概率 \(\min(1,\exp(H_0-H_1))\) 修正数值误差。若 proposal 被拒绝，作者还会用因子 \(\gamma\) 衰减步长，避免在低后验概率初始区域一直失败。

这个设计的关键不是“把优化器换成采样器”这么简单，而是把正则化、探索和详细平衡放进同一个机制里。高斯先验把 \(x_T\) 拉回半径约为 \(\sqrt{n}\) 的高维球面附近，测量项让样本解释观测，动量轨迹则能跨过较浅局部坑。论文在相位恢复实验中展示，DPS 和 DMPlug 有时能成功，但很多初始化会走到伪解；NA-NHMC 由于早期探索更充分，成功率和初始化鲁棒性更好。

3. 噪声自适应似然：用边缘化替代手调噪声权重

现实逆问题最麻烦的一点是，测量噪声的类型和水平经常未知。很多方法把这个不确定性转嫁给超参数：比如数据一致性权重、早停阈值、采样步长或人为缩小的 \(\hat{\sigma}_y\)。本文的 NA-NHMC 选择从贝叶斯建模上处理它：令 \(\sigma_y^2\) 服从 Jeffreys prior \(p(\sigma_y^2)\propto 1/\sigma_y^2\)，再对噪声方差积分。

边缘化后，似然从固定方差的高斯形式变成

\[ p(y|x_T)\propto \left(\frac{1}{2}\|y-A(D(x_T))\|^2\right)^{-m/2}, \]

其中 \(m\) 是测量维度。对应的 Hamiltonian 不再需要 \(\sigma_y\)，而使用 \(\frac{m}{2}\log\|y-A(D(x_T))\|^2\) 作为数据项。它的梯度相当于用当前残差大小自动归一化：残差大时不过度放大数据项，残差小时也不会无限追噪声。作者进一步证明，在生成先验局部近似良好且 \(\sigma_0/\sigma_y\ll1\) 的条件下，这个自适应梯度会与已知真实噪声水平的 N-HMC 梯度一致。

这解释了论文实验里的一个重要现象：同一套 NA-NHMC 超参数可以跨任务、跨噪声水平使用，而不像 DPS 的学习率 \(\zeta_i\) 那样在不同任务间从 0.4 到 10.0 变化。Figure 2 还显示，在 Gaussian deblur 上，估计噪声标准差 \(\|y-A(\hat{x}_0)\|/\sqrt{m}\) 会贴近真实 \(\sigma_y\)，说明它并不是靠过拟合观测残差取胜。

4. 早期噪声退火：先放开探索，再收紧到后验

HMC 从随机 \(x_T\) 初始化时，初始点可能在非常低的后验区域。如果一开始就用目标噪声水平，测量项会很陡，HMC 为了维持接受率只能使用很小步长，探索会变慢甚至卡住。作者因此在采样早期使用较大的有效噪声 \(\sigma_{y,k}\)，让数据项先弱一些，允许轨迹在噪声空间跨得更远；等链条进入更合理区域后，再切换到目标或 noise-adaptive 似然。

默认实现里，除相位恢复外使用 \(L=20\)、初始步长 \(\delta_0=0.05\)、衰减因子 \(\gamma=0.95\)，前 10 个 HMC iterations 用退火 schedule，之后进入 Algorithm 3。相位恢复更病态，所以初始步长改为 \(0.2\)，并用更长的 50 轮退火。这个设计主要服务于多模态和高度病态任务：早期不要太快被某个局部模式吸住，后期再让测量一致性逐渐变强。

损失函数 / 训练策略¶

本文不是训练一个新扩散模型，而是直接使用预训练 diffusion model 作为先验，因此核心“训练策略”其实是推理时的采样配置。DDIM 只用两个 denoising steps，时间步为 \([375,750]\)，这是为了在反向传播通过 denoising 轨迹时控制显存和时间成本。作者在附录中说明，two-step DDIM 的基线开销约为 90 秒和 3.63GB 显存；每增加一个 diffusion step，大约多 45 秒和 1.84GB，三步虽略好但收益很小。

已知噪声 N-HMC 的势能为

\[ U(x_T)=\frac{1}{2}\|x_T\|^2+\frac{1}{2\sigma_y^2}\|y-A(D(x_T))\|^2. \]

未知噪声 NA-NHMC 则替换成

\[ U_{NA}(x_T)=\frac{1}{2}\|x_T\|^2+\frac{m}{2}\log\left(\|y-A(D(x_T))\|^2\right). \]

前者适用于知道高斯噪声标准差的理想场景，后者是主推版本，实验中用于未知噪声类型和水平。因为方法需要对 \(D(x_T)\) 反向传播，所以算力成本高于 DPS 这类简单 guidance 方法，但换来的是更稳定的后验探索和更少任务级调参。

实验关键数据¶

主实验¶

论文在 FFHQ 256×256 和 ImageNet 256×256 上评估 100 张验证图像，使用 PSNR、SSIM 和 LPIPS 衡量重建质量。任务包括四个线性逆问题：4×/16× 超分、92% 随机 inpainting、各向异性 Gaussian deblurring；以及三个非线性逆问题：nonlinear deblurring、phase retrieval、HDR reconstruction。下面摘取最能体现差异的非线性任务结果。

数据集 / 噪声	任务	指标	本文 NA-NHMC	之前最好或代表性 SOTA	提升 / 观察
FFHQ, \(\sigma_y=0.05\)	Nonlinear Deblurring	PSNR / SSIM / LPIPS	27.66 / 0.792 / 0.249	DMPlug 27.15 / 0.784 / 0.266	三个指标均更好
FFHQ, \(\sigma_y=0.05\)	Phase Retrieval	PSNR / SSIM / LPIPS	19.30 / 0.554 / 0.482	DAPS 18.52 / 0.414 / 0.528	病态多模态任务提升明显
FFHQ, \(\sigma_y=0.05\)	HDR Reconstruction	PSNR / SSIM / LPIPS	28.45 / 0.849 / 0.217	DPS 27.46 / 0.849 / 0.168	PSNR 最好，LPIPS 不如 DPS
ImageNet, \(\sigma_y=0.05\)	Nonlinear Deblurring	PSNR / SSIM / LPIPS	24.98 / 0.694 / 0.308	DAPS 24.28 / 0.632 / 0.404	三个指标均更好
ImageNet, \(\sigma_y=0.05\)	HDR Reconstruction	PSNR / SSIM / LPIPS	25.86 / 0.779 / 0.253	DPS 25.31 / 0.763 / 0.248	PSNR/SSIM 更好，LPIPS 接近
FFHQ, \(\sigma_y=0.20\)	Nonlinear Deblurring	PSNR / SSIM / LPIPS	24.89 / 0.705 / 0.317	DiffPIR 23.34 / 0.641 / 0.374	高噪声下优势扩大
FFHQ, \(\sigma_y=0.20\)	HDR Reconstruction	PSNR / SSIM / LPIPS	26.61 / 0.793 / 0.271	DPS 24.92 / 0.703 / 0.321	三个指标均更好

线性任务上，NA-NHMC 也大多有竞争力，但并不是每个指标都第一。例如 FFHQ、\(\sigma_y=0.05\) 的 4× 超分中，SITCOM 的 PSNR/SSIM 为 27.35/0.787，NA-NHMC 为 27.29/0.770；但在 Gaussian deblurring 上，NA-NHMC 以 28.36/0.798/0.259 超过其他方法。这个结果说明本文最强的卖点不是“所有低噪声线性任务都碾压”，而是在高噪声、非线性和多模态逆问题上更稳。

消融实验¶

配置 / 分析	关键指标	说明
HMC step size \(\epsilon=0.02\to0.20\)	SR×4 FFHQ PSNR 27.12 到 27.31，SSIM 0.745 到 0.772	性能对步长不敏感，说明 MH 接受/拒绝和步长衰减能缓解调参压力
Leapfrog steps \(L=10\to30\)	PSNR 26.86 到 27.34，LPIPS 0.318 到 0.281	更多 leapfrog 带来更充分探索，但收益逐渐变小
衰减因子 \(\gamma=0.91\to0.99\)	PSNR 基本在 27.29 到 27.31，LPIPS 在 0.288 到 0.291	步长衰减因子几乎不影响最终结果
HMC iterations	约 120 轮后质量开始平台化	与 MAP 方法不同，继续采样没有明显过拟合退化
Diffusion steps	two-step DDIM 约 90 秒 / 3.63GB；每多一步约 +45 秒 / +1.84GB	三步略好但成本增加约 50%，主实验采用两步
时间步 schedule \([375,750]\)	SR×4 FFHQ PSNR 27.29，SSIM 0.770	避免从纯高斯端点开始带来的数值不稳定

未知噪声鲁棒性¶

任务	噪声类型	指标	本文 NA-NHMC	最强对比方法	观察
Super Resolution ×4	Impulse	PSNR / SSIM / LPIPS	23.42 / 0.631 / 0.382	ReSample 22.98 / 0.639 / 0.483	PSNR 和 LPIPS 最好，SSIM 略低
Super Resolution ×4	Speckle	PSNR / SSIM / LPIPS	27.36 / 0.768 / 0.290	DPS 27.00 / 0.761 / 0.246	PSNR/SSIM 最好，LPIPS 不如 DPS
Nonlinear Deblurring	Impulse	PSNR / SSIM / LPIPS	24.16 / 0.677 / 0.319	DMPlug 23.79 / 0.662 / 0.335	三个指标均最好
Nonlinear Deblurring	Speckle	PSNR / SSIM / LPIPS	27.97 / 0.796 / 0.253	SITCOM 26.49 / 0.667 / 0.295	三个指标均最好

关键发现¶

NA-NHMC 的优势在非线性、高噪声和未知噪声场景最明显，符合它“后验探索 + 噪声自适应”的定位。
在 phase retrieval 中，退火 schedule 对避免局部模式很关键；论文报告 NA-NHMC 在 100 次独立运行中的像素级标准差更低，DPS 虽平均误差可接近，但初始化敏感且会出现伪影。
线性低噪声任务上，NA-NHMC 与 SITCOM、DPS、DMPlug 等方法互有胜负，因此不能简单概括为所有任务 SOTA；更准确的结论是它用一套超参数获得跨任务稳健表现。
未知 impulse / speckle 噪声下，NA-NHMC 没有改超参数仍保持强结果，说明边缘化噪声方差确实提供了自动归一化的数据项。

亮点与洞察¶

最巧妙的地方是把“流形可行性”问题转移到 latent/noise space：不再让似然梯度直接污染中间扩散状态，而是只移动 DDIM 初始噪声。这让扩散模型先验更像一个固定生成器，而不是一个随时被外力打断的 denoising chain。
HMC 在这里不是炫技，而是针对逆问题多模态性的自然选择。相位恢复等任务存在大量局部模式，确定性优化容易挑错一个；HMC 的动量轨迹和 MH 修正更适合在高维后验里走远一些。
Jeffreys prior 的使用把一个工程调参问题变成了一个可解释的贝叶斯边缘化问题。最终 \(\log\|y-A(D(x_T))\|^2\) 数据项可以看作残差自归一化，避免了“噪声越大越想把噪声拟合干净”的过拟合倾向。
论文对方法局限没有回避：HMC 的 warmup 和反向传播成本确实更高，因此它更适合重建质量、鲁棒性和不调参比速度更重要的场景。
这个思路可以迁移到其他生成先验逆问题：只要有一个确定性生成映射 \(D(z)\) 和可微 forward operator \(A\)，就可以考虑在 \(z\) 空间做后验采样，并把未知噪声方差边缘化。

局限与展望¶

计算成本高于 DPS 等 guidance 方法。每个 HMC proposal 都要通过 DDIM 映射并反向传播，虽然作者用 two-step DDIM 控制了成本，但 warmup 仍可能很长。
方法依赖 forward operator \(A\) 可微或至少能对 \(A(D(x_T))\) 反向传播。对于不可微、黑盒或离散测量过程，直接套用会遇到困难。
理论分析使用了局部高斯近似和近似线性的 forward operator 假设，真实图像流形和复杂非线性成像过程未必完全满足这些条件。
NA-NHMC 假设未知噪声的处理从高斯似然和 Jeffreys prior 出发，虽然 impulse / speckle 实验表现不错，但这更多是经验鲁棒性，不等于对任意噪声分布都有理论保证。
目前实验主要是 256×256 图像逆问题。更高分辨率、视频、3D 或医学成像中的复杂物理 forward model 会放大 HMC 的显存和时间压力。
后续可以探索更高效的梯度估计、更快的 warmup、预条件质量矩阵，或用学习到的 proposal 来减少 HMC 采样成本。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 噪声空间 HMC 和未知噪声边缘化结合得很自然，针对扩散逆问题的三个痛点给出了统一解释。
实验充分度: ⭐⭐⭐⭐⭐ 覆盖 FFHQ/ImageNet、线性/非线性、高斯/非高斯噪声，并有超参敏感性、步数和初始化鲁棒性分析。
写作质量: ⭐⭐⭐⭐☆ 论文结构清楚，图示有效；但理论假设和 NA-NHMC 公式推导对非贝叶斯读者略密集。
价值: ⭐⭐⭐⭐⭐ 对“不知道噪声水平还要解逆问题”的实际场景很有价值，尤其适合重建质量和稳健性优先的图像复原任务。