跳转至

Posterior Sampling by Combining Diffusion Models with Annealed Langevin Dynamics

会议: NeurIPS 2025
arXiv: 2510.26324
代码: 无
领域: 医学图像
关键词: 后验采样, 扩散模型, Langevin动力学, 逆问题, 压缩感知

一句话总结

提出将扩散模型与退火 Langevin 动力学结合的算法,仅需 \(L^4\) 精度的 score 估计即可在(局部)对数凹分布下实现多项式时间的后验采样,首次为带暖启动的逆问题求解提供理论保障。

研究背景与动机

领域现状:扩散模型是当前领先的生成建模方法,基于学习平滑 score \(s_{\sigma^2}(x)\) 并通过 SDE/ODE 采样。后验采样(从 \(p(x|y)\) 采样,其中 \(y = Ax + \xi\))涵盖修复、去模糊、MRI 重建等应用,是将生成模型作为先验的核心应用场景。

现有痛点: - 扩散模型擅长无条件采样但后验采样困难:平滑后的条件 score \(\nabla_x \log p(y|x_{\sigma_t^2})\) 难以精确计算,DPS 等方法为启发式近似 - Langevin 动力学可做后验采样但不鲁棒:需要 score 误差满足矩生成函数(MGF)界,远强于 \(L^2\) 界 - 一般性不可能结果:Gupta et al. 证明了在一般分布上,高效鲁棒的后验采样在计算上不可行

核心矛盾:扩散模型对无条件采样仅需 \(L^2\) 精度 score,但后验采样需要 MGF 精度——两者之间存在巨大鸿沟。

本文目标:在合理的分布假设下(对数凹),用比 MGF 弱得多的 score 精度保证实现高效后验采样。

切入角度:利用扩散模型提供良好初始化(将样本拉到数据流形上),再用退火 Langevin 动力学逐步逼近后验——两者互补。

核心 idea:扩散模型初始化 + 退火 Langevin 动力学,仅需 \(L^4\) score 精度即可在(局部)对数凹分布下高效后验采样。

方法详解

整体框架

Algorithm 1:PosteriorSampler 1. 构造递减噪声序列 \(\eta_1 > \eta_2 > \cdots > \eta_N = \eta\) 2. 生成辅助测量 \(y_i\)(通过添加噪声)使得 \(y_i \sim Ax + \mathcal{N}(0, \eta_i^2 I_m)\) 3. 用扩散 SDE 从 \(p(x)\) 采样 \(X_1\)(初始化) 4. 对 \(i = 1\)\(N-1\),运行 Langevin SDE:\(dx_t = \hat{s}_{i+1}(x_t^{(h)})dt + \sqrt{2}dB_t\) 5. 输出 \(X_N\) 作为 \(p(x|y)\) 的近似样本

关键设计

1. 退火方案的设计动机

问题:直接从 \(p(x)\) 运行 Langevin 到 \(p(x|y)\),中间时刻 \(x_t\) 的分布可能偏离数据流形,导致 score 估计不准确

核心洞察: - 在起点 \(t=0\)\(x_0 \sim p(x)\))和终点 \(t=\infty\)\(x_\infty \sim p(x|y)\)),score 估计在分布上是准确的 - 但中间时刻 \(x_t\) 的边际分布方差可能收缩(Figure 3 的高斯例子中方差降至 \(cI\), \(c<1\)),\(L^p\) 精度在此区域不够

解决方案:通过退火将单次长 Langevin 分解为 \(N\) 步短程混合: - 每步连接两个统计上相近的中间后验 \(p(x|y_i)\)\(p(x|y_{i+1})\) - 短程运行保证 \(x_t\) 不会远离其起始分布 - 频繁的"检查点"将过程重新锚定到 score 准确的区域

可容许调度要求: - \(\eta_1\) 足够大,使 \(p(x|y_1) \approx p(x)\) - 相邻 \(\eta_i\)\(\eta_{i+1}\) 足够接近

2. 全局对数凹情形(Theorem 1.1)

假设\(p(x)\)\(\alpha\)-强对数凹分布,score 为 \(L\)-Lipschitz

结论:若 score 误差满足 \(L^4\) 界(\(\mathbb{E}[\|\hat{s} - s\|^4] \leq \varepsilon_{\text{score}}^4\)),且 \(\varepsilon_{\text{score}} \leq \sqrt{\alpha}/K_1\),则 Algorithm 1 在 \(K_2 = \text{poly}(d, m, \|A\|/(\eta\sqrt{\alpha}), 1/\varepsilon, L/\alpha)\) 步内输出 TV 距离 \(\leq \varepsilon\) 的后验样本。

3. 局部对数凹情形(Theorem 1.2)

动机:如 MRI 重建,分布集中在低维流形附近,全局非对数凹但局部对数凹

关键思想:给定一个"粗略估计" \(x_0\)(如 LASSO),在 \(x_0\) 的邻域内 \(p(x)\) 可能是对数凹的。利用 \(x_0\) 作为高斯测量 \(x_0 = x + \mathcal{N}(0, \sigma^2 I)\),构造 \(p(x|x_0, y)\)

结论:只要局部对数凹区域的半径 \(R\) 足够大(多项式大于 \(\sigma\)),即可高效采样

4. 竞争性压缩感知(Corollary 1.3)

若存在"朴素算法"(如 LASSO)给出误差 \(\leq R\) 的初始估计,且 \(p(x)\)\(R \cdot \text{poly}\) 球内局部对数凹,则: - 任何指数时间算法能达到误差 \(r\) → 本文算法在多项式时间内达到误差 \(2r\)

损失函数/训练策略

本文为理论工作,不涉及训练。核心假设是已有满足 \(L^4\) 精度的 score 估计(由预训练扩散模型提供)。

实验关键数据

主实验:FFHQ-256 逆问题

在三个逆问题上验证(修复、4× 超分辨率、高斯去模糊):

任务 指标 DPS (baseline) 本文方法
Inpainting L2/FID 基线 当步长足够小时两项指标均超越 DPS
Super-resolution L2/FID 基线 L2 随退火时间降低
Gaussian deblur L2/FID 基线 L2 随退火时间降低

关键观察

  • 实验使用 1k FFHQ 验证图像和 DPS 预训练扩散模型
  • 初始重建由 DPS 获取,退火 Langevin 进一步精炼
  • 增加退火时间 → L2 降低但 FID 上升(trade-off)
  • 在修复任务中,步长足够小时,本文方法在 L2 和 FID 上均优于 DPS
  • 重建结果更好地保持了真实属性(Figure 5, 6 的定性对比)
  • 实验在 4× NVIDIA A100 GPU 上运行,每任务约 2 小时

亮点与洞察

  • 理论贡献突出:首次证明了在对数凹分布下,仅需 \(L^4\) score 精度即可实现后验采样,大幅弱化了 Langevin 所需的 MGF 条件
  • 退火方案的直觉解释优雅:分布逐步过渡,每步都在 score 准确的区域运行
  • 绕过了不可能性结果:通过暖启动/局部化条件,避开了一般性的计算下界
  • 局部对数凹的实用性:结合 LASSO 等传统方法的粗略估计,可处理流形上的分布
  • 对"硬实例"的精妙分析:展示了单向函数构造的下界实例如何在有暖启动时变得可解

局限与展望

  1. 对数凹假设仍然较强:真实图像分布通常是多模态的,非对数凹
  2. \(L^4\) 要求比 \(L^2\):仍然比无条件扩散模型所需的误差界更强
  3. 实验规模有限:仅在 FFHQ-256 上进行了有限的实验验证
  4. 计算成本较高:需要多步退火 Langevin,比单次扩散采样慢
  5. 依赖暖启动质量:局部对数凹情形下算法性能取决于初始估计的精度

相关工作与启发

  • 与 DPS、DDNM、DDRM 等扩散后验采样方法相比,本文提供了理论正确性保证
  • 与 DAPS (Zhang et al. 2025) 等使用退火 Langevin 的方法相比,首次给出了退火调度的设计准则和正确性保证
  • 核心启发:后验采样的困难在于"定位"——一旦通过粗略估计将搜索局部化,问题难度大幅降低

评分

⭐⭐⭐⭐ (4/5)

理由:理论贡献扎实优雅,核心洞察深刻(退火弥合 \(L^2\) 与 MGF 之间的鸿沟,暖启动绕过不可能结果),实验虽规模有限但验证了核心思想。作为理论工作具有重要的概念性贡献。