LD-RPS: Zero-Shot Unified Image Restoration via Latent Diffusion Recurrent Posterior Sampling¶

会议: ICCV 2025
arXiv: 2507.00790
代码: https://github.com/AMAP-ML/LD-RPS
领域: 图像生成
关键词: 零样本图像复原, 后验采样, 潜在扩散, 循环精炼, 多模态先验

一句话总结¶

LD-RPS 提出一种零样本、无数据集的统一图像复原方法，利用预训练潜在扩散模型进行循环后验采样，通过多模态大模型提供语义先验、可学习 F-PAM 模块对齐退化域，实现多种退化类型的高质量盲复原。

研究背景与动机¶

统一图像复原（UIR）旨在用单一模型处理多种退化类型（噪声、低光、去雾、着色等），是低级视觉的重要方向。现有方法面临三大问题：

任务特定方法缺乏泛化：传统方法（如 ZDCE++、AOD-Net）针对特定退化设计网络，无法推广到其他退化类型

监督统一方法受限于闭集：AirNet、PromptIR、DiffUIR 等在特定数据集上训练，遇到训练中未见的退化类型时性能显著下降

现有后验采样方法不稳定：GDP 等方法依赖像素级扩散和显式退化建模（y = Ax + B），对复杂真实退化不适用

理想的统一复原方案应同时满足：(1) 无监督——不依赖标注数据；(2) 无数据集——不需要训练数据收集；(3) 泛化——能处理未见退化类型。

作者的核心洞察：潜在空间比像素空间更适合后验采样——潜在表示过滤了冗余像素信息和退化噪声；循环采样比单次采样更稳定——将上一轮结果作为下一轮初始化，逐步提升质量。

方法详解¶

整体框架¶

LD-RPS 的推理流程包含三个核心组件：

MLLM 语义先验生成：用多模态大模型（如 GPT-4V）对低质量图像生成文本描述，作为扩散模型的 text embedding 引导
F-PAM（特征与像素对齐模块）：可学习的轻量网络，桥接退化图像域和扩散模型生成域
循环后验采样：将单次后验采样扩展为多轮循环精炼

关键设计¶

1. 任务盲语义先验生成

利用 MLLM 的图像理解能力，从退化图像中提取语义信息：输入低质量图像和手工设计的 prompt → MLLM 生成图像内容描述 → 编码为 text embedding c → 引导扩散模型生成目标内容。这避免了需要人工指定退化类型的问题。

2. F-PAM：特征与像素对齐模块

这是应对 LD-RPS 特殊挑战的核心设计。需要对齐两个 gap： - 空间 gap：潜在空间 z 与图像空间 x 的维度差异 - 域 gap：正常图像域与退化图像域的分布差异

F-PAM 结构：ψ[z̃₀, z̃₀'] = h₂(h₁(f[z̃₀, z̃₀'])) + p ⊙ h₁(f[z̃₀, z̃₀'])

其中 f 是冻结的 VAE 解码器，h₁/h₂ 是可学习卷积网络，p 是可学习通道注意力因子。F-PAM 与反向扩散过程同步优化，使用 L2 loss + 感知 loss + GAN loss。

3. 两阶段后验采样

反向扩散过程分两步： - T → t₁（早期）：仅训练 F-PAM，g = 0，不干预扩散方向 - t₁ → 0（后期）：联合优化 F-PAM 和后验方向，通过梯度 g = ∇_{z_t} log p(y|ẑ₀) 修正采样路径

后验损失包含： - 距离 loss L：L2 + 感知 loss + GAN loss（退化→退化域对齐） - 质量 loss Q：亮度约束 + 色度一致性约束

4. 循环精炼（Recurrent Refinement）

核心思想：将第 i 轮的复原结果 x₀^(i) 重新编码、加噪到 γT 步，作为第 (i+1) 轮的初始化。每轮从较低噪声水平开始，稳定性更好。循环因子 γ ∈ (0,1) 控制重新加噪程度。

损失函数 / 训练策略¶

LD-RPS 是纯推理方法，不需要预训练。但推理过程中涉及在线优化：

F-PAM 训练 loss S_ψ：L2 重建 + VGG 感知 + GAN 对抗
后验引导 loss L_total：距离 loss（L2 + 感知 + GAN）+ 质量 loss（亮度 + 色度）
类型判别器 D₂：区分"正常图像-退化图像"和"生成图像-退化版本"的残差

所有实验在 NVIDIA H20 GPU 上进行，结果取 3 个随机种子的平均值。

实验关键数据¶

主实验¶

低光增强（LOLv1 数据集）：

方法	定义(B/D/U)	PSNR↑	SSIM↑	LPIPS↓	PI↓	NIQE↓
DiffUIR	✓/✗/✗	21.36	0.907	0.125	4.68	5.95
ZERO-IG	✗/✓/✓	17.22	0.794	0.184	4.92	6.22
GDP	✗/✓/✓	16.52	0.690	0.261	4.16	5.73
TAO	✓/✓/✓	15.84	0.757	0.363	6.34	8.79
LD-RPS	✓/✓/✓	17.45	0.804	0.277	4.79	5.52

去雾（RESIDE-HSTS 数据集）：

方法	PSNR↑	SSIM↑	LPIPS↓
YOLY	20.49	0.794	0.108
GDP	13.15	0.757	0.144
TAO	18.38	0.823	0.147
LD-RPS	21.45	0.813	0.177

消融实验¶

循环次数的影响（LOLv1 / RESIDE / Kodak24）：

循环次数	LOLv1 PSNR↑	RESIDE PSNR↑	Kodak24 PSNR↑
0	16.78	19.35	27.75
1	17.21	20.38	28.60
2	17.73	20.83	28.26
3	17.10	21.60	28.49

最优循环次数与退化-语义耦合程度相关：耦合越强（如去雾），需要更多循环。

文本引导的消融：

设置	LOLv1 PSNR	RESIDE PSNR	Kodak24 PSNR
w/o Text	16.03	19.63	28.13
Full (w/ Text)	17.73 (+1.70)	21.60 (+1.97)	28.60 (+0.47)

文本先验对所有任务都有显著提升，尤其是去雾（+1.97 PSNR）。

关键发现¶

LD-RPS 在零样本设置下超越所有后验采样基线：在低光、去雾、去噪三个任务上均优于 GDP 和 TAO
循环精炼有效但非越多越好：存在最优循环次数，过多循环可能导致质量下降
文本先验是关键加分项：MLLM 生成的语义描述为扩散模型提供了重要的生成方向引导
F-PAM 解决了隐式退化建模问题：相比 GDP 的显式建模 (y=Ax+B)，F-PAM 可以适应复杂非线性退化

亮点与洞察¶

潜在空间后验采样的思路很有远见：相比像素空间，潜在空间压缩掉了退化噪声，天然有利于复原
MLLM 提供零样本语义先验：巧妙利用大模型的图像理解能力弥补缺乏退化类型先验的问题
循环精炼思路简单有效：借鉴 bootstrap 思想，将单次采样不稳定性转化为多次迭代的稳定性
真正的统一零样本：同时满足 task-blind + dataset-free + unsupervised 三个条件

局限与展望¶

推理速度慢：循环采样 + F-PAM 在线训练使得单张图片处理时间较长
颜色偏差问题：在某些场景下仍有色偏，需要质量 loss Q 来约束
依赖 MLLM 质量：文本先验的质量取决于 MLLM 对退化图像的理解能力，MLLM 在严重退化时可能失效
GAN 判别器训练不稳定：在线训练判别器可能引入不稳定因素
缺乏超分辨率和去模糊的评测：仅验证了增强/去雾/去噪/着色，空间退化类型未覆盖

评分¶

新颖性: ⭐⭐⭐⭐
实验充分度: ⭐⭐⭐⭐
写作质量: ⭐⭐⭐⭐
价值: ⭐⭐⭐⭐