LD-RPS: Zero-Shot Unified Image Restoration via Latent Diffusion Recurrent Posterior Sampling¶
会议: ICCV 2025
arXiv: 2507.00790
代码: https://github.com/AMAP-ML/LD-RPS
领域: 图像生成
关键词: 零样本图像复原, 后验采样, 潜在扩散, 循环精炼, 多模态先验
一句话总结¶
LD-RPS 提出一种零样本、无数据集的统一图像复原方法,利用预训练潜在扩散模型进行循环后验采样,通过多模态大模型提供语义先验、可学习 F-PAM 模块对齐退化域,实现多种退化类型的高质量盲复原。
研究背景与动机¶
统一图像复原(UIR)旨在用单一模型处理多种退化类型(噪声、低光、去雾、着色等),是低级视觉的重要方向。现有方法面临三大问题:
任务特定方法缺乏泛化:传统方法(如 ZDCE++、AOD-Net)针对特定退化设计网络,无法推广到其他退化类型
监督统一方法受限于闭集:AirNet、PromptIR、DiffUIR 等在特定数据集上训练,遇到训练中未见的退化类型时性能显著下降
现有后验采样方法不稳定:GDP 等方法依赖像素级扩散和显式退化建模(y = Ax + B),对复杂真实退化不适用
理想的统一复原方案应同时满足:(1) 无监督——不依赖标注数据;(2) 无数据集——不需要训练数据收集;(3) 泛化——能处理未见退化类型。
作者的核心洞察:潜在空间比像素空间更适合后验采样——潜在表示过滤了冗余像素信息和退化噪声;循环采样比单次采样更稳定——将上一轮结果作为下一轮初始化,逐步提升质量。
方法详解¶
整体框架¶
LD-RPS 的推理流程包含三个核心组件:
- MLLM 语义先验生成:用多模态大模型(如 GPT-4V)对低质量图像生成文本描述,作为扩散模型的 text embedding 引导
- F-PAM(特征与像素对齐模块):可学习的轻量网络,桥接退化图像域和扩散模型生成域
- 循环后验采样:将单次后验采样扩展为多轮循环精炼
关键设计¶
1. 任务盲语义先验生成
利用 MLLM 的图像理解能力,从退化图像中提取语义信息:输入低质量图像和手工设计的 prompt → MLLM 生成图像内容描述 → 编码为 text embedding c → 引导扩散模型生成目标内容。这避免了需要人工指定退化类型的问题。
2. F-PAM:特征与像素对齐模块
这是应对 LD-RPS 特殊挑战的核心设计。需要对齐两个 gap: - 空间 gap:潜在空间 z 与图像空间 x 的维度差异 - 域 gap:正常图像域与退化图像域的分布差异
F-PAM 结构:ψ[z̃₀, z̃₀'] = h₂(h₁(f[z̃₀, z̃₀'])) + p ⊙ h₁(f[z̃₀, z̃₀'])
其中 f 是冻结的 VAE 解码器,h₁/h₂ 是可学习卷积网络,p 是可学习通道注意力因子。F-PAM 与反向扩散过程同步优化,使用 L2 loss + 感知 loss + GAN loss。
3. 两阶段后验采样
反向扩散过程分两步: - T → t₁(早期):仅训练 F-PAM,g = 0,不干预扩散方向 - t₁ → 0(后期):联合优化 F-PAM 和后验方向,通过梯度 g = ∇_{z_t} log p(y|ẑ₀) 修正采样路径
后验损失包含: - 距离 loss L:L2 + 感知 loss + GAN loss(退化→退化域对齐) - 质量 loss Q:亮度约束 + 色度一致性约束
4. 循环精炼(Recurrent Refinement)
核心思想:将第 i 轮的复原结果 x₀^(i) 重新编码、加噪到 γT 步,作为第 (i+1) 轮的初始化。每轮从较低噪声水平开始,稳定性更好。循环因子 γ ∈ (0,1) 控制重新加噪程度。
损失函数 / 训练策略¶
LD-RPS 是纯推理方法,不需要预训练。但推理过程中涉及在线优化:
- F-PAM 训练 loss S_ψ:L2 重建 + VGG 感知 + GAN 对抗
- 后验引导 loss L_total:距离 loss(L2 + 感知 + GAN)+ 质量 loss(亮度 + 色度)
- 类型判别器 D₂:区分"正常图像-退化图像"和"生成图像-退化版本"的残差
所有实验在 NVIDIA H20 GPU 上进行,结果取 3 个随机种子的平均值。
实验关键数据¶
主实验¶
低光增强(LOLv1 数据集):
| 方法 | 定义(B/D/U) | PSNR↑ | SSIM↑ | LPIPS↓ | PI↓ | NIQE↓ |
|---|---|---|---|---|---|---|
| DiffUIR | ✓/✗/✗ | 21.36 | 0.907 | 0.125 | 4.68 | 5.95 |
| ZERO-IG | ✗/✓/✓ | 17.22 | 0.794 | 0.184 | 4.92 | 6.22 |
| GDP | ✗/✓/✓ | 16.52 | 0.690 | 0.261 | 4.16 | 5.73 |
| TAO | ✓/✓/✓ | 15.84 | 0.757 | 0.363 | 6.34 | 8.79 |
| LD-RPS | ✓/✓/✓ | 17.45 | 0.804 | 0.277 | 4.79 | 5.52 |
去雾(RESIDE-HSTS 数据集):
| 方法 | PSNR↑ | SSIM↑ | LPIPS↓ |
|---|---|---|---|
| YOLY | 20.49 | 0.794 | 0.108 |
| GDP | 13.15 | 0.757 | 0.144 |
| TAO | 18.38 | 0.823 | 0.147 |
| LD-RPS | 21.45 | 0.813 | 0.177 |
消融实验¶
循环次数的影响(LOLv1 / RESIDE / Kodak24):
| 循环次数 | LOLv1 PSNR↑ | RESIDE PSNR↑ | Kodak24 PSNR↑ |
|---|---|---|---|
| 0 | 16.78 | 19.35 | 27.75 |
| 1 | 17.21 | 20.38 | 28.60 |
| 2 | 17.73 | 20.83 | 28.26 |
| 3 | 17.10 | 21.60 | 28.49 |
最优循环次数与退化-语义耦合程度相关:耦合越强(如去雾),需要更多循环。
文本引导的消融:
| 设置 | LOLv1 PSNR | RESIDE PSNR | Kodak24 PSNR |
|---|---|---|---|
| w/o Text | 16.03 | 19.63 | 28.13 |
| Full (w/ Text) | 17.73 (+1.70) | 21.60 (+1.97) | 28.60 (+0.47) |
文本先验对所有任务都有显著提升,尤其是去雾(+1.97 PSNR)。
关键发现¶
- LD-RPS 在零样本设置下超越所有后验采样基线:在低光、去雾、去噪三个任务上均优于 GDP 和 TAO
- 循环精炼有效但非越多越好:存在最优循环次数,过多循环可能导致质量下降
- 文本先验是关键加分项:MLLM 生成的语义描述为扩散模型提供了重要的生成方向引导
- F-PAM 解决了隐式退化建模问题:相比 GDP 的显式建模 (y=Ax+B),F-PAM 可以适应复杂非线性退化
亮点与洞察¶
- 潜在空间后验采样的思路很有远见:相比像素空间,潜在空间压缩掉了退化噪声,天然有利于复原
- MLLM 提供零样本语义先验:巧妙利用大模型的图像理解能力弥补缺乏退化类型先验的问题
- 循环精炼思路简单有效:借鉴 bootstrap 思想,将单次采样不稳定性转化为多次迭代的稳定性
- 真正的统一零样本:同时满足 task-blind + dataset-free + unsupervised 三个条件
局限与展望¶
- 推理速度慢:循环采样 + F-PAM 在线训练使得单张图片处理时间较长
- 颜色偏差问题:在某些场景下仍有色偏,需要质量 loss Q 来约束
- 依赖 MLLM 质量:文本先验的质量取决于 MLLM 对退化图像的理解能力,MLLM 在严重退化时可能失效
- GAN 判别器训练不稳定:在线训练判别器可能引入不稳定因素
- 缺乏超分辨率和去模糊的评测:仅验证了增强/去雾/去噪/着色,空间退化类型未覆盖
相关工作与启发¶
- GDP:像素扩散后验采样方法,LD-RPS 的直接改进目标
- TAO:测试时自适应扩散方法,另一个后验采样基线
- DiffUIR / DA-CLIP:监督式统一复原,受限于闭集
- AirNet / PromptIR:退化感知统一复原,需要配对训练数据
- 启发:潜在空间 + 可学习退化映射 + 循环精炼的组合是零样本复原的有力范式;MLLM 可以作为通用的语义先验提供者
评分¶
- 新颖性: ⭐⭐⭐⭐
- 实验充分度: ⭐⭐⭐⭐
- 写作质量: ⭐⭐⭐⭐
- 价值: ⭐⭐⭐⭐