Learning Deblurring Texture Prior from Unpaired Data with Diffusion Model¶
会议: ICCV 2025
arXiv: 2507.13599
代码: 无
领域: 扩散模型 / 图像复原
关键词: 无监督去模糊、扩散模型、纹理先验、非配对训练、自适应滤波
一句话总结¶
TP-Diff 首次将扩散模型引入无配对图像去模糊任务,通过记忆增强的纹理先验编码器(TPE)学习空间可变的纹理先验,并设计滤波调制自注意力(FM-MSA)利用该先验实现精准去模糊,以仅 11.89M 参数在多个基准上刷新无监督 SOTA。
研究背景与动机¶
领域现状:图像去模糊是低级视觉的经典任务。有监督方法依赖合成的模糊-清晰配对数据训练,性能优越但在真实世界泛化差。真实配对数据(如双相机系统获取)采集昂贵且有相机特异性偏差。因此,从无配对数据直接学习去模糊更具实际价值。
现有痛点:现有无监督去模糊方法主要有三类范式:(1) 基于先验的方法难以用单一先验同时处理多种模糊;(2) 重模糊增强方法依赖预训练的有监督模型;(3) CycleGAN 类方法通过构建模糊-清晰循环来学习映射,但忽视了模糊的空间多样性,容易过拟合单一模糊模板。这些方法的共同问题是:无法有效建模真实世界中空间变化的复杂模糊模式。
核心矛盾:无配对设定下缺少像素级监督,模型很难学到具有空间分辨能力的去模糊策略——它需要"知道"图像不同区域有不同程度和类型的模糊,并针对性地恢复纹理。
本文目标:让扩散模型从无配对数据中学习空间可变的纹理先验,并利用该先验指导去模糊网络进行区域自适应的纹理恢复。
切入角度:扩散模型擅长建模复杂数据分布。与直接用扩散模型生成清晰图像(容易引入伪影)不同,作者让扩散模型生成一个中间表示——纹理先验,该先验编码了不同区域应有的纹理信息,再由专门的去模糊网络利用这些先验完成最终去模糊。
核心 idea:用带记忆机制的编码器从无配对清晰图像中提取纹理先验,训练扩散模型学会从噪声生成这种先验,并设计自适应滤波 Transformer 利用先验去除空间可变模糊。
方法详解¶
整体框架¶
TP-Diff 由四个核心组件组成:纹理先验编码器(TPE)、扩散模型(DM)、去模糊网络和重模糊网络。去模糊网络和重模糊网络构成循环结构用于无监督训练。训练分两个阶段:第一阶段用 TPE 从无配对数据中提取纹理先验 \(z\),同时训练整个循环结构;第二阶段冻结 TPE 参数,训练 DM 学会从噪声生成纹理先验 \(\hat{z}\),同时继续优化循环结构。推理时,仅需输入模糊图像,DM 从纯高斯噪声生成纹理先验,去模糊网络利用先验输出清晰图像。
关键设计¶
-
纹理先验编码器(Texture Prior Encoder, TPE):
- 功能:从无配对的模糊图像和清晰图像中提取空间可变的纹理先验
- 核心思路:TPE 包含纹理-记忆增强部分和纹理-记忆转移部分。增强部分初始化一组可学习的记忆向量 \(\mathcal{M} \in \mathbb{R}^{N \times L}\)(\(N=256\)),并用清晰图像的纹理丰富 token 来增强记忆——通过注意力机制将清晰图像中的纹理模板写入记忆。转移部分将模糊图像编码为 token \(z_b\),然后从增强后的记忆中检索与每个模糊 token 最相似的纹理表示(取注意力得分最高的那个,而非加权求和),组装为输出先验 \(z \in \mathbb{R}^{H \times W \times C}\)。这样,先验的每个空间位置对应该区域应有的纹理信息。
- 设计动机:记忆机制使得模型可以从所有训练清晰图像中积累纹理知识,而非仅依赖单张配对;取最相关而非加权和确保了先验在空间上的精确匹配。实验证明 TPE 对不同的无配对清晰图像采样策略都很鲁棒。
-
纹理传递 Transformer 层(TTformer)中的滤波调制多头自注意力(FM-MSA):
- 功能:利用纹理先验自适应去除空间可变的模糊
- 核心思路:FM-MSA 用纹理先验 \(z\) 预测自适应滤波器的偏移量 \(\Delta p\) 和权重 \(\Delta m\)(公式 \(\Delta p, \Delta m = \text{Convs}(z)\))。这些滤波参数基于先验知道每个位置的模糊类型,从而生成空间自适应的滤波特征 \(\tilde{\mathcal{F}}\)。然后将原始特征作为 Query、滤波后特征作为 Key/Value 做转置注意力,完成自适应的模糊去除。TTformer 还包含 TM-FFN 组件,用先验 \(z\) 生成动态调制参数 \(\gamma, \varphi\) 来调控局部特征聚合。整个 TTformer 在多尺度的去模糊网络中重复使用。
- 设计动机:标准自注意力是空间不变的,无法针对不同区域的不同模糊做差异化处理。通过先验驱动的自适应滤波,模型获得了"因地制宜"去模糊的能力。
-
小波对抗损失(Wavelet-based Adversarial Loss):
- 功能:在训练中保留高频纹理细节
- 核心思路:对去模糊图像和清晰图像做小波变换提取高频分量 \(\Phi(\cdot)\),然后在高频空间上应用对抗损失 \(\mathcal{L}_{Wave} = \mathbb{E}[\log D_S(\Phi(s))] + \mathbb{E}[\log(1 - D_S(\Phi(DN(b))))]\)。判别器在小波高频域而非像素域工作,迫使去模糊网络保留真实的纹理结构而非产生模糊但"安全"的低频输出。
- 设计动机:标准循环GAN损失容易导致高频纹理丢失,小波变换自然地将信号分频,在高频子带上做对抗训练是保纹理的高效方式。
损失函数 / 训练策略¶
第一阶段损失 \(\mathcal{L}_{s1} = \lambda_{GAN}\mathcal{L}_{GAN} + \lambda_{CYC}\mathcal{L}_{CYC} + \lambda_{Wave}\mathcal{L}_{Wave}\),其中 \(\lambda_{GAN}=1, \lambda_{CYC}=0.1, \lambda_{Wave}=0.2\)。第二阶段增加扩散损失 \(\mathcal{L}_{s2} = \mathcal{L}_{s1} + \lambda_{diff}\|\hat{z} - z\|_1\)。扩散步数 \(T=8\),两阶段各训练 200 epoch,Adam 优化器,学习率 \(10^{-4}\),batch size 8,patch size 256×256。
实验关键数据¶
主实验¶
在 GoPro、HIDE、RealBlur-R、RealBlur-J 上的无配对训练对比(PSNR / SSIM):
| 方法 | GoPro PSNR | GoPro SSIM | HIDE PSNR | RealBlur-R PSNR | 参数量 |
|---|---|---|---|---|---|
| CycleGAN | 22.54 | 0.757 | 21.81 | 12.38 | 11.38M |
| FCL-GAN | 24.59 | 0.831 | 23.43 | 28.37 | 24.56M |
| UCL | 25.06 | 0.839 | 23.85 | 30.53 | 19.45M |
| TP-Diff | 28.13 | 0.903 | 26.70 | 34.95 | 11.89M |
| SEMGUD | 29.06 | 0.927 | 27.64 | 35.51 | 67.9M |
| TP-Diff-se | 30.16 | 0.934 | 28.21 | 35.32 | 11.89M |
TP-Diff 以最小的参数量(11.89M)实现了无配对方法中的最佳性能。使用与 SEMGUD 相同的自增强策略后(TP-Diff-se),在 GoPro 上超出 SEMGUD 1.1 dB,参数量仅为其 1/6。
消融实验¶
| 配置 | PSNR | SSIM | 说明 |
|---|---|---|---|
| Full model | 28.13 | 0.903 | 完整 TP-Diff |
| w/o DM | 26.46 | 0.867 | 去掉扩散模型,掉 1.67dB(最显著) |
| w/o TPE | 27.36 | 0.886 | 去掉纹理先验编码器,掉 0.77dB |
| w/o TTformer | 27.19 | 0.884 | 去掉纹理传递Transformer,掉 0.94dB |
| w/o Multi-Scale | 27.89 | 0.896 | 去掉多尺度学习 |
| w/o Joint-Train | 27.65 | 0.896 | DM不联合训练 |
| w/o WaveLoss | 28.01 | 0.899 | 去掉小波对抗损失 |
关键发现¶
- 扩散模型生成的纹理先验是最关键组件(去除后掉 1.67dB),远优于 Memory Bank、Sparse Coding 和 Vanilla VQ 等替代生成方式
- TPE 的记忆机制对不同的无配对清晰图像采样策略(随机、聚类、单张重复)都很鲁棒,归功于可学习记忆的全局信息积累能力
- 扩散步数 \(T=8\) 足够重建高质量纹理先验,增加步数收益递减
- 自适应滤波(FM-MSA)优于无滤波、普通滤波、可变形滤波和可分离滤波等变体
- 在真实模糊数据集 RB2V_Street 和 RSBlur 上同样超越所有无配对方法,验证了泛化能力
亮点与洞察¶
- 首次将扩散模型引入无配对图像复原:打破了 DM 需要配对监督的常规认知,key insight 是让 DM 生成中间纹理先验而非最终清晰图像,巧妙绕开了无配对标签的限制。
- 记忆增强的纹理编码器设计精巧:可学习记忆作为纹理"知识库"跨样本积累信息,然后通过检索为每个模糊区域匹配最合适的纹理模板。这种"写入-检索"机制可以迁移到任何需要从无配对数据中学习域知识的任务。
- 空间自适应滤波的先验驱动策略:用纹理先验驱动滤波器参数预测,让模型在不同空间位置使用不同的去模糊策略。这种思路可以推广到去雾、去雨等其他空间可变退化任务。
局限与展望¶
- 纹理先验的空间分辨率与输入图像相同,高分辨率输入时扩散模型的计算开销会增长
- 重模糊网络使用标准 UNet,其模糊模拟能力有限,改进重模糊可能进一步提升性能
- 当前框架主要验证在运动模糊上,对散焦模糊等其他类型的适用性未充分探索
- 两阶段训练流程相对复杂,未来可探索端到端一阶段优化策略
- 可以尝试将纹理先验扩展到固定数量的紧凑表示,避免分辨率增长带来的计算增加
相关工作与启发¶
- vs HiDiff:HiDiff 也用 DM 生成先验辅助去模糊,但其先验是空间无序的、数量固定的,且需要配对数据训练。TP-Diff 的先验是空间对齐的、与输入同分辨率的、从无配对数据中学到的,表征能力更强(TPE 0.12M vs HiDiff 0.44M 参数的去噪网络)。
- vs SEMGUD:SEMGUD 通过自增强策略引入预训练有监督模型(NAFNet 33.69dB),公平性存疑。TP-Diff 从零开始训练即达 28.13dB;使用相同自增强策略后更是达到 30.16dB,超过 SEMGUD 的 29.06dB。
- vs CycleGAN 系列:传统 CycleGAN 方法在模糊-清晰域之间做全局翻译,忽视空间多样性。TP-Diff 利用纹理先验实现了空间自适应处理,PSNR 提升 3-5dB。
评分¶
- 新颖性: ⭐⭐⭐⭐ 首次将DM引入无配对复原,TPE记忆检索和FM-MSA自适应滤波设计均有创新
- 实验充分度: ⭐⭐⭐⭐⭐ 6个数据集、16种SOTA对比、7组消融、超参数敏感性分析,极为全面
- 写作质量: ⭐⭐⭐⭐ 方法描述清晰,图表丰富,但公式较多需要仔细对照图示理解
- 价值: ⭐⭐⭐⭐ 无配对去模糊的显著突破,纹理先验思路可推广到更多低级视觉任务