跳转至

Learning Deblurring Texture Prior from Unpaired Data with Diffusion Model

会议: ICCV 2025
arXiv: 2507.13599
代码: 无
领域: 扩散模型 / 图像复原
关键词: 无监督去模糊、扩散模型、纹理先验、非配对训练、自适应滤波

一句话总结

TP-Diff 首次将扩散模型引入无配对图像去模糊任务,通过记忆增强的纹理先验编码器(TPE)学习空间可变的纹理先验,并设计滤波调制自注意力(FM-MSA)利用该先验实现精准去模糊,以仅 11.89M 参数在多个基准上刷新无监督 SOTA。

研究背景与动机

领域现状:图像去模糊是低级视觉的经典任务。有监督方法依赖合成的模糊-清晰配对数据训练,性能优越但在真实世界泛化差。真实配对数据(如双相机系统获取)采集昂贵且有相机特异性偏差。因此,从无配对数据直接学习去模糊更具实际价值。

现有痛点:现有无监督去模糊方法主要有三类范式:(1) 基于先验的方法难以用单一先验同时处理多种模糊;(2) 重模糊增强方法依赖预训练的有监督模型;(3) CycleGAN 类方法通过构建模糊-清晰循环来学习映射,但忽视了模糊的空间多样性,容易过拟合单一模糊模板。这些方法的共同问题是:无法有效建模真实世界中空间变化的复杂模糊模式。

核心矛盾:无配对设定下缺少像素级监督,模型很难学到具有空间分辨能力的去模糊策略——它需要"知道"图像不同区域有不同程度和类型的模糊,并针对性地恢复纹理。

本文目标:让扩散模型从无配对数据中学习空间可变的纹理先验,并利用该先验指导去模糊网络进行区域自适应的纹理恢复。

切入角度:扩散模型擅长建模复杂数据分布。与直接用扩散模型生成清晰图像(容易引入伪影)不同,作者让扩散模型生成一个中间表示——纹理先验,该先验编码了不同区域应有的纹理信息,再由专门的去模糊网络利用这些先验完成最终去模糊。

核心 idea:用带记忆机制的编码器从无配对清晰图像中提取纹理先验,训练扩散模型学会从噪声生成这种先验,并设计自适应滤波 Transformer 利用先验去除空间可变模糊。

方法详解

整体框架

TP-Diff 由四个核心组件组成:纹理先验编码器(TPE)、扩散模型(DM)、去模糊网络和重模糊网络。去模糊网络和重模糊网络构成循环结构用于无监督训练。训练分两个阶段:第一阶段用 TPE 从无配对数据中提取纹理先验 \(z\),同时训练整个循环结构;第二阶段冻结 TPE 参数,训练 DM 学会从噪声生成纹理先验 \(\hat{z}\),同时继续优化循环结构。推理时,仅需输入模糊图像,DM 从纯高斯噪声生成纹理先验,去模糊网络利用先验输出清晰图像。

关键设计

  1. 纹理先验编码器(Texture Prior Encoder, TPE):

    • 功能:从无配对的模糊图像和清晰图像中提取空间可变的纹理先验
    • 核心思路:TPE 包含纹理-记忆增强部分和纹理-记忆转移部分。增强部分初始化一组可学习的记忆向量 \(\mathcal{M} \in \mathbb{R}^{N \times L}\)\(N=256\)),并用清晰图像的纹理丰富 token 来增强记忆——通过注意力机制将清晰图像中的纹理模板写入记忆。转移部分将模糊图像编码为 token \(z_b\),然后从增强后的记忆中检索与每个模糊 token 最相似的纹理表示(取注意力得分最高的那个,而非加权求和),组装为输出先验 \(z \in \mathbb{R}^{H \times W \times C}\)。这样,先验的每个空间位置对应该区域应有的纹理信息。
    • 设计动机:记忆机制使得模型可以从所有训练清晰图像中积累纹理知识,而非仅依赖单张配对;取最相关而非加权和确保了先验在空间上的精确匹配。实验证明 TPE 对不同的无配对清晰图像采样策略都很鲁棒。
  2. 纹理传递 Transformer 层(TTformer)中的滤波调制多头自注意力(FM-MSA):

    • 功能:利用纹理先验自适应去除空间可变的模糊
    • 核心思路:FM-MSA 用纹理先验 \(z\) 预测自适应滤波器的偏移量 \(\Delta p\) 和权重 \(\Delta m\)(公式 \(\Delta p, \Delta m = \text{Convs}(z)\))。这些滤波参数基于先验知道每个位置的模糊类型,从而生成空间自适应的滤波特征 \(\tilde{\mathcal{F}}\)。然后将原始特征作为 Query、滤波后特征作为 Key/Value 做转置注意力,完成自适应的模糊去除。TTformer 还包含 TM-FFN 组件,用先验 \(z\) 生成动态调制参数 \(\gamma, \varphi\) 来调控局部特征聚合。整个 TTformer 在多尺度的去模糊网络中重复使用。
    • 设计动机:标准自注意力是空间不变的,无法针对不同区域的不同模糊做差异化处理。通过先验驱动的自适应滤波,模型获得了"因地制宜"去模糊的能力。
  3. 小波对抗损失(Wavelet-based Adversarial Loss):

    • 功能:在训练中保留高频纹理细节
    • 核心思路:对去模糊图像和清晰图像做小波变换提取高频分量 \(\Phi(\cdot)\),然后在高频空间上应用对抗损失 \(\mathcal{L}_{Wave} = \mathbb{E}[\log D_S(\Phi(s))] + \mathbb{E}[\log(1 - D_S(\Phi(DN(b))))]\)。判别器在小波高频域而非像素域工作,迫使去模糊网络保留真实的纹理结构而非产生模糊但"安全"的低频输出。
    • 设计动机:标准循环GAN损失容易导致高频纹理丢失,小波变换自然地将信号分频,在高频子带上做对抗训练是保纹理的高效方式。

损失函数 / 训练策略

第一阶段损失 \(\mathcal{L}_{s1} = \lambda_{GAN}\mathcal{L}_{GAN} + \lambda_{CYC}\mathcal{L}_{CYC} + \lambda_{Wave}\mathcal{L}_{Wave}\),其中 \(\lambda_{GAN}=1, \lambda_{CYC}=0.1, \lambda_{Wave}=0.2\)。第二阶段增加扩散损失 \(\mathcal{L}_{s2} = \mathcal{L}_{s1} + \lambda_{diff}\|\hat{z} - z\|_1\)。扩散步数 \(T=8\),两阶段各训练 200 epoch,Adam 优化器,学习率 \(10^{-4}\),batch size 8,patch size 256×256。

实验关键数据

主实验

在 GoPro、HIDE、RealBlur-R、RealBlur-J 上的无配对训练对比(PSNR / SSIM):

方法 GoPro PSNR GoPro SSIM HIDE PSNR RealBlur-R PSNR 参数量
CycleGAN 22.54 0.757 21.81 12.38 11.38M
FCL-GAN 24.59 0.831 23.43 28.37 24.56M
UCL 25.06 0.839 23.85 30.53 19.45M
TP-Diff 28.13 0.903 26.70 34.95 11.89M
SEMGUD 29.06 0.927 27.64 35.51 67.9M
TP-Diff-se 30.16 0.934 28.21 35.32 11.89M

TP-Diff 以最小的参数量(11.89M)实现了无配对方法中的最佳性能。使用与 SEMGUD 相同的自增强策略后(TP-Diff-se),在 GoPro 上超出 SEMGUD 1.1 dB,参数量仅为其 1/6。

消融实验

配置 PSNR SSIM 说明
Full model 28.13 0.903 完整 TP-Diff
w/o DM 26.46 0.867 去掉扩散模型,掉 1.67dB(最显著)
w/o TPE 27.36 0.886 去掉纹理先验编码器,掉 0.77dB
w/o TTformer 27.19 0.884 去掉纹理传递Transformer,掉 0.94dB
w/o Multi-Scale 27.89 0.896 去掉多尺度学习
w/o Joint-Train 27.65 0.896 DM不联合训练
w/o WaveLoss 28.01 0.899 去掉小波对抗损失

关键发现

  • 扩散模型生成的纹理先验是最关键组件(去除后掉 1.67dB),远优于 Memory Bank、Sparse Coding 和 Vanilla VQ 等替代生成方式
  • TPE 的记忆机制对不同的无配对清晰图像采样策略(随机、聚类、单张重复)都很鲁棒,归功于可学习记忆的全局信息积累能力
  • 扩散步数 \(T=8\) 足够重建高质量纹理先验,增加步数收益递减
  • 自适应滤波(FM-MSA)优于无滤波、普通滤波、可变形滤波和可分离滤波等变体
  • 在真实模糊数据集 RB2V_Street 和 RSBlur 上同样超越所有无配对方法,验证了泛化能力

亮点与洞察

  • 首次将扩散模型引入无配对图像复原:打破了 DM 需要配对监督的常规认知,key insight 是让 DM 生成中间纹理先验而非最终清晰图像,巧妙绕开了无配对标签的限制。
  • 记忆增强的纹理编码器设计精巧:可学习记忆作为纹理"知识库"跨样本积累信息,然后通过检索为每个模糊区域匹配最合适的纹理模板。这种"写入-检索"机制可以迁移到任何需要从无配对数据中学习域知识的任务。
  • 空间自适应滤波的先验驱动策略:用纹理先验驱动滤波器参数预测,让模型在不同空间位置使用不同的去模糊策略。这种思路可以推广到去雾、去雨等其他空间可变退化任务。

局限与展望

  • 纹理先验的空间分辨率与输入图像相同,高分辨率输入时扩散模型的计算开销会增长
  • 重模糊网络使用标准 UNet,其模糊模拟能力有限,改进重模糊可能进一步提升性能
  • 当前框架主要验证在运动模糊上,对散焦模糊等其他类型的适用性未充分探索
  • 两阶段训练流程相对复杂,未来可探索端到端一阶段优化策略
  • 可以尝试将纹理先验扩展到固定数量的紧凑表示,避免分辨率增长带来的计算增加

相关工作与启发

  • vs HiDiff:HiDiff 也用 DM 生成先验辅助去模糊,但其先验是空间无序的、数量固定的,且需要配对数据训练。TP-Diff 的先验是空间对齐的、与输入同分辨率的、从无配对数据中学到的,表征能力更强(TPE 0.12M vs HiDiff 0.44M 参数的去噪网络)。
  • vs SEMGUD:SEMGUD 通过自增强策略引入预训练有监督模型(NAFNet 33.69dB),公平性存疑。TP-Diff 从零开始训练即达 28.13dB;使用相同自增强策略后更是达到 30.16dB,超过 SEMGUD 的 29.06dB。
  • vs CycleGAN 系列:传统 CycleGAN 方法在模糊-清晰域之间做全局翻译,忽视空间多样性。TP-Diff 利用纹理先验实现了空间自适应处理,PSNR 提升 3-5dB。

评分

  • 新颖性: ⭐⭐⭐⭐ 首次将DM引入无配对复原,TPE记忆检索和FM-MSA自适应滤波设计均有创新
  • 实验充分度: ⭐⭐⭐⭐⭐ 6个数据集、16种SOTA对比、7组消融、超参数敏感性分析,极为全面
  • 写作质量: ⭐⭐⭐⭐ 方法描述清晰,图表丰富,但公式较多需要仔细对照图示理解
  • 价值: ⭐⭐⭐⭐ 无配对去模糊的显著突破,纹理先验思路可推广到更多低级视觉任务