Learning Deblurring Texture Prior from Unpaired Data with Diffusion Model¶

会议: ICCV 2025
arXiv: 2507.13599
代码: 无
领域: 扩散模型 / 图像复原
关键词: 无监督去模糊、扩散模型、纹理先验、非配对训练、自适应滤波

一句话总结¶

TP-Diff 首次将扩散模型引入无配对图像去模糊任务，通过记忆增强的纹理先验编码器（TPE）学习空间可变的纹理先验，并设计滤波调制自注意力（FM-MSA）利用该先验实现精准去模糊，以仅 11.89M 参数在多个基准上刷新无监督 SOTA。

研究背景与动机¶

领域现状：图像去模糊是低级视觉的经典任务。有监督方法依赖合成的模糊-清晰配对数据训练，性能优越但在真实世界泛化差。真实配对数据（如双相机系统获取）采集昂贵且有相机特异性偏差。因此，从无配对数据直接学习去模糊更具实际价值。

现有痛点：现有无监督去模糊方法主要有三类范式：(1) 基于先验的方法难以用单一先验同时处理多种模糊；(2) 重模糊增强方法依赖预训练的有监督模型；(3) CycleGAN 类方法通过构建模糊-清晰循环来学习映射，但忽视了模糊的空间多样性，容易过拟合单一模糊模板。这些方法的共同问题是：无法有效建模真实世界中空间变化的复杂模糊模式。

核心矛盾：无配对设定下缺少像素级监督，模型很难学到具有空间分辨能力的去模糊策略——它需要"知道"图像不同区域有不同程度和类型的模糊，并针对性地恢复纹理。

本文目标：让扩散模型从无配对数据中学习空间可变的纹理先验，并利用该先验指导去模糊网络进行区域自适应的纹理恢复。

切入角度：扩散模型擅长建模复杂数据分布。与直接用扩散模型生成清晰图像（容易引入伪影）不同，作者让扩散模型生成一个中间表示——纹理先验，该先验编码了不同区域应有的纹理信息，再由专门的去模糊网络利用这些先验完成最终去模糊。

核心 idea：用带记忆机制的编码器从无配对清晰图像中提取纹理先验，训练扩散模型学会从噪声生成这种先验，并设计自适应滤波 Transformer 利用先验去除空间可变模糊。

方法详解¶

整体框架¶

TP-Diff 由四个核心组件组成：纹理先验编码器（TPE）、扩散模型（DM）、去模糊网络和重模糊网络。去模糊网络和重模糊网络构成循环结构用于无监督训练。训练分两个阶段：第一阶段用 TPE 从无配对数据中提取纹理先验 \(z\)，同时训练整个循环结构；第二阶段冻结 TPE 参数，训练 DM 学会从噪声生成纹理先验 \(\hat{z}\)，同时继续优化循环结构。推理时，仅需输入模糊图像，DM 从纯高斯噪声生成纹理先验，去模糊网络利用先验输出清晰图像。

关键设计¶

纹理先验编码器（Texture Prior Encoder, TPE）:
- 功能：从无配对的模糊图像和清晰图像中提取空间可变的纹理先验
- 核心思路：TPE 包含纹理-记忆增强部分和纹理-记忆转移部分。增强部分初始化一组可学习的记忆向量 \(\mathcal{M} \in \mathbb{R}^{N \times L}\)（\(N=256\)），并用清晰图像的纹理丰富 token 来增强记忆——通过注意力机制将清晰图像中的纹理模板写入记忆。转移部分将模糊图像编码为 token \(z_b\)，然后从增强后的记忆中检索与每个模糊 token 最相似的纹理表示（取注意力得分最高的那个，而非加权求和），组装为输出先验 \(z \in \mathbb{R}^{H \times W \times C}\)。这样，先验的每个空间位置对应该区域应有的纹理信息。
- 设计动机：记忆机制使得模型可以从所有训练清晰图像中积累纹理知识，而非仅依赖单张配对；取最相关而非加权和确保了先验在空间上的精确匹配。实验证明 TPE 对不同的无配对清晰图像采样策略都很鲁棒。
纹理传递 Transformer 层（TTformer）中的滤波调制多头自注意力（FM-MSA）:
- 功能：利用纹理先验自适应去除空间可变的模糊
- 核心思路：FM-MSA 用纹理先验 \(z\) 预测自适应滤波器的偏移量 \(\Delta p\) 和权重 \(\Delta m\)（公式 \(\Delta p, \Delta m = \text{Convs}(z)\)）。这些滤波参数基于先验知道每个位置的模糊类型，从而生成空间自适应的滤波特征 \(\tilde{\mathcal{F}}\)。然后将原始特征作为 Query、滤波后特征作为 Key/Value 做转置注意力，完成自适应的模糊去除。TTformer 还包含 TM-FFN 组件，用先验 \(z\) 生成动态调制参数 \(\gamma, \varphi\) 来调控局部特征聚合。整个 TTformer 在多尺度的去模糊网络中重复使用。
- 设计动机：标准自注意力是空间不变的，无法针对不同区域的不同模糊做差异化处理。通过先验驱动的自适应滤波，模型获得了"因地制宜"去模糊的能力。
小波对抗损失（Wavelet-based Adversarial Loss）:
- 功能：在训练中保留高频纹理细节
- 核心思路：对去模糊图像和清晰图像做小波变换提取高频分量 \(\Phi(\cdot)\)，然后在高频空间上应用对抗损失 \(\mathcal{L}_{Wave} = \mathbb{E}[\log D_S(\Phi(s))] + \mathbb{E}[\log(1 - D_S(\Phi(DN(b))))]\)。判别器在小波高频域而非像素域工作，迫使去模糊网络保留真实的纹理结构而非产生模糊但"安全"的低频输出。
- 设计动机：标准循环GAN损失容易导致高频纹理丢失，小波变换自然地将信号分频，在高频子带上做对抗训练是保纹理的高效方式。

损失函数 / 训练策略¶

第一阶段损失 \(\mathcal{L}_{s1} = \lambda_{GAN}\mathcal{L}_{GAN} + \lambda_{CYC}\mathcal{L}_{CYC} + \lambda_{Wave}\mathcal{L}_{Wave}\)，其中 \(\lambda_{GAN}=1, \lambda_{CYC}=0.1, \lambda_{Wave}=0.2\)。第二阶段增加扩散损失 \(\mathcal{L}_{s2} = \mathcal{L}_{s1} + \lambda_{diff}\|\hat{z} - z\|_1\)。扩散步数 \(T=8\)，两阶段各训练 200 epoch，Adam 优化器，学习率 \(10^{-4}\)，batch size 8，patch size 256×256。

实验关键数据¶

主实验¶

在 GoPro、HIDE、RealBlur-R、RealBlur-J 上的无配对训练对比（PSNR / SSIM）：

方法	GoPro PSNR	GoPro SSIM	HIDE PSNR	RealBlur-R PSNR	参数量
CycleGAN	22.54	0.757	21.81	12.38	11.38M
FCL-GAN	24.59	0.831	23.43	28.37	24.56M
UCL	25.06	0.839	23.85	30.53	19.45M
TP-Diff	28.13	0.903	26.70	34.95	11.89M
SEMGUD	29.06	0.927	27.64	35.51	67.9M
TP-Diff-se	30.16	0.934	28.21	35.32	11.89M

TP-Diff 以最小的参数量(11.89M)实现了无配对方法中的最佳性能。使用与 SEMGUD 相同的自增强策略后（TP-Diff-se），在 GoPro 上超出 SEMGUD 1.1 dB，参数量仅为其 1/6。

消融实验¶

配置	PSNR	SSIM	说明
Full model	28.13	0.903	完整 TP-Diff
w/o DM	26.46	0.867	去掉扩散模型，掉 1.67dB（最显著）
w/o TPE	27.36	0.886	去掉纹理先验编码器，掉 0.77dB
w/o TTformer	27.19	0.884	去掉纹理传递Transformer，掉 0.94dB
w/o Multi-Scale	27.89	0.896	去掉多尺度学习
w/o Joint-Train	27.65	0.896	DM不联合训练
w/o WaveLoss	28.01	0.899	去掉小波对抗损失

关键发现¶

扩散模型生成的纹理先验是最关键组件（去除后掉 1.67dB），远优于 Memory Bank、Sparse Coding 和 Vanilla VQ 等替代生成方式
TPE 的记忆机制对不同的无配对清晰图像采样策略（随机、聚类、单张重复）都很鲁棒，归功于可学习记忆的全局信息积累能力
扩散步数 \(T=8\) 足够重建高质量纹理先验，增加步数收益递减
自适应滤波（FM-MSA）优于无滤波、普通滤波、可变形滤波和可分离滤波等变体
在真实模糊数据集 RB2V_Street 和 RSBlur 上同样超越所有无配对方法，验证了泛化能力

亮点与洞察¶

首次将扩散模型引入无配对图像复原：打破了 DM 需要配对监督的常规认知，key insight 是让 DM 生成中间纹理先验而非最终清晰图像，巧妙绕开了无配对标签的限制。
记忆增强的纹理编码器设计精巧：可学习记忆作为纹理"知识库"跨样本积累信息，然后通过检索为每个模糊区域匹配最合适的纹理模板。这种"写入-检索"机制可以迁移到任何需要从无配对数据中学习域知识的任务。
空间自适应滤波的先验驱动策略：用纹理先验驱动滤波器参数预测，让模型在不同空间位置使用不同的去模糊策略。这种思路可以推广到去雾、去雨等其他空间可变退化任务。

局限与展望¶

纹理先验的空间分辨率与输入图像相同，高分辨率输入时扩散模型的计算开销会增长
重模糊网络使用标准 UNet，其模糊模拟能力有限，改进重模糊可能进一步提升性能
当前框架主要验证在运动模糊上，对散焦模糊等其他类型的适用性未充分探索
两阶段训练流程相对复杂，未来可探索端到端一阶段优化策略
可以尝试将纹理先验扩展到固定数量的紧凑表示，避免分辨率增长带来的计算增加

评分¶

新颖性: ⭐⭐⭐⭐ 首次将DM引入无配对复原，TPE记忆检索和FM-MSA自适应滤波设计均有创新
实验充分度: ⭐⭐⭐⭐⭐ 6个数据集、16种SOTA对比、7组消融、超参数敏感性分析，极为全面
写作质量: ⭐⭐⭐⭐ 方法描述清晰，图表丰富，但公式较多需要仔细对照图示理解
价值: ⭐⭐⭐⭐ 无配对去模糊的显著突破，纹理先验思路可推广到更多低级视觉任务