FideDiff: Efficient Diffusion Model for High-Fidelity Image Motion Deblurring¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=AFJMB9SkHT
代码: https://github.com/xyLiu339/FideDiff
领域: 图像恢复 / 运动去模糊 / 扩散模型
关键词: 单步扩散, 运动去模糊, 一致性模型, Kernel ControlNet, 高保真恢复

一句话总结¶

把运动去模糊重新表述成"以模糊程度为时间步"的类扩散过程，用一致性训练让所有时间步都对齐到同一张清晰图，从而实现单步、高保真的预训练扩散去模糊，并配上 Kernel ControlNet 注入模糊核先验和自适应时间步预测。

研究背景与动机¶

领域现状：CNN / Transformer 去模糊（Restormer、AdaRevD 等）在合成数据上 PSNR 很高，但缺乏对真实世界的理解，泛化到真实模糊场景时容易翻车；大规模预训练扩散模型（DM）自带丰富的真实世界先验，生成质量强，被寄望于成为去模糊新范式。
现有痛点：把 DM 用于去模糊有两个老大难——(a) 推理太慢，动辄几十上百步采样；(b) 保真度差，很多方法为了感知质量（CLIPIQA、MUSIQ 这类无参考指标）牺牲了 PSNR/LPIPS 这类全参考指标，输出"看着像但不是原图"。
核心矛盾：已有的单步扩散加速方案（OSEDiff、TSD-SR、FluxSR 等蒸馏路线）给所有低质图分配固定时间步，等于把迭代去噪坍缩成一次性回归，丢掉了扩散的归纳偏置，也无法区分不同模糊程度；同时这些方法目标错位——超分/去模糊本是全参考任务，却拿无参考感知指标当目标。
本文目标：在单步推理的前提下，把恢复保真度放在第一位，让预训练 DM 真正服务于工业级图像恢复。
核心 idea：【把模糊程度当时间步】 不再给所有图固定一个 t，而是把"逐渐变模糊"视为前向过程、每个时间步对应一档模糊严重度，再用【跨时间一致性】 强制 \(f_\theta(z_t,t)\) 对所有 t 都预测同一张清晰图，从而天然支持准确的一步去模糊。

方法详解¶

整体框架¶

FideDiff 基于 Stable Diffusion 2.1，由三块拼成：去模糊基座模型（一致性训练 + GAN 判别器保真）、Kernel ControlNet（注入模糊核先验 + 预测时间步）和重构后的 GoPro 训练数据（为每张模糊图配上确定的模糊轨迹）。训练分三阶段：先训基座，再预训练核估计网络，最后冻结基座只训 Kernel ControlNet。推理时用预测的 \(\hat t\) 一步出图。

flowchart LR
    A[模糊图 ILQ] --> B[VAE Encoder<br/>d=4]
    B --> C[z_t]
    A --> D[核估计 UNet M]
    D --> E[模糊核 k_t]
    D --> F[t-预测回归 T]
    F --> G[预测时间步 t̂]
    C --> H[基座 DM ε_θ<br/>LoRA 微调]
    E --> I[Kernel ControlNet<br/>filter 注入]
    G --> H
    I --> H
    H --> J[ẑ_0]
    J --> K[VAE Decoder]
    K --> L[清晰图 Î_HQ]

关键设计¶

1. 前向/后向重构：把运动模糊建模成类扩散链，点题在"以模糊轨迹定义前向过程"。 运动模糊可近似为清晰图与模糊核的卷积 \(I_{blur} \approx I_{sharp} * K + n\)。作者把清晰图记为 \(z_0\)、初始核为恒等卷积 \(k_0\)，定义前向核生成为一条链 \(q(k_{1:T}|k_0)=\prod_t q(k_t|k_{t-1:0})\)，每个状态 \(z_t = z_0 * k_t\) 对应一档模糊。难点在于真实核是逐像素、非马尔可夫的（受速度、冲量、惯性影响），\(q(k_t|z_t,z_0)\) 一般不可解、也无法用高斯近似，标准扩散的反向推导走不通。作者的破局点是回到 DM 的本质目标——重构 \(z_0\)，于是绕开对核分布的精确建模，直接把训练目标改写成跨时间一致性回归。

2. 跨时间一致性训练：让同一轨迹上所有时间步都映射到同一张清晰图，是单步推理的根基。 核心约束是 \(z_0 = f_\theta(z_t,t)=f_\theta(z_{t'},t')\)，优化目标为 \(\min_\theta \mathbb{E}_{t,z_0}\|f_\theta(z_t,t)-z_0\|^2\)。其理论依据是：标准扩散之所以需要多步采样，是因为训练时高斯噪声与数据点的随机配对；只要每张图的模糊轨迹已知、且轨迹上所有点都被联合训练去映射到同一清晰目标，模型就能学到内在的时间一致性，从而一步采样。为复用预训练权重，作者保留原始扩散系数 \(\alpha_t,\beta_t\)，但让 \(\hat\epsilon=\epsilon_\theta\) 满足 \(z_t = k_t * z_0 = \sqrt{\bar\alpha_t}z_0 + \sqrt{1-\bar\alpha_t}\hat\epsilon\)（这里 \(\hat\epsilon\) 不必是高斯）。

3. 匹配模糊轨迹的数据重构：没有确定轨迹，一致性就无从谈起。 关键在于给每个模糊样本配上确定的后向轨迹 \(\{z_0,z_1,...,z_t\}\)。作者用 GoPro 数据集（240fps、平均 7–13 连续帧合成模糊，中间帧为清晰图），建立帧数 \(n\) 到时间步 \(t\) 的映射 \(t=g(n)=(n-1)\times 20\)，满足 \(g(1)=0\)。由于原始 GoPro 分布不均（大多是 11 帧），作者手动扩充数据集（从 2,103 对扩到 7,877 对），保证每张模糊图在其后向轨迹上至少有 3 个点，才足以支撑一致性训练。

4. Kernel ControlNet：用 filter 而非相加来注入模糊核，因为核图与目标图没有空间对应关系。 普通 ControlNet 把条件（depth/pose）直接映射后加到 \(z_{in}\)，但逐像素模糊核 \(k_t=M(I_{HQ})\in\mathbb{R}^{m\times m\times H\times W}\) 与目标图无直接空间对齐，简单相加无效。作者改用类滤波模块：\(z_{in2}=\mathrm{Conv}(z_{in1})\)，\(W=\mathrm{Conv}(\mathrm{Cat}(k_{in},z_{in2}))\)，\(O=W\otimes z_{in2}\)，\(z_{out}=z_{in1}+Z(O)\)，其中 \(\otimes\) 是逐元素乘、\(Z\) 是零初始化卷积、\(W\) 充当注意力权重。\(z_{out}\) 再喂给从 DM encoder 拷贝初始化的 ControlNet。此外核估计网络 \(M\) 后接一个小回归模块 \(T\) 预测推理时未知的时间步 \(\hat t=T(M(I_{HQ}))\)——轨迹越复杂、模糊越重，\(t\) 越大。

5. 抛弃蒸馏改用 GAN 判别器保真：蒸馏偏向"自然生成"而非"还原原图"。 作者明确放弃 SinSR/OSEDiff 那类为内容生成服务的蒸馏，改用 GAN 判别器 \(D\)（预训练 UNet encoder + 若干卷积块）区分真实高质表征 \(z_{HQ}\) 与生成 \(\hat z_0\)，把生成分布拉回真实分布。基座训练损失为 \(L=L_1+\lambda_1 L_{\text{EA-LPIPS}}+\lambda_2 L_G\)（EA-LPIPS 是带边缘检测的 LPIPS）；核估计阶段用 reblur 损失 \(L_{reblur}=L_1(M(I_{HQ})*I_{HQ}, I_{LQ})\) 约束核估计；第三阶段加上时间步回归损失 \(L_{time}\)。

实验关键数据¶

主实验（全参考指标，部分摘录）¶

数据集	指标	AdaRevD (Transformer SOTA)	DiffBIR (扩散)	OSEDiff-s1 (单步扩散)	FideDiff
GoPro	PSNR↑	34.60	26.15	24.34	28.79
GoPro	LPIPS↓	0.0712	0.2366	0.1738	0.0831
GoPro	DISTS↓	0.0672	0.1460	0.0834	0.0525
RealBlur-J	PSNR↑	30.12	26.92	26.83	28.96
RealBlur-J	LPIPS↓	0.1408	0.2587	0.1793	0.1142
RealBlur-J	DISTS↓	0.1037	0.1599	0.1198	0.0800
RealBlur-R	LPIPS↓	0.0621	0.3388	0.1057	0.0584

FideDiff 在四个全参考指标上大幅超越所有扩散方法；在感知相似度（LPIPS/DISTS）上甚至超过 Transformer SOTA，在真实数据集 RealBlur 上泛化尤其稳。PSNR 与 Transformer 仍有差距，但相比其他扩散方法把差距大幅缩小。

推理速度（sec/image，GoPro）¶

模型	速度
DiffBIR-s50 (多步扩散)	25.40
Diff-Plugin-s20	5.29
AdaRevD (Transformer)	1.09
FideDiff (d=4, 完整)	1.52
FideDiff (d=8, 无 KCN)	0.25

基座模型 d=8 时最快；为减少细节损失实际用 d=4 并加 Kernel ControlNet，速度仍与 Transformer 相当，比多步 DM 最高快 17×。

消融实验¶

模块	GoPro PSNR↑	GoPro LPIPS↓
base	28.68	0.0854
+ vanilla controlnet	28.73	0.0844
+ 核相加 (kernel addition)	28.70	0.0835
+ Kernel ControlNet (filter)	28.79	0.0831

一致性训练（CT）vs 不用：GoPro LPIPS 从 0.0871 → 0.0831、DISTS 从 0.0548 → 0.0525，证明一致性训练对保真有实质帮助。

关键发现¶

EA-LPIPS（边缘增强）> LPIPS > DISTS 作为感知损失，GAN 判别器在优化 DISTS 时作用尤其关键。
VAE 下采样 d=4 显著优于 d=8（PSNR 26.26 → 27.77）：低分辨率数据集经 SD 的 8× 压缩细节损失太重，降到 4× 能救回大量细节。
可学习文本嵌入（LE）优于固定文本嵌入；filter 注入优于核直接相加；自研 Kernel ControlNet 优于基于 MISCFilter 的运动对齐模块。
时间步扫描显示 \(t\approx 200\)（对应 11 帧合成）附近 PSNR/LPIPS 最优，与 GoPro 测试集合成方式吻合。

亮点与洞察¶

重新定义时间步语义：把"模糊程度"映射成扩散时间步，是本文最漂亮的一招——它让单步扩散重新拥有了"区分退化程度"的能力，而不是把所有低质图一刀切到固定 t。
一致性训练 + 匹配轨迹数据是配套的：理论上一致性要求"已知轨迹"，作者就老老实实扩充 GoPro 给每张图配齐 ≥3 个轨迹点，理论与数据互相成全。
保真优先的价值取向：在一片追逐无参考感知指标的单步扩散工作里，本文坚持全参考保真，把扩散方法在 PSNR/LPIPS 上拉回到能和 Transformer 掰手腕的水平，给工业落地提供了更现实的基线。
filter 式核注入点出了一个易被忽视的细节：模糊核不是 depth/pose 那种空间对齐条件，照搬 ControlNet 的相加范式效果有限。

局限与展望¶

PSNR 仍逊于 Transformer SOTA：在纯失真指标上（如 GoPro PSNR 28.79 vs AdaRevD 34.60）扩散路线还有明显差距，作者也坦承当前定位是"高保真扩散基线"而非全面超越。
强依赖匹配轨迹数据：方法成立的前提是能为每张模糊图重构确定的模糊轨迹，这对 GoPro 这类多帧合成数据可行，但对纯真实采集、无轨迹信息的数据（如 RealBlur）只能退而用 t-prediction，泛化机制不如有轨迹时干净。
数据需手动扩充：为满足一致性训练把 GoPro 从 2k 扩到近 8k 对，工程量与可复现成本不低。
仅在去模糊单一任务验证，迁移到去噪、超分等其他低层视觉任务的有效性尚待检验（作者将其列为未来方向）。

评分¶

新颖性: ⭐⭐⭐⭐ — "模糊程度即时间步 + 跨时间一致性训练"的重构很有想法，把单步扩散从"固定 t 回归"中解放出来；filter 式核注入也有细节创新。
实验充分度: ⭐⭐⭐⭐ — 四数据集全参考指标、速度、感知-失真曲线、三组消融（基座/KCN/一致性）齐全，对比覆盖 Transformer 与扩散两路 SOTA。
写作质量: ⭐⭐⭐⭐ — 动机分析（两大局限）清晰，公式推导完整，图表组织合理；个别理论部分（核分布不可解后如何绕开）需要读者跟上跳跃。
价值: ⭐⭐⭐⭐ — 为"高保真 + 高效"的预训练扩散去模糊确立了一个扎实基线，对工业落地有现实意义，方法可启发其他低层视觉任务。