KernelFusion: Zero-Shot Blind Super-Resolution via Patch Diffusion¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=wED9O48qmH
代码: 待确认
领域: 图像恢复 / 盲超分辨率
关键词: 盲超分辨率, SR-kernel 估计, 零样本扩散, patch diffusion, 内部学习, INR

一句话总结¶

KernelFusion 只在单张 LR 图像上训练一个 patch-based 扩散模型，利用「跨尺度 patch 相似性最大化的核才是正确核」这一原理，在反向扩散过程中同时恢复任意（含非高斯）下采样核与对应 HR 图像，把盲超分推进到完全无训练分布假设的零样本范式。

研究背景与动机¶

领域现状：超分（SR）的本质是反演退化 \(I_{LR}=(I_{HR}*k_s)\downarrow_s\)。传统 SR 假设核 \(k_s\) 已知（如 bicubic），盲超分（Blind-SR）则试图去掉这一假设，用合成退化训练、隐式潜码表示核、或设计对核鲁棒的网络。
现有痛点：所有外部训练的盲超分方法都被训练分布锁死——它们只能处理简单的低通核（各向同/异性高斯、运动模糊线），一旦遇到分布外的复杂核就崩溃，PSNR 甚至低于简单 bicubic 插值（论文实测在非高斯数据集上 DPSR/DCLS 都输给 bicubic）。
核心矛盾：已有研究（Levin 2009, Efrat 2013）指出核的准确性往往比 SR 算法本身或图像先验更关键，但主流方法把精力放在更强的 SR 网络上，却用错了核；而纯核估计方法（KernelGAN、Michaeli & Irani）又只估核不做 SR，需要外接独立 SR 算法，导致两步误差累积、核与 HR 不一致。
本文目标：从单张 LR 图像出发，同时恢复任意（不受核形状假设约束的）image-specific 下采样核与对应 HR 图像，证明"无限制核估计"的可行性。
核心 idea：【零样本内部学习】 在单张 LR 上训练 patch 扩散模型捕捉其内部 patch 统计，因此不存在"分布外核"概念；【跨尺度 patch 一致性】 正确核应让 HR 下采样回 LR 时保持与 LR 相同的跨尺度 patch 分布，把这条原理嵌进反向扩散，让核与 HR 互相促进、联合估计。

方法详解¶

整体框架¶

KernelFusion 分两阶段：Phase 1 在单张 LR 图上训练一个感受野极小（15×15）的全卷积 patch 扩散模型 PD，学到该图独有的小 patch 分布；Phase 2 冻结 PD，从 bicubic 上采样结果出发做反向扩散，用一个 U-Net 隐式优化 HR 估计 \(\hat{x}_0\)、用一个 INR 网络隐式表示核 \(\hat{k}_s\)，二者在同一条 LR 一致性损失下联合训练——只要 \((\hat{x}_0 * \hat{k}_s)\downarrow_s\) 能还原出输入 LR，核与 HR 就同时被找对。

flowchart LR
    subgraph P1[Phase 1: 训练 patch 扩散]
        LR1[单张 LR 输入] --> PD[小感受野全卷积 PD<br/>学 patch 分布]
    end
    subgraph P2[Phase 2: 联合反扩散]
        LR2[LR bicubic 上采样] --> N[加噪 Tnd 步]
        N --> UNet[U-Net 隐式优化 HR x̂0]
        PD -. 冻结/梯度可穿过 .-> UNet
        UNet --> HR[HR 估计 x̂0]
        HR --> Conv[卷积 k̂s 再下采样 ↓s]
        INR[INR 核估计网络<br/>SIREN] --> Conv
        Conv --> Loss[LR 一致性损失 MSE]
        LR2 --> Loss
        Loss -. 联合梯度 .-> UNet
        Loss -. 联合梯度 .-> INR
    end
    P1 --> P2

关键设计¶

1. 小感受野 patch 扩散：把单图变成上千 patch 的分布学习器。 直接在单张图上学分布会过拟合全局结构，KernelFusion 借鉴单图扩散的纯 CNN 思路并把感受野压到极致——用一个无 stride 的简单卷积网络（一个双 3×3 块 + 五个 3×3+1×1 块），理论感受野仅 \(15\times15\)（实际更小）。这样每个随机 \(64\times64\) 的图像 crop 就等价于一批成千上万个小 patch，模型学的是这些小 patch 的分布而非整图。扩散采用 DDPM 框架并预测速度 \(v\)（受 Salimans & Ho 启发以提升少步采样稳定性）：训练目标 \(\Psi=\arg\min_\psi \lVert PD_\psi(x_t)-v_t\rVert_2^2\)，其中 \(x_t=\sqrt{\bar\alpha_t}x_0+\sqrt{1-\bar\alpha_t}\epsilon\)、\(v_t=\sqrt{\bar\alpha_t}\epsilon-\sqrt{1-\bar\alpha_t}x_0\)，\(x_0=I_{LR}\)，由 \(v\) 可闭式还原干净图像。

2. INR 表示核：摆脱 CNN/MLP 的平滑偏置，恢复非光滑复杂核。 论文观察到 KernelGAN、IKR 等显式核估计方法只能恢复高斯和运动线核，根因是 CNN/MLP 架构的隐式偏置倾向输出平滑结果。KernelFusion 不直接对 \(k_s\) 的离散权重求解，而是用一个 SIREN 风格的隐式神经表示（INR） 连续地表示核——正弦激活天生能拟合高频函数，从而捕捉 L 形、空心方块、实心方块这类非自然、非光滑的复杂核结构，同时通过网络本身控制正则化强度，避免过平滑。

3. U-Net 隐式优化 HR + 双次施加保全局结构。 PD 感受野只有 \(15\times15\)，单靠它预测 \(\hat{x}_0\) 在高噪声步会丢失全局结构。KernelFusion 不直接优化 \(\hat{x}_0\)，而是借鉴 DIP 用一个 U-Net 隐式生成它，给输出施加全局图像先验。U-Net 在每个时间步被施加两次：先对上一步 \(t+1\) 的 \(x_0\) 应用 U-Net 重建出当前所需 \(x_t\)，再在用 PD 去噪 \(x_t\) 后对预测的 \(x_0\) 应用 U-Net。由于 U-Net 与 INR 均从零训练，每个时间步 \(t\) 做 \(n_{iter}\) 步梯度更新，随反扩散逐步精修。

4. LR 一致性损失：把核与 HR 锁在同一约束下联合求解。 Phase 2 的唯一监督是像素级 LR 一致性，\(L_{cons}=\mathrm{MSE}\big(I_{LR},\,(\hat{x}_0*\hat{k}_s)\downarrow_s\big)\)。它强制估计的 HR 用估计的核下采样后必须重现输入 LR，从而阻止扩散生成 LR 不支持的幻觉结构，并让"更好的 HR → 更准的核 → 反过来更好的 HR"形成正反馈，使核与图像在一个损失下一致地联合恢复，避免了两步法的误差累积。

实验关键数据¶

主实验表格（4× SR，PSNR↑/SSIM↑）¶

方法	Blind144	DIV2KRK(高斯)	DIV2KFK(非高斯)
Bicubic	24.865 / 0.637	25.075 / 0.671	24.101 / 0.639
SwinIR	23.773 / 0.616	25.139 / 0.699	23.070 / 0.620
DPSR	24.824 / 0.637	25.317 / 0.682	23.977 / 0.637
DCLS-SR	24.808 / 0.633	27.150 / 0.748	23.886 / 0.634
DRAT	24.747 / 0.631	27.953 / 0.779	23.824 / 0.631
RealDAN	24.624 / 0.638	26.870 / 0.745	23.941 / 0.644
KernelGAN+ZSSR	24.529 / 0.633	25.895 / 0.703	23.617 / 0.629
KernelFusion (ours)	27.191 / 0.719	26.761 / 0.715	26.426 / 0.720

在两个非高斯（分布外）数据集 Blind144、DIV2KFK 上 KernelFusion 大幅领先（比次优高约 +2.4dB），而几乎所有 SotA 盲超分在这两个集上都输给 bicubic。
在高斯 DIV2KRK 上（竞品的专长领域）KernelFusion 仍保持可比（26.761），不靠专门训练也不掉队。

消融实验表格（Blind144, PSNR↑）¶

配置	PSNR
DIP（U-Net 吃纯噪声 + INR + 一致性损失）	23.663
UNet only	25.804
PD + UNet	25.481
KernelFusion（完整）	27.191

纯 DIP 即可借助强大的 INR 做一定的 patch 分布调整，但远不够；
U-Net 提供全局先验、PD 提供 patch 分布约束，完整组合（PD + UNet + INR + 双次施加 + 一致性损失）带来最大增益。

关键发现¶

核准>算法强：用 GT 核做精细插值（backprojection + 核伪逆）能在非高斯数据上比 SotA 盲超分再高约 +1dB，量化印证"核准确性比 SR 算法更关键"。
核可视化：相比 KernelGAN（强高斯偏置）、IKR（偏运动线）、MLMC/DKP（仍偏离 GT），KernelFusion 能准确恢复 L 形、空/实心方块等极端非自然核。
真实世界：在 DSLR 抖动照、老旧历史照等真实退化图上，能清晰恢复出竞品读不出的文字（如历史照中的 "OPPOSES"）。

亮点与洞察¶

首个能恢复任意下采样核的深度盲超分方法，把"分布外核"这个概念从问题中彻底消除——因为只在输入图自身上训练，本就没有"分布"。
联合估计而非两步法：核与 HR 在同一条一致性损失下互相促进，规避了经典"先估核再超分"的误差累积与不一致。
INR 是恢复复杂核的关键钥匙：把核估计从"离散权重 + CNN 平滑偏置"换成"SIREN 连续表示"，直击非高斯核恢复失败的根因。
把"跨尺度 patch 相似性"这一经典 Michaeli & Irani 原理，用现代扩散 + INR 重新激活并工程化。

局限与展望¶

作者明确表示目标不是交付生产级盲超分系统，而是论证"单图无限制核估计 + 同时恢复 HR"的可行性。
零样本逐图训练开销大：每张图都要训 PD 再做联合反扩散迭代，推理成本远高于前馈方法，难以实时/批量。
仍假设核是全局的（image-wide 单一核），未覆盖空间变化（spatially-varying）退化、噪声/压缩等复合退化。
PD 感受野极小有利于学 patch 分布，但全局结构完全依赖 U-Net 先验，对结构高度复杂的场景可能受限。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首个能恢复任意（非高斯）核的零样本深度盲超分，范式层面打破训练分布假设，INR+扩散联合估计设计巧妙。
实验充分度: ⭐⭐⭐⭐ 三数据集 + 自建 Blind144/DIV2KFK 受控基准 + 大量竞品 + 核可视化 + 真实世界图 + 消融完整；但缺运行时/复杂度对比与失败案例分析。
写作质量: ⭐⭐⭐⭐ 动机递进清晰（核准>算法强→分布外崩溃→零样本破局），图表到位；方法部分两阶段+多组件略密集。
价值: ⭐⭐⭐⭐ 证明无限制核估计可行，为盲逆问题提供新思路；但逐图训练开销与"非生产级"定位限制了直接落地。