Fast Kernel-Space Diffusion for Remote Sensing Pansharpening¶
会议: CVPR 2026
arXiv: 2505.18991
代码: 无(论文未公开)
领域: 遥感图像融合 / 扩散模型 / 全色锐化(Pansharpening)
关键词: 核空间扩散、全色锐化、潜空间扩散、张量分解卷积核、快速推理
一句话总结¶
KSDiff 把扩散过程从「逐像素重建图像」搬到「潜空间生成一个全局先验向量」,再用这个先验去调制回归式全色锐化网络的卷积核,从而既拿到扩散模型的全局分布建模能力,又保住传统 CNN 的推理速度——在 WV3/GF2/QB 三个数据集上指标全面领先,推理只要 0.077 s,比像素空间扩散基线快 500 倍以上。
研究背景与动机¶
领域现状:全色锐化(pansharpening)要把高分辨率全色图 PAN 和低分辨率多光谱图 LRMS 融合成既有空间细节又有光谱信息的高分辨率多光谱图 HRMS。主流深度学习方法(PanNet、FusionNet、LAGConv 等)把它当成一个从 PAN+LRMS 到 HRMS 的确定性非线性映射,一步前向出结果,速度快。
现有痛点:确定性 CNN 是逐样本回归,难以捕捉遥感数据分布里的「全局先验」(整片海洋/建筑场景的统计规律)。扩散模型擅长建模复杂条件分布、能拿到这种全局上下文,但要在像素空间从纯高斯噪声迭代去噪,遥感图像分辨率高、通道多(远超 RGB 三通道),采样要做几十上百次网络评估(NFE),推理极慢——表 1 里 PanDiff 单图要 261 s、PLRDiff 要 40 s,而 CNN 只要 0.04–0.4 s。
核心矛盾:全局分布建模能力(扩散)和推理效率(回归 CNN)之间存在 trade-off。更根本的一点是:全色锐化里大部分空间与光谱信息已经在输入里了,网络的任务是「精修」而非「从零重建」,所以让扩散从纯噪声重建整张高分图本身就既反直觉又浪费。
本文目标:要一个既能享受扩散的全局先验、又能保持 CNN 推理速度的全色锐化框架,并且能即插即用地嵌进现有回归网络。
切入角度:既然扩散贵在「重建整张大图」,那就别让它生成图像——让它在潜空间只生成一个紧凑的全局先验表示,把这个先验注入到 CNN 的卷积核里,让卷积核「带着全局上下文」去做融合。扩散只跑在低维潜空间,推理负担骤降。
核心 idea:用潜空间扩散生成「卷积核」而非「像素」——KSDiff(Kernel-Space Diffusion),把扩散输出的潜表示通过张量分解 + 结构感知多头注意力调制成卷积核,驱动一个普通回归 backbone 完成融合。
方法详解¶
整体框架¶
KSDiff 的核心是一个核生成器(Kernel Generator):它吃两路输入——扩散模型在潜空间产出的全局先验 \(\hat{\mathbf{z}}_0\),以及从 PAN/LRMS 特征提取的局部信息——把两者融合成一个调制权重,去乘一个标准基准卷积核 \(\mathbf{W}_0\),得到带全局上下文的最终卷积核 \(\mathbf{W}_1\),再塞进一个普通 U-Net 式全色锐化网络做融合。先验 \(\mathbf{z}\) 由一个金字塔潜融合编码器 PLFE 压缩得到;扩散模型负责在推理时仅凭 PAN/LRMS 把这个先验「估计」出来。整套用两阶段训练串起来:先预训练编码器+核生成器+融合网络拿到真实先验 \(\mathbf{z}_0\),再训练扩散模型学会从条件 \(\mathbf{c}\) 生成 \(\mathbf{z}_0\)。
%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
A["输入:PAN + LRMS<br/>(训练时 + GT HRMS)"] --> B["PLFE 金字塔潜融合编码<br/>压成紧凑先验 z"]
B --> C["潜空间扩散<br/>从条件 c 估计先验 ẑ₀"]
C --> D["张量分解核生成器<br/>ẑ₀→核心张量 + 特征→因子矩阵"]
D -->|结构感知多头注意力<br/>调制基准核 W₀| E["融合网络<br/>用调制核 W₁ 做锐化"]
E --> F["输出:HRMS 高分多光谱图"]
关键设计¶
1. 核空间扩散:让扩散生成卷积核而不是像素
针对「像素空间扩散太慢、又在做无谓的从零重建」这个痛点,KSDiff 把扩散彻底搬离图像空间。它不预测 HRMS,而是预测一个低维潜先验 \(\mathbf{z}\in\mathbb{R}^{N\times C_z}\)(\(N\ll HW\)),这个先验再去调制卷积核:最终核为 \(\mathbf{W}_1=\mathbf{W}_0\odot\mathbf{W}\),其中 \(\mathbf{W}_0\) 是可学习的标准基准核,\(\mathbf{W}\) 是由先验导出的调制权重,\(\odot\) 是逐元素乘。这样扩散的迭代采样只发生在很小的潜空间,网络主体仍是一次前向的回归 CNN——既拿到了扩散对遥感数据全局分布的建模能力,又把推理压回 CNN 量级。表 1 里它 0.077 s 出图,而像素空间的 PanDiff 要 261 s、PLRDiff 要 40 s,差出三个数量级,指标却反而更好
2. PLFE 金字塔潜融合编码器:把 PAN/LRMS/HRMS 多模态先验压成紧凑表示而不互相污染
先验 \(\mathbf{z}\) 怎么来很关键——直接把 PAN、LRMS、GT 拼起来送进编码器会造成空间与光谱信息的纠缠。PLFE 用两条原则解决:一是多尺度金字塔结构,PAN/LRMS 分支特征在每一层都被 HRMS 特征「引导精修」,把高分空间线索和光谱语义逐级整合;二是动态融合门,自适应权衡「原始分支特征」和「HRMS 引导特征」的比重。引导用的是线性复杂度的交叉注意力(把内存复杂度从 \(\mathcal{O}((HW)^2)\) 降到 \(\mathcal{O}(d^2)\),\(d\ll HW\),应对大图),融合门则按通道算一个 Sigmoid 权重:
其中 \(\mathbf{X}\) 是分支原始特征、\(\mathbf{Y}\) 是 HRMS 引导特征、\(\mathbf{O}\) 是交叉注意力输出。门控让网络在 HRMS 先验可靠处多信它、在引导可能错位处保留原始特征,从而保住空间-光谱一致性、减少伪影。经过 \(M\) 级金字塔后投影成紧凑先验 \(\mathbf{z}\)。注意训练/推理用两个 PLFE:\(\mathrm{PLFE}_1\) 吃 PAN+LRMS+GT(提供真实先验),\(\mathrm{PLFE}_2\) 只吃 PAN+LRMS(推理时作为扩散条件,结构是 \(\mathrm{PLFE}_1\) 的减半版)
3. 张量分解核生成器 + 结构感知多头注意力:高效、可控地把先验注入卷积核
把潜码直接 flatten 过 MLP 再 reshape 成卷积核,参数量爆炸(\(\mathcal{O}(C_{\text{in}}C_{\text{out}}k^2 C_z)\))且无法分层控制先验对不同卷积核的影响。KSDiff 改用 Tucker 张量分解把调制权重 \(\mathbf{W}\) 拆开:
其中 \(\mathcal{G}\in\mathbb{R}^{r_1\times r_2\times r_3\times r_4}\) 是紧凑核心张量、\(\mathbf{U}^{(n)}\) 是四个因子矩阵、\(\times_n\) 是 mode-\(n\) 乘积。分工很巧:核心张量 \(\mathcal{G}\) 来自全局先验——对 \(\mathbf{z}\) 做均值池化得质心向量再过 MLP;因子矩阵来自局部输入特征,经一个轻量共享 backbone 接四个注意力头,作者称之为「结构感知多头注意力」。于是「全局先验决定核的主体结构、局部特征决定四个维度的展开方式」。复杂度从 MLP 的 \(\mathcal{O}(C_{\text{in}}C_{\text{out}}k^2 C_z)\) 降到 \(\mathcal{O}(C_z r_1 r_2 r_3 r_4+\sum_n r_n d_n)\)(\(r_n\ll d_n\)),消融里把它换成等容量 MLP 会让参数翻十倍且直接不收敛,证明张量结构不是可有可无的省参技巧而是收敛的前提
损失函数 / 训练策略¶
两阶段串行。预训练阶段:联合优化 \(\mathrm{PLFE}_1\)、核生成器和融合网络,让编码器学会构造有信息量的先验,目标是 \(L_1\) 重建损失 \(\mathcal{L}_{\text{s1}}=\|\mathbf{G}-\mathbf{H}_1\|_1\)(\(\mathbf{G}\) 是 GT HRMS,\(\mathbf{H}_1\) 是重建输出)。扩散训练阶段:用 DDPM 前向加噪、DDIM 加速采样,扩散网络学会从条件 \(\mathbf{c}\)(\(\mathrm{PLFE}_2\) 编码的 PAN+LRMS)估计先验。这里把标准 \(\boldsymbol{\epsilon}\)-prediction 改成直接预测原始样本 \(\mathbf{z}_0\)(数学等价但实测在该任务更稳),并且联合训练扩散与回归器:
权重 \(\lambda\) 经验设为 1。消融显示联合训练显著优于「先单独训扩散再接预训练回归网络」的分离方案。推理时只用 \(\mathrm{PLFE}_2\) + 反向扩散 + 核生成器 + 融合网络,GT 完全不参与。
实验关键数据¶
数据集按 Wald 协议构建,取自 WorldView-3 (WV3)、GaoFen-2 (GF2)、QuickBird (QB)。降分辨率用 SAM/ERGAS/Q2n/SCC,全分辨率用 HQNR/\(D_\lambda\)/\(D_s\)。单卡 RTX 4090,AdamW。
主实验¶
WV3 降分辨率 + 全分辨率 + 推理耗时(节选代表性方法):
| 方法 | SAM ↓ | ERGAS ↓ | Q2n ↑ | SCC ↑ | HQNR ↑ | Runtime(s) |
|---|---|---|---|---|---|---|
| FusionNet(DL) | 3.3252 | 2.4666 | 0.9044 | 0.9807 | 0.9406 | 0.065 |
| PanMamba(DL,次优 SAM) | 2.9132 | 2.1843 | 0.9204 | 0.9855 | 0.9304 | 0.405 |
| PanDiff(像素扩散) | 3.2968 | 2.4647 | 0.8935 | 0.9860 | 0.9203 | 261.410 |
| PLRDiff(像素扩散) | 4.3704 | 3.4408 | 0.8539 | 0.9215 | 0.7361 | 40.142 |
| KSDiff (ours) | 2.8102 | 2.0756 | 0.9221 | 0.9870 | 0.9468 | 0.077 |
GF2 / QB 降分辨率上 KSDiff 同样四项指标全部第一(GF2: SAM 0.6675 / ERGAS 0.5973 / Q2n 0.9855 / SCC 0.9900;QB: SAM 4.4747 / ERGAS 3.6289 / Q2n 0.9365 / SCC 0.9839)。耗时 0.077 s 与传统 DL 同级,比 PanDiff(261 s)快约 3400 倍、比 PLRDiff(40 s)快约 520 倍,作者据此声称「比扩散基线快 500× 以上」。
消融实验(WV3 降分辨率,表 4)¶
| 配置 | SAM ↓ | ERGAS ↓ | Q2n ↑ | SCC ↑ | Runtime(s) | 说明 |
|---|---|---|---|---|---|---|
| Baseline Network | 3.1428 | 2.2961 | 0.9070 | 0.9827 | 0.035 | 不用潜扩散先验 |
| w/o PLFE | 3.0071 | 2.2367 | 0.9119 | 0.9838 | 0.079 | PLFE 换成直接拼接编码器 |
| w/o Structure-Aware | — | — | — | — | — | 换等容量 MLP,无法收敛 |
| Separate-Training | 2.9799 | 2.1775 | 0.9118 | 0.9854 | 0.077 | 扩散与回归分开训 |
| KSDiff (full) | 2.8102 | 2.0756 | 0.9221 | 0.9870 | 0.077 | 完整模型 |
关键发现¶
- 潜扩散先验贡献最大:去掉先验退回 Baseline,SAM 从 2.8102 恶化到 3.1428(虽然耗时降到 0.035 s),说明扩散注入的全局上下文是性能主来源。
- 结构感知张量核生成器是收敛前提:换成等容量 MLP 参数翻十倍且直接不收敛——张量分解不只是省参,更是让「全局先验调制核」这件事能学起来的关键。
- 联合训练 > 分离训练:Separate-Training 全面落后 full 模型,验证扩散估计与图像重建端到端一起优化更好。
- 核心张量越小反而越好 + 4D 结构有用(表 6):在 FusionNet 上 \((4,4,2,2)\) 优于 \((8,8,\cdot)\)、\((16,16,\cdot)\)(类似 LoRA 的低秩现象);但把后两维 kernel-size 从 1 提到 2 有提升,因为 \((r_1,r_2,1,1)\) 会塌缩成矩阵、丢掉 4D 张量结构。
- 即插即用涨点(表 5):把 DiCNN/FusionNet/LAGNet 的卷积换成 KSDiff 调制核都稳定提升,如 FusionNet 的 SAM 3.3252→3.0622、LAGNet 2.2999→2.1538(ERGAS)。
亮点与洞察¶
- 「让扩散生成核而非像素」是个可迁移的范式:把昂贵生成模型放到低维参数/核空间、用它的输出去调制一个轻量主网络——这思路和 Neural Network Diffusion(用扩散生成网络权重)一脉相承,可推广到任何「主体信息已在输入、只需全局先验精修」的低层视觉任务(超分、去噪、去雾)。
- 用张量分解控制「先验影响力」很巧:核心张量来自全局先验、因子矩阵来自局部特征,天然把「全局/局部」解耦进卷积核的不同自由度,比 MLP 暴力 reshape 既省参又可控,还顺手解决了收敛问题。
- 动态融合门是个稳健的小 trick:在多模态引导里「按通道学一个门,可靠就信引导、不可靠就保原始」,能直接搬到任何跨模态特征融合场景减伪影。
- 最「啊哈」的点:扩散模型迭代采样的开销被锁死在 \(N\times C_z\) 的潜空间里,与输出图像分辨率脱钩——这是它能同时拿到「扩散质量 + CNN 速度」的根因。
局限与展望¶
- 依赖 GT HRMS 做先验监督:\(\mathrm{PLFE}_1\) 要吃 GT 才能学出目标先验,强依赖 Wald 协议的成对训练数据;真实卫星缺 GT 的全分辨率场景下先验质量能否保持未充分验证。
- 只在一个 U-Net backbone 上做主实验:虽然表 5 证明能嵌入 DiCNN/FusionNet/LAGNet,但核生成器对哪些卷积层替换、替换多少层敏感性未展开。
- 扩散仍是多步采样:用了 DDIM 加速,但相比一步回归仍多了采样开销(耗时从 Baseline 0.035 s 升到 0.077 s,约翻倍),核生成器本身也带额外参数与显存。
- 未开源:方法含 PLFE、张量核生成器、两阶段训练等多个工程细节(网络结构、latent encoder 细节都在补充材料),无代码复现门槛较高。
- 改进方向:探索无 GT 的自监督先验、把更先进的少步采样/一致性模型接进来进一步压采样、以及把核空间扩散推广到其他遥感融合任务(如高光谱锐化)。
相关工作与启发¶
- vs 像素空间扩散全色锐化(PanDiff / PLRDiff):它们在像素空间从纯噪声迭代重建 HRMS,质量好但慢到 40–261 s;KSDiff 把扩散搬到低维潜空间只生成先验、用回归 backbone 出图,速度快 500× 以上且指标更优——本质区别是「扩散重建图像」vs「扩散生成调制先验」。
- vs 确定性 DL 方法(FusionNet / LAGConv / PanMamba):它们一步回归、快但缺全局分布建模;KSDiff 在保持同级速度(0.077 s)的前提下注入扩散先验,把这些 backbone 当插件增强(表 5 普遍涨点)。
- vs 动态卷积核方法(LAGConv / AKD):那些方法的核条件于输入局部特征;KSDiff 的核额外条件于扩散生成的全局先验,并用张量分解控制注入方式,是「动态核」思路与「生成式全局先验」的结合。
- vs 潜空间扩散(LDM / DiffIR):同样把扩散放进潜空间省算力,但 KSDiff 的潜表示不是用来解码图像,而是去调制卷积核,属于「扩散先验 → 参数空间」而非「扩散 → 图像空间」的用法。
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 「核空间扩散」把扩散从像素重建转为生成卷积核调制先验,角度新颖且自洽。
- 实验充分度: ⭐⭐⭐⭐ 三数据集 + 降/全分辨率 + 消融 + 多 backbone + 核张量尺寸分析较完整,但缺真实无 GT 场景与开源验证。
- 写作质量: ⭐⭐⭐⭐ 动机推导清晰、公式规范,部分模块细节下放补充材料。
- 价值: ⭐⭐⭐⭐⭐ 同时解决扩散全色锐化的速度与质量痛点,且可即插即用增强现有网络,实用性强。