CLIPPan: Adapting CLIP as A Supervisor for Unsupervised Pansharpening¶

会议: AAAI 2026
arXiv: 2511.10896
代码: Jiabo-Liu/CLIPPan
领域: 模型压缩
关键词: 全色锐化, CLIP, 无监督, 视觉-语言模型, 遥感

一句话总结¶

提出 CLIPPan，通过轻量微调 CLIP 使其理解多光谱/全色/高分辨率多光谱图像类型及全色锐化过程，然后利用 Wald 协议等文本提示作为语义监督信号，实现无需地面真值的全分辨率无监督全色锐化，可作为即插即用模块兼容任意全色锐化骨干网络。

研究背景与动机¶

全色锐化（Pansharpening）将富含光谱信息的多光谱（MS）图像与具有高空间分辨率的全色（PAN）图像融合，生成高分辨率多光谱（HRMS）图像，在城市规划、环境监测等遥感应用中至关重要。

核心问题：现有深度学习方法严重依赖地面真值（GT）进行监督训练，但实际全分辨率场景中 GT 不可获取。通常的做法是在降分辨率模拟数据上训练，导致在真实全分辨率图像上存在严重的域差距（domain gap）。无监督方法虽然避免了 GT 依赖，但仅利用融合输出与输入之间的低级像素关系作为约束，缺乏对融合目标的高级语义指导。

核心 insight：如果能告诉模型"融合的目标规则是什么"（如 Wald 协议），就能利用高级语义监督约束融合输出处于 HRMS 域中。CLIP 的图像-文本对齐能力恰好可以将文本描述的融合规则转化为监督信号。

方法详解¶

整体框架¶

CLIPPan 分为两个阶段：

Stage I — 视觉-语言对齐：微调 CLIP 使其 (i) 识别 LRMS/PAN/HRMS 图像类型，(ii) 理解遥感图像内容，(iii) 理解全色锐化过程（MS+PAN→HRMS 的映射）。

Stage II — 语言引导的无监督全色锐化：用微调后的 CLIP 作为固定语义监督器，结合低级视觉约束训练全色锐化网络。

关键设计¶

1. 参数高效微调策略

为保持 CLIP 的强泛化能力，仅插入 6 个轻量 adapter 模块（3 个视觉端 + 3 个文本端）。由于 CLIP 视觉编码器不兼容多光谱图像的多波段输入，用可学习卷积层替换原始 RGB 输入层。

2. 模间对比学习（InterMCL）

将每种图像类型绑定到对应的语义空间。使用固定文本描述（而非内容相关描述）： - MS："a multispectral image" - PAN："a panchromatic image"
- HRMS："High-quality reference image adhering to Wald's protocol: spectrally consistent with original data and spatially sharp"

通过对比损失将图像-文本正样本对拉近、负样本对推远：

\[\mathcal{L}_{\text{inter}} = \frac{1}{3}\sum_{M1,M2}\mathcal{L}_{\text{align}}(F^I_{M1}, F^T_{M2})\]

其中 HRMS 图像用传统 BDSD 算法在线生成（因为全分辨率下不可获取）。

3. 模内对比学习（IntraMCL）

防止使用固定描述导致的特征坍缩问题。将同一场景的 LRMS/PAN/HRMS 作为正样本，不同场景作为负样本：

\[\mathcal{L}_{\text{intra}} = -\frac{1}{3N}\sum_{i=1}^{3N}\log\frac{\exp(\langle F^{I(i)}_{M1}, F^{I(i)}_{M2}\rangle/\tau_i)}{\sum_{k=1}^{3N}\exp(\langle F^{I(i)}_{M1}, F^{I(j)}_{M1}\rangle/\tau_i)}\]

保证特征多样性，同时促进从自然图像到遥感图像的域迁移。

4. 融合感知对齐

引入图像融合适配器（IFA）和文本融合适配器（TFA），学习从 MS+PAN 特征生成融合特征，与 HRMS/Wald 协议特征对齐：

\[\mathcal{L}_{\text{fusion}} = \|F^T_{\text{fuse}} - F^T_{\text{wald}}\|_1 + \|F^I_{\text{fuse}} - F^I_{\text{HRMS}}\|_1\]

5. 方向向量语义监督（Stage II 核心）

不能直接用 Wald 协议文本特征做逐元素损失（因为对所有图像固定不变），而是利用特征位移方向的一致性：

\[\mathcal{L}_d = 1 - \frac{1}{2}(\langle \Delta\mathbf{V}^I_{\text{MS}}, \Delta\mathbf{V}^T_{\text{MS}}\rangle + \langle \Delta\mathbf{V}^I_{\text{PAN}}, \Delta\mathbf{V}^T_{\text{PAN}}\rangle)\]

其中 \(\Delta\mathbf{V}^I_{\text{MS}} = F^I_{\text{out}} - F^I_{\text{MS}}\) 为图像空间的融合变化方向，\(\Delta\mathbf{V}^T_{\text{MS}} = F^T_{\text{wald}} - F^T_{\text{MS}}\) 为文本空间的融合目标方向。通过惩罚两个空间中方向的角度偏差，引导输出语义上对齐 HRMS 域。

损失函数 / 训练策略¶

Stage I：\(\mathcal{L}_{s1} = \mathcal{L}_{\text{inter}} + \mathcal{L}_{\text{intra}} + \mathcal{L}_{\text{fusion}}\)

Stage II 低级视觉约束： - 光谱保真：\(\mathcal{L}_{\text{spec}} = \|\downarrow(\mathbf{I}_{\text{out}}) - \mathbf{I}_{\text{MS}}\|_2^2 + 1 - \text{SSIM}\) - 空间锐度：\(\mathcal{L}_{\text{spat}} = \|\phi(\mathbf{I}_{\text{out}}) - \mathbf{I}_{\text{PAN}}\|_2^2 + 1 - \text{SSIM}\) - QNR 权衡：\(\mathcal{L}_{\text{QNR}} = (1-D_\lambda)(1-D_s)\) - 伪监督：\(\mathcal{L}_{\text{ship}}\)（以降分辨率训练的 SHIP 网络输出为参考）

总损失：\(\mathcal{L}_{s2} = \mathcal{L}_{\text{spec}} + \mathcal{L}_{\text{spat}} + \mathcal{L}_{\text{QNR}} + \mathcal{L}_{\text{ship}} + \mathcal{L}_d\)

GTX-4090，Adam（lr=0.003），batch size=32，1000 iterations。

实验关键数据¶

主实验¶

Table 1: 全分辨率 + 降分辨率定量结果（QB 与 WV3 数据集）

方法	QB \(D_\lambda\)↓	QB QNR↑	WV3 \(D_\lambda\)↓	WV3 QNR↑
ArbRPN	0.0140	0.9582	0.0271	0.9383
ArbRPN-C	0.0030	0.9691	0.0042	0.9582
LFormer	0.0124	0.9602	0.0253	0.9227
LFormer-C	0.0053	0.9676	0.0049	0.9572
PanMamba	0.0134	0.9592	0.0152	0.9426
PanMamba-C	0.0050	0.9672	0.0051	0.9578

CLIPPan（-C 后缀）在所有 5 个骨干网络上均一致提升。ArbRPN-C 在 QB 上光谱失真 \(D_\lambda\) 减少 79%，LFormer-C 在 WV3 上空间失真 \(D_s\) 减少约 30%。

消融实验¶

Table 2: 无监督融合损失消融（WV3 降分辨率，ArbRPN 骨干）

损失组合	MPSNR↑	ERGAS↓	SAM↓	Q2n↑
\(\mathcal{L}_{\text{spec}} + \mathcal{L}_{\text{spat}}\)	29.27	8.96	9.17	0.61
\(\mathcal{L}_{\text{unsup}}\)	32.19	5.88	6.66	0.71
\(\mathcal{L}_{\text{unsup}} + \mathcal{L}_d\)	32.37	5.75	6.55	0.74
\(\mathcal{L}_{\text{unsup}} + \mathcal{L}_{\text{ship}} + \mathcal{L}_d\)	34.72	4.49	5.54	0.80

语义损失 \(\mathcal{L}_d\) 和伪监督 \(\mathcal{L}_{\text{ship}}\) 联合使用效果最佳，MPSNR 提升 5.4 dB。

Table 3: CLIP 微调损失消融 — IntraMCL、InterMCL、\(\mathcal{L}_1\) 逐步添加均带来提升。

Table 5: 文本描述消融 — Wald 协议文本在所有指标上取得最佳平衡，证实精确的协议文本对语义监督至关重要。

关键发现¶

即使没有 GT，CLIPPan 仍能获得与有监督方法接近的效果
降分辨率实验也获得一致提升，说明框架对监督/无监督均有效
可学习残差卷积处理多光谱输入优于 PCA/RGB/GBNIR 等手动策略

亮点与洞察¶

语言即监督：首次将 Wald 协议等融合规则作为文本提示转化为 CLIP 语义监督，思路优雅
方向向量损失：不直接比较固定文本特征，而是比较"融合前后特征位移方向"的一致性，巧妙解决文本特征不变的问题
即插即用通用性：与 5 种不同骨干网络兼容，均获提升，实用价值高
双向启示：框架不仅能用协议指导融合，反过来也可以评估协议有效性乃至发现新协议

局限与展望¶

CLIP 微调阶段仍需 BDSD 算法生成 HRMS 近似标签，引入了额外先验
文本描述目前为手工设计的固定模板，可探索可学习的 prompt tuning
仅在 WorldView-3 和 QuickBird 两类传感器上验证，更多传感器的泛化性待验证
伪监督 \(\mathcal{L}_{\text{ship}}\) 依赖于预训练的 SHIP 网络质量

评分¶

新颖性: ⭐⭐⭐⭐⭐ — 将视觉-语言模型引入全色锐化监督，范式创新性强
技术深度: ⭐⭐⭐⭐ — 两阶段设计完整，方向向量损失设计精巧
实验充分度: ⭐⭐⭐⭐ — 5 种骨干 × 2 数据集，消融全面（5 组消融实验）
写作质量: ⭐⭐⭐⭐ — 结构清晰，动机论证充分