跳转至

Enhancing Unregistered Hyperspectral Image Super-Resolution via Unmixing-based Abundance Fusion Learning

会议: CVPR 2026
论文: CVF Open Access
代码: https://github.com/yingkai-zhang/UAFL (论文承诺开源,待发布)
领域: 图像恢复 / 高光谱超分辨率
关键词: 高光谱超分, 非配准融合, 光谱解混, 可变形聚合, 交叉注意力

一句话总结

针对"低分辨率高光谱图 + 一张未配准高分辨率参考图"的超分任务,本文用光谱解混把空间和光谱信息解耦,让网络只去增强解混出的丰度图(而非直接做易受错位干扰的空谱耦合融合),再配合由粗到细的可变形聚合、空间-通道丰度交叉注意力和调制融合模块,在 ICVL/REAL 数据集上以约一半参数量刷出 SOTA(×4 上 PSNR 41.84/42.05 dB)。

研究背景与动机

领域现状:高光谱传感器存在空间分辨率与光谱分辨率的固有 trade-off——光谱很准但空间细节差,于是高光谱超分(HSI SR)成为刚需。单图超分受限于单一输入信息量;reference-based 配准超分用一张高分辨率参考图(RGB)补空间细节,效果更好,但严格假设 LR HSI 与参考图已完美对齐

现有痛点:现实中平台振动、视角变化、传感器采集时间差,几乎必然带来错位,于是出现"非配准 HSI SR"。主流做法是两阶段:先用预训练光流模型(如 RAFT)显式把参考图 warp 对齐,再交给空谱耦合网络融合。但这套有两个硬伤:① 显式对齐会在 warp 后的图像里引入纹理畸变和伪影(论文 Fig.2(c) 把参考 RGB warp 后从 41.59 dB 掉到 14.79 dB);② 空谱耦合融合让网络要同时学空间和光谱,学习容量被严重约束(Fig.1 里这类方法参数大、PSNR 反而不高)。

核心矛盾:错位无法回避,而"在像素域显式对齐 + 在耦合空谱域融合"这条路既会引入伪影、又难学。问题根子在于:直接在原始空谱耦合域里融合一张未对齐的参考,把"对齐误差"和"空谱重建"两件难事搅在了一起。

切入角度:HSI 因强光谱相关性具有低秩性,可做光谱解混(unmixing),而解混本身对几何错位鲁棒(端元 endmember 反映材质光谱,与像素对齐与否无关)。作者据此在 Fig.2(d) 做了关键验证:用 LR HSI 的端元 \(E_{lrhsi}\) + HR HSI 的丰度 \(A_{hrhsi}\) 重新混合(mixing),能高质量重建出 HR HSI(41.46 dB);而直接拿端元去混未配准参考 RGB 则定量很差(14.79 dB,虽看上去清晰)。这说明只要拿到"结构良好、对齐准"的丰度图,端元几乎不用动就能重建。

核心 idea:把"非配准空谱融合"重新表述为"学习残差丰度图"——先用 SVD 解混固定端元、得到初始丰度,再让网络专心利用未配准参考去增强这张丰度图。这一步把难题拆成了一个更具体、更好优化的学习目标。

方法详解

整体框架

输入是一张 LR HSI \(X\in\mathbb{R}^{h\times w\times B}\) 和一张未配准 HR RGB 参考 \(I\in\mathbb{R}^{H\times W\times b}\),目标输出 HR HSI \(Y\in\mathbb{R}^{H\times W\times B}\)。整条流水线分三段:解混(Unmixing)→ 多尺度编码-解码增强丰度 → 混合(Mixing)

先把 LR HSI 上采样到目标尺寸得 \(X_\uparrow\),对其做奇异值分解 \(X_\uparrow = USV^T\),取 \(U\) 的前 \(K\) 个左奇异向量构成端元矩阵 \(E\in\mathbb{R}^{B\times K}\)(论文取 \(K=3\)),初始丰度由 \(A=E^T X_\uparrow\) 得到。网络 \(f(\cdot|\theta)\) 不再去预测整张 HSI,而是以初始丰度 \(A\) 和参考 \(I\) 为输入,学一张增强后的残差丰度 \(\hat{A}=f(A,I|\theta)\)。在编码-解码的 backbone 里串入三个核心模块:CFDA 把未配准参考特征隐式聚合对齐到丰度特征上、SCACA 用空间+通道交叉注意力精修丰度、SCMF 在解码端用动态门控融合编码-解码特征。最后做混合 \(Y_{res}=E\hat{A}\),并加回上采样基底 \(Y=Y_{res}+X_\uparrow\) 得到最终 HR HSI。整个方案的精髓是:端元始终固定不学,所有可学习容量都花在"把丰度对齐好、增强好"上。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["LR HSI X↑(上采样)+ 未配准 HR RGB I"] --> B["1. 解混重表述<br/>SVD 取端元 E、初始丰度 A"]
    B --> C["2. 由粗到细可变形聚合 CFDA<br/>粗光流金字塔 + 亚像素精修"]
    C --> D["3. 空间-通道丰度交叉注意力 SCACA<br/>空间 SACA → 通道 CACA"]
    D --> E["4. 空间-通道调制融合 SCMF<br/>动态门控合并编/解码特征"]
    E --> F["Mixing: Y = E·Â + X↑<br/>输出 HR HSI"]

关键设计

1. 解混重表述:把空谱耦合融合改写成学残差丰度

针对"直接在耦合空谱域融合未对齐参考既引入伪影又难学"这个根本痛点,本文用光谱解混做问题分解。利用 HSI 的低秩性,对上采样后的 \(X_\uparrow\) 做 SVD,前 \(K\) 个左奇异向量当端元 \(E\)\(A=E^T X_\uparrow\) 当初始丰度。关键在于:端元代表材质光谱、对错位天然鲁棒,所以固定不动;网络只学增强后的残差丰度 \(\hat{A}=f(A,I|\theta)\),最终 \(Y=E\hat{A}+X_\uparrow\)

\[Y = E\hat{A} + X_\uparrow,\qquad \hat{A}=f(A,I|\theta)\]

这样做有效,是因为 Fig.2(d) 的解混分析证明了"\(E_{lrhsi}\) + 好的 \(A_{hrhsi}\) 就能高质量重建"——光谱精度由 LR HSI 自身保证、空间结构问题全部收敛到"丰度图增强"这一个子任务上。相比旧的两阶段方法在像素域显式对齐再耦合融合,这里把一个复杂耦合问题转成了单一、可优化的残差学习目标,网络容量不再被空谱耦合稀释。⚠️ 端元固定为 SVD 直接结果、不参与训练,这一假设的边界(端元估计误差会不会传导)论文未深入讨论,以原文为准。

2. 由粗到细可变形聚合 CFDA:在特征域隐式对齐,绕开像素 warp 的伪影

显式像素对齐会把畸变烙进图像,本文改为在深度特征域做隐式聚合。CFDA 分两级。粗光流金字塔预测器(CPFP):先把丰度特征 \(F\) 与参考特征 \(F_{ref}\) 下采样,卷积预测低分辨率光流再上采样为粗运动先验 \(C_{flow}=\mathrm{Up}(\mathrm{Conv}_{3\times3}(F_\downarrow,F_{ref\downarrow}))\);用它 warp 参考后与 \(F\) 拼接,再预测残差光流 \(\Delta C_{flow}\) 和相似度图,得到最终先验光流 \(F_{flow}=C_{flow}+\Delta C_{flow}\) 与置信度 \(F_{sim}=\mathrm{Sigmoid}(F'_{sim})\)亚像素精修(FSPR):取光流小数部分 \(d_f\) 做频率位置编码 \(\gamma(d_f)=[\omega d_f,\omega^2 d_f,\dots]\),拼成 \(F_{pe}=\mathrm{Concat}[\sin(\gamma(d_f)),\cos(\gamma(d_f))]\) 给出亚像素级先验;精修网络吃 \([F,\mathrm{Warp}(F_{ref},F_{flow}),F_{pe}]\) 预测残差偏移和 mask \(\Delta P=(\Delta P_o,\Delta P_m)\),最终偏移 \(O=F_{flow}+\mathrm{Tanh}(\Delta P_o)\)、调制掩码 \(M=\mathrm{Sigmoid}(F_{sim}\odot\Delta P_m)\),再用调制可变形卷积把参考特征聚合成 \(\hat{F}_{ref}\)

之所以有效:先验光流给可变形卷积一个稳定起点、亚像素编码补足精度,整个对齐发生在特征而非像素层面,因此不会像 warp 图像那样留下纹理伪影。消融(Tab.4)显示,相比通用 DCNv2(41.80 dB),CFDA 把 PSNR 提到 41.95 dB,且特征可视化里 DCNv2 的伪影/模糊文字被 CFDA 显著消除。

3. 空间-通道丰度交叉注意力 SCACA:用参考结构分别精修丰度的空间结构与光谱响应

聚合后的参考特征还需进一步引导丰度精修。SCACA 先用轻量自调制 \(\hat{F}_{refm}=\hat{F}_{ref}+\hat{F}_{ref}\odot\mathrm{Sigmoid}(\mathrm{Conv}_{5\times5}(\hat{F}_{ref}))\) 强化参考特征,再做层级交叉注意力:先空间后通道。空间分支 SACA 用窗口交叉注意力,\(Q,K,V\) 全来自丰度特征 \(Z_w\),但在聚合前用参考特征调制 Value:\(V_{mod}=V\odot\mathrm{Reshape}(\hat{F}_{refw})\)\(\hat{Z}=\mathrm{Softmax}(QK^T/\sqrt{d_k}+B)V_{mod}\),借参考的结构信息引导丰度的空间对应关系。通道分支 CACA 互补地精修光谱签名,同样以参考调制 Value \(V_{mod}=V\odot\hat{F}_{refm}\),自适应放大显著光谱、压制无关响应。

设计巧在"Value 调制"这一招:不是简单 concat 参考,而是让参考特征直接作用在注意力的 Value 上,使丰度精修过程显式吸收参考的空间结构和通道特性。空间+通道双路结合,让多模态信息既补了空间细节又对齐了光谱。消融里 SCACA 把基线从 41.41 提到 41.66 dB。

4. 空间-通道调制融合 SCMF:动态门控合并编/解码特征,避免简单跳连丢细节

编码-解码间的特征如果直接相加/拼接,难以在不同尺度自适应取舍。SCMF 把编码特征 \(F_{enc}\) 与解码特征 \(F_{dec}\) 沿通道拼成 \(F_{cat}\),再走两条并行调制。空间调制:值分支用深度卷积+LeakyReLU 生成 \(V_{spa}\),门控分支 \(M_{spa}=\mathrm{Sigmoid}(\mathrm{Conv}_{3\times3}(F_{cat}))\) 给每个像素一个重要性权重,\(F_{spa}=V_{spa}\odot M_{spa}\)通道调制:值分支用 \(1\times1\) 卷积得 \(V_{spe}\),门控分支先全局平均池化成通道描述子再 \(1\times1\) 卷积 \(M_{spe}=\mathrm{Sigmoid}(\mathrm{Conv}_{1\times1}(\mathrm{GAP}(F_{cat})))\)\(F_{spe}=V_{spe}\odot M_{spe}\)。两路相加并残差接回解码特征:

\[\hat{F}_{dec}=(F_{spa}+F_{spe})+F_{dec}\]

有效之处在于门控权重是动态、由内容生成的,空间门控按局部上下文强调/抑制细节、通道门控按全局描述子重标定光谱响应,两者互补再残差保底。Tab.5 显示越是困难的大倍率收益越大——×16 上加 SCMF 提升 0.38 dB,说明它在多尺度特征融合里对高频细节恢复尤其关键。

损失函数 / 训练策略

端到端只用 L1 损失训练。配置 \(C=64\) 维特征、\(K=3\) 个端元;AdamW 优化器,weight decay \(5\times10^{-5}\)、学习率 \(1\times10^{-5}\),batch size 1,单张 RTX 4090;ICVL 训 150 epoch、REAL 训 300 epoch。LR HSI 由高斯核(\(\mu=8,\sigma=3\))模糊后按 ×4/×8/×16 下采样得到。

实验关键数据

主实验

ICVL 模拟数据集,×4 倍率(PSNR↑/SSIM↑/SAM↓):

方法 来源 PSNR SSIM SAM
SSPSR TCI'20 40.19 0.982 0.033
HSIFN TNNLS'24 41.14 0.983 0.041
SRLF CVPR'25 38.75 0.977 0.041
SSCH-S IJCV'25 41.38 0.987 0.031
本文 - 41.84 0.986 0.025

REAL 真实数据集,多倍率对比(PSNR↑ / 参数量 / FLOPs):

方法 ×4 PSNR ×8 PSNR ×16 PSNR Params(M) FLOPs(G)
HSIFN 40.15 34.39 30.07 21.01 594.10
SSCH-S 41.16 36.19 31.91 11.01 165.68
本文 42.05 37.23 32.28 5.94 96.17

本文在三个倍率上全面领先:×4/×8/×16 分别比次优高 0.89/1.04/0.37 dB,且参数量约为 SSCH-S 的一半、FLOPs 少约 42%,实现了精度与效率的双赢(Fig.1 气泡图里位于左上角)。

消融实验

逐模块累加(REAL,×4):

Unmix SCACA CFDA SCMF PSNR SAM Params
41.26 0.036 5.08M
41.41 0.034 5.05M
41.66 0.034 4.85M
41.95 0.033 5.85M
42.05 0.033 5.94M

CFDA 单独对比(REAL,×4):

聚合方式 PSNR SAM Params
w/o Aggregation 41.66 0.034 4.85M
w/ DCNv2 41.80 0.033 5.78M
w/ CFDA 41.95 0.033 5.85M

关键发现

  • 解混策略是地基:仅加 Unmix 就把基线从 41.26 提到 41.41 dB,且参数还略降——验证"固定端元、只学残差丰度"确实简化了优化目标。
  • CFDA 贡献最显著的单步提升:加入 CFDA 让 PSNR 从 41.66 跳到 41.95(+0.29 dB),且优于通用 DCNv2(41.80),特征可视化里伪影/模糊明显减少,说明"特征域隐式聚合 + 由粗到细光流先验"确实比像素 warp 干净。
  • SCMF 在大倍率收益更大:×16 上 +0.38 dB 远超 ×4 的 +0.10 dB,说明任务越难、多尺度动态门控融合越重要。
  • K=3 端元足够:在强光谱相关性下,仅 3 个端元即可重建,进一步印证 HSI 低秩假设。

亮点与洞察

  • 把"对齐难题"换成"丰度增强易题":最 aha 的是 Fig.2(d) 的实证——端元对错位鲁棒、只需修好丰度图就能重建,于是显式对齐这一步整个被绕过,伪影问题从根上消失。这种"用问题结构(低秩/可解混)做分解"的思路可迁移到其它带几何错位的融合任务(如多光谱-全色融合、跨模态配准恢复)。
  • Value 调制式交叉注意力:不 concat 参考而是用参考特征逐元素调制注意力 Value,是个轻量又有效的多模态注入 trick,可复用到任意"主特征 + 引导特征"的精修场景。
  • 效率友好:用约一半参数刷 SOTA,说明"省下耦合融合的容量、专注丰度"不仅效果好还更省,对实际部署有意义。

局限与展望

  • 端元由 SVD 一次性固定且不参与训练:若 LR HSI 本身光谱质量差或场景端元数远超 \(K=3\),固定端元可能成为重建上限,论文未讨论端元估计误差的传导。
  • 仍依赖一张 HR RGB 参考:方法是 reference-based,参考缺失或与目标场景差异极大时效果未验证;RGB 仅 3 通道,对参考之外的光谱细节贡献有限。
  • ⚠️ 真实数据规模有限:REAL 仅 60 对、测试 10 对,泛化性结论需谨慎;不同传感器/室外强光场景下的鲁棒性有待更大规模验证。
  • 改进方向:让端元可学/可自适应估计,或引入端元数自动选择;探索无参考或弱参考设定下的丰度增强。

相关工作与启发

  • vs 两阶段显式对齐(如 SSCH/HSIFN):它们先用预训练光流 warp 参考再耦合融合,本文不做像素 warp、改在特征域用 CFDA 隐式聚合,避开了 warp 伪影(Fig.2(c) 那种从 41.59 掉到 14.79 dB 的灾难),且把融合从空谱耦合域转到丰度域,参数更省、精度更高。
  • vs 优化类解混超分(Optimized 等):传统解混优化方法对错位有一定鲁棒性但依赖手工先验、难应对复杂真实场景(Tab.1 里 Optimized 仅 25.35 dB);本文保留"解混对错位鲁棒"的优点,但用深度网络学残差丰度+可变形聚合,摆脱手工先验。
  • vs 通用可变形卷积 DCNv2:直接用 DCNv2 聚合会留伪影(41.80 dB),本文的 CFDA 用"粗光流金字塔 + 亚像素频率编码精修"给可变形卷积更稳的先验,把 PSNR 提到 41.95 dB 且特征更干净。

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 用光谱解混把非配准空谱融合重表述为"固定端元+学残差丰度",从问题结构上消解了显式对齐的伪影难题,切入角度新且有实证支撑。
  • 实验充分度: ⭐⭐⭐⭐ 模拟+真实双数据集、三倍率、逐模块消融与 CFDA/SCMF 专项消融都齐全,但真实数据规模偏小。
  • 写作质量: ⭐⭐⭐⭐⭐ 动机用 Fig.2(d) 解混分析讲得透彻,模块公式完整,框架图清晰。
  • 价值: ⭐⭐⭐⭐ 以约一半参数刷 SOTA,对参考型 HSI 超分的实用化有明确推进,思路可迁移到其它带错位的融合恢复任务。