Enhancing Unregistered Hyperspectral Image Super-Resolution via Unmixing-based Abundance Fusion Learning¶

会议: CVPR 2026
论文: CVF Open Access
代码: https://github.com/yingkai-zhang/UAFL （论文承诺开源，待发布）
领域: 图像恢复 / 高光谱超分辨率
关键词: 高光谱超分, 非配准融合, 光谱解混, 可变形聚合, 交叉注意力

一句话总结¶

针对"低分辨率高光谱图 + 一张未配准高分辨率参考图"的超分任务，本文用光谱解混把空间和光谱信息解耦，让网络只去增强解混出的丰度图（而非直接做易受错位干扰的空谱耦合融合），再配合由粗到细的可变形聚合、空间-通道丰度交叉注意力和调制融合模块，在 ICVL/REAL 数据集上以约一半参数量刷出 SOTA（×4 上 PSNR 41.84/42.05 dB）。

研究背景与动机¶

领域现状：高光谱传感器存在空间分辨率与光谱分辨率的固有 trade-off——光谱很准但空间细节差，于是高光谱超分（HSI SR）成为刚需。单图超分受限于单一输入信息量；reference-based 配准超分用一张高分辨率参考图（RGB）补空间细节，效果更好，但严格假设 LR HSI 与参考图已完美对齐。

现有痛点：现实中平台振动、视角变化、传感器采集时间差，几乎必然带来错位，于是出现"非配准 HSI SR"。主流做法是两阶段：先用预训练光流模型（如 RAFT）显式把参考图 warp 对齐，再交给空谱耦合网络融合。但这套有两个硬伤：① 显式对齐会在 warp 后的图像里引入纹理畸变和伪影（论文 Fig.2(c) 把参考 RGB warp 后从 41.59 dB 掉到 14.79 dB）；② 空谱耦合融合让网络要同时学空间和光谱，学习容量被严重约束（Fig.1 里这类方法参数大、PSNR 反而不高）。

核心矛盾：错位无法回避，而"在像素域显式对齐 + 在耦合空谱域融合"这条路既会引入伪影、又难学。问题根子在于：直接在原始空谱耦合域里融合一张未对齐的参考，把"对齐误差"和"空谱重建"两件难事搅在了一起。

切入角度：HSI 因强光谱相关性具有低秩性，可做光谱解混（unmixing），而解混本身对几何错位鲁棒（端元 endmember 反映材质光谱，与像素对齐与否无关）。作者据此在 Fig.2(d) 做了关键验证：用 LR HSI 的端元 \(E_{lrhsi}\) + HR HSI 的丰度 \(A_{hrhsi}\) 重新混合（mixing），能高质量重建出 HR HSI（41.46 dB）；而直接拿端元去混未配准参考 RGB 则定量很差（14.79 dB，虽看上去清晰）。这说明只要拿到"结构良好、对齐准"的丰度图，端元几乎不用动就能重建。

核心 idea：把"非配准空谱融合"重新表述为"学习残差丰度图"——先用 SVD 解混固定端元、得到初始丰度，再让网络专心利用未配准参考去增强这张丰度图。这一步把难题拆成了一个更具体、更好优化的学习目标。

方法详解¶

整体框架¶

输入是一张 LR HSI \(X\in\mathbb{R}^{h\times w\times B}\) 和一张未配准 HR RGB 参考 \(I\in\mathbb{R}^{H\times W\times b}\)，目标输出 HR HSI \(Y\in\mathbb{R}^{H\times W\times B}\)。整条流水线分三段：解混（Unmixing）→ 多尺度编码-解码增强丰度 → 混合（Mixing）。

先把 LR HSI 上采样到目标尺寸得 \(X_\uparrow\)，对其做奇异值分解 \(X_\uparrow = USV^T\)，取 \(U\) 的前 \(K\) 个左奇异向量构成端元矩阵 \(E\in\mathbb{R}^{B\times K}\)（论文取 \(K=3\)），初始丰度由 \(A=E^T X_\uparrow\) 得到。网络 \(f(\cdot|\theta)\) 不再去预测整张 HSI，而是以初始丰度 \(A\) 和参考 \(I\) 为输入，学一张增强后的残差丰度 \(\hat{A}=f(A,I|\theta)\)。在编码-解码的 backbone 里串入三个核心模块：CFDA 把未配准参考特征隐式聚合对齐到丰度特征上、SCACA 用空间+通道交叉注意力精修丰度、SCMF 在解码端用动态门控融合编码-解码特征。最后做混合 \(Y_{res}=E\hat{A}\)，并加回上采样基底 \(Y=Y_{res}+X_\uparrow\) 得到最终 HR HSI。整个方案的精髓是：端元始终固定不学，所有可学习容量都花在"把丰度对齐好、增强好"上。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["LR HSI X↑（上采样）+ 未配准 HR RGB I"] --> B["1. 解混重表述<br/>SVD 取端元 E、初始丰度 A"]
    B --> C["2. 由粗到细可变形聚合 CFDA<br/>粗光流金字塔 + 亚像素精修"]
    C --> D["3. 空间-通道丰度交叉注意力 SCACA<br/>空间 SACA → 通道 CACA"]
    D --> E["4. 空间-通道调制融合 SCMF<br/>动态门控合并编/解码特征"]
    E --> F["Mixing: Y = E·Â + X↑<br/>输出 HR HSI"]

关键设计¶

1. 解混重表述：把空谱耦合融合改写成学残差丰度

针对"直接在耦合空谱域融合未对齐参考既引入伪影又难学"这个根本痛点，本文用光谱解混做问题分解。利用 HSI 的低秩性，对上采样后的 \(X_\uparrow\) 做 SVD，前 \(K\) 个左奇异向量当端元 \(E\)、\(A=E^T X_\uparrow\) 当初始丰度。关键在于：端元代表材质光谱、对错位天然鲁棒，所以固定不动；网络只学增强后的残差丰度 \(\hat{A}=f(A,I|\theta)\)，最终 \(Y=E\hat{A}+X_\uparrow\)。

\[Y = E\hat{A} + X_\uparrow,\qquad \hat{A}=f(A,I|\theta)\]

这样做有效，是因为 Fig.2(d) 的解混分析证明了"\(E_{lrhsi}\) + 好的 \(A_{hrhsi}\) 就能高质量重建"——光谱精度由 LR HSI 自身保证、空间结构问题全部收敛到"丰度图增强"这一个子任务上。相比旧的两阶段方法在像素域显式对齐再耦合融合，这里把一个复杂耦合问题转成了单一、可优化的残差学习目标，网络容量不再被空谱耦合稀释。⚠️ 端元固定为 SVD 直接结果、不参与训练，这一假设的边界（端元估计误差会不会传导）论文未深入讨论，以原文为准。

2. 由粗到细可变形聚合 CFDA：在特征域隐式对齐，绕开像素 warp 的伪影

显式像素对齐会把畸变烙进图像，本文改为在深度特征域做隐式聚合。CFDA 分两级。粗光流金字塔预测器（CPFP）：先把丰度特征 \(F\) 与参考特征 \(F_{ref}\) 下采样，卷积预测低分辨率光流再上采样为粗运动先验 \(C_{flow}=\mathrm{Up}(\mathrm{Conv}_{3\times3}(F_\downarrow,F_{ref\downarrow}))\)；用它 warp 参考后与 \(F\) 拼接，再预测残差光流 \(\Delta C_{flow}\) 和相似度图，得到最终先验光流 \(F_{flow}=C_{flow}+\Delta C_{flow}\) 与置信度 \(F_{sim}=\mathrm{Sigmoid}(F'_{sim})\)。亚像素精修（FSPR）：取光流小数部分 \(d_f\) 做频率位置编码 \(\gamma(d_f)=[\omega d_f,\omega^2 d_f,\dots]\)，拼成 \(F_{pe}=\mathrm{Concat}[\sin(\gamma(d_f)),\cos(\gamma(d_f))]\) 给出亚像素级先验；精修网络吃 \([F,\mathrm{Warp}(F_{ref},F_{flow}),F_{pe}]\) 预测残差偏移和 mask \(\Delta P=(\Delta P_o,\Delta P_m)\)，最终偏移 \(O=F_{flow}+\mathrm{Tanh}(\Delta P_o)\)、调制掩码 \(M=\mathrm{Sigmoid}(F_{sim}\odot\Delta P_m)\)，再用调制可变形卷积把参考特征聚合成 \(\hat{F}_{ref}\)。

之所以有效：先验光流给可变形卷积一个稳定起点、亚像素编码补足精度，整个对齐发生在特征而非像素层面，因此不会像 warp 图像那样留下纹理伪影。消融（Tab.4）显示，相比通用 DCNv2（41.80 dB），CFDA 把 PSNR 提到 41.95 dB，且特征可视化里 DCNv2 的伪影/模糊文字被 CFDA 显著消除。

3. 空间-通道丰度交叉注意力 SCACA：用参考结构分别精修丰度的空间结构与光谱响应

聚合后的参考特征还需进一步引导丰度精修。SCACA 先用轻量自调制 \(\hat{F}_{refm}=\hat{F}_{ref}+\hat{F}_{ref}\odot\mathrm{Sigmoid}(\mathrm{Conv}_{5\times5}(\hat{F}_{ref}))\) 强化参考特征，再做层级交叉注意力：先空间后通道。空间分支 SACA 用窗口交叉注意力，\(Q,K,V\) 全来自丰度特征 \(Z_w\)，但在聚合前用参考特征调制 Value：\(V_{mod}=V\odot\mathrm{Reshape}(\hat{F}_{refw})\)，\(\hat{Z}=\mathrm{Softmax}(QK^T/\sqrt{d_k}+B)V_{mod}\)，借参考的结构信息引导丰度的空间对应关系。通道分支 CACA 互补地精修光谱签名，同样以参考调制 Value \(V_{mod}=V\odot\hat{F}_{refm}\)，自适应放大显著光谱、压制无关响应。

设计巧在"Value 调制"这一招：不是简单 concat 参考，而是让参考特征直接作用在注意力的 Value 上，使丰度精修过程显式吸收参考的空间结构和通道特性。空间+通道双路结合，让多模态信息既补了空间细节又对齐了光谱。消融里 SCACA 把基线从 41.41 提到 41.66 dB。

4. 空间-通道调制融合 SCMF：动态门控合并编/解码特征，避免简单跳连丢细节

编码-解码间的特征如果直接相加/拼接，难以在不同尺度自适应取舍。SCMF 把编码特征 \(F_{enc}\) 与解码特征 \(F_{dec}\) 沿通道拼成 \(F_{cat}\)，再走两条并行调制。空间调制：值分支用深度卷积+LeakyReLU 生成 \(V_{spa}\)，门控分支 \(M_{spa}=\mathrm{Sigmoid}(\mathrm{Conv}_{3\times3}(F_{cat}))\) 给每个像素一个重要性权重，\(F_{spa}=V_{spa}\odot M_{spa}\)。通道调制：值分支用 \(1\times1\) 卷积得 \(V_{spe}\)，门控分支先全局平均池化成通道描述子再 \(1\times1\) 卷积 \(M_{spe}=\mathrm{Sigmoid}(\mathrm{Conv}_{1\times1}(\mathrm{GAP}(F_{cat})))\)，\(F_{spe}=V_{spe}\odot M_{spe}\)。两路相加并残差接回解码特征：

\[\hat{F}_{dec}=(F_{spa}+F_{spe})+F_{dec}\]

有效之处在于门控权重是动态、由内容生成的，空间门控按局部上下文强调/抑制细节、通道门控按全局描述子重标定光谱响应，两者互补再残差保底。Tab.5 显示越是困难的大倍率收益越大——×16 上加 SCMF 提升 0.38 dB，说明它在多尺度特征融合里对高频细节恢复尤其关键。

损失函数 / 训练策略¶

端到端只用 L1 损失训练。配置 \(C=64\) 维特征、\(K=3\) 个端元；AdamW 优化器，weight decay \(5\times10^{-5}\)、学习率 \(1\times10^{-5}\)，batch size 1，单张 RTX 4090；ICVL 训 150 epoch、REAL 训 300 epoch。LR HSI 由高斯核（\(\mu=8,\sigma=3\)）模糊后按 ×4/×8/×16 下采样得到。

实验关键数据¶

主实验¶

ICVL 模拟数据集，×4 倍率（PSNR↑/SSIM↑/SAM↓）：

方法	来源	PSNR	SSIM	SAM
SSPSR	TCI'20	40.19	0.982	0.033
HSIFN	TNNLS'24	41.14	0.983	0.041
SRLF	CVPR'25	38.75	0.977	0.041
SSCH-S	IJCV'25	41.38	0.987	0.031
本文	-	41.84	0.986	0.025

REAL 真实数据集，多倍率对比（PSNR↑ / 参数量 / FLOPs）：

方法	×4 PSNR	×8 PSNR	×16 PSNR	Params(M)	FLOPs(G)
HSIFN	40.15	34.39	30.07	21.01	594.10
SSCH-S	41.16	36.19	31.91	11.01	165.68
本文	42.05	37.23	32.28	5.94	96.17

本文在三个倍率上全面领先：×4/×8/×16 分别比次优高 0.89/1.04/0.37 dB，且参数量约为 SSCH-S 的一半、FLOPs 少约 42%，实现了精度与效率的双赢（Fig.1 气泡图里位于左上角）。

消融实验¶

逐模块累加（REAL，×4）：

Unmix	SCACA	CFDA	SCMF	PSNR	SAM	Params
✗	✗	✗	✗	41.26	0.036	5.08M
✓	✗	✗	✗	41.41	0.034	5.05M
✓	✓	✗	✗	41.66	0.034	4.85M
✓	✓	✓	✗	41.95	0.033	5.85M
✓	✓	✓	✓	42.05	0.033	5.94M

CFDA 单独对比（REAL，×4）：

聚合方式	PSNR	SAM	Params
w/o Aggregation	41.66	0.034	4.85M
w/ DCNv2	41.80	0.033	5.78M
w/ CFDA	41.95	0.033	5.85M

关键发现¶

解混策略是地基：仅加 Unmix 就把基线从 41.26 提到 41.41 dB，且参数还略降——验证"固定端元、只学残差丰度"确实简化了优化目标。
CFDA 贡献最显著的单步提升：加入 CFDA 让 PSNR 从 41.66 跳到 41.95（+0.29 dB），且优于通用 DCNv2（41.80），特征可视化里伪影/模糊明显减少，说明"特征域隐式聚合 + 由粗到细光流先验"确实比像素 warp 干净。
SCMF 在大倍率收益更大：×16 上 +0.38 dB 远超 ×4 的 +0.10 dB，说明任务越难、多尺度动态门控融合越重要。
K=3 端元足够：在强光谱相关性下，仅 3 个端元即可重建，进一步印证 HSI 低秩假设。

亮点与洞察¶

把"对齐难题"换成"丰度增强易题"：最 aha 的是 Fig.2(d) 的实证——端元对错位鲁棒、只需修好丰度图就能重建，于是显式对齐这一步整个被绕过，伪影问题从根上消失。这种"用问题结构（低秩/可解混）做分解"的思路可迁移到其它带几何错位的融合任务（如多光谱-全色融合、跨模态配准恢复）。
Value 调制式交叉注意力：不 concat 参考而是用参考特征逐元素调制注意力 Value，是个轻量又有效的多模态注入 trick，可复用到任意"主特征 + 引导特征"的精修场景。
效率友好：用约一半参数刷 SOTA，说明"省下耦合融合的容量、专注丰度"不仅效果好还更省，对实际部署有意义。

局限与展望¶

端元由 SVD 一次性固定且不参与训练：若 LR HSI 本身光谱质量差或场景端元数远超 \(K=3\)，固定端元可能成为重建上限，论文未讨论端元估计误差的传导。
仍依赖一张 HR RGB 参考：方法是 reference-based，参考缺失或与目标场景差异极大时效果未验证；RGB 仅 3 通道，对参考之外的光谱细节贡献有限。
⚠️ 真实数据规模有限：REAL 仅 60 对、测试 10 对，泛化性结论需谨慎；不同传感器/室外强光场景下的鲁棒性有待更大规模验证。
改进方向：让端元可学/可自适应估计，或引入端元数自动选择；探索无参考或弱参考设定下的丰度增强。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 用光谱解混把非配准空谱融合重表述为"固定端元+学残差丰度"，从问题结构上消解了显式对齐的伪影难题，切入角度新且有实证支撑。
实验充分度: ⭐⭐⭐⭐ 模拟+真实双数据集、三倍率、逐模块消融与 CFDA/SCMF 专项消融都齐全，但真实数据规模偏小。
写作质量: ⭐⭐⭐⭐⭐ 动机用 Fig.2(d) 解混分析讲得透彻，模块公式完整，框架图清晰。
价值: ⭐⭐⭐⭐ 以约一半参数刷 SOTA，对参考型 HSI 超分的实用化有明确推进，思路可迁移到其它带错位的融合恢复任务。