跳转至

HyperFM: An Efficient Hyperspectral Foundation Model with Spectral Grouping

会议: CVPR 2026
arXiv: 2604.21127
代码: https://github.com/umbc-sanjaylab/HyperFM (有)
领域: 遥感 / 高光谱基础模型
关键词: 高光谱、基础模型、光谱分组、参数高效、云属性反演

一句话总结

针对 NASA PACE 卫星 291 波段高光谱数据,提出参数高效的基础模型 HyperFM——用「光谱分组注意力(组内 LGA + 组间 GGA + MoE 门控)」缓解高维波段压进 token 的信息瓶颈,用「Hypoformer 块(张量列车注意力 + 低秩 FFN)」把参数砍到一半,配合首个含 60%+ 云覆盖的 HyperFM250K 数据集做 MAE 预训练,在四项云属性反演任务上比现有高光谱基础模型平均降低 32.36% 的 MSE,参数量却减半。

研究背景与动机

领域现状:CLIP、DALL-E 这类基础模型在 RGB 视觉和 NLP 上大获成功后,遥感界也开始造各模态的基础模型(RGB、SAR、多光谱、高光谱)。高光谱方向已有 HyperSigma、SpectralEarth 等先驱,它们各自构建大规模语料并在小型 HSI benchmark 上拿到不错成绩。

现有痛点:这些高光谱基础模型有三个硬伤。其一,它们刻意只用无云场景(云覆盖 <10%)预训练,导致根本没见过云像素的光谱特征,无法服务于云、气溶胶、大气微物理反演这类真正需要云数据的任务。其二,受限于不同传感器之间的光谱不一致,多数模型被锁死在单一传感器数据上。其三,它们普遍参数臃肿、算力昂贵(动辄 88M~102M 参数),难以在业务化场景中规模部署。

核心矛盾:高光谱有数百个连续波段(PACE-OCI 是 291 个),标准 ViT 把一个 \(291\times8\times8\) 的 patch 直接投影到 768 维 token,会造成严重的压缩损失——高维输入被硬塞进固定 token 尺寸,光谱细节大量丢失;若想缩小 patch 来匹配 token 维度,又会丢掉空间信息。表达力与算力效率之间存在直接 trade-off。

本文目标:拆成两个子问题——(1)造一个含大量云像素、跨陆/海/极地的高光谱数据集,填补预训练语料空白;(2)设计一个既能保住光谱-空间细节、又参数高效的基础模型架构。

切入角度:作者观察到 OCI 的 291 个波段天然分布在蓝(119)、红(163)、短波红外(9)三个光谱仪上且各有结构,于是按光谱相邻性分组处理,而不是一股脑塞进单个 patch embedding;同时借鉴语言模型里的 Hypoformer 张量列车分解,把它首次搬到视觉任务上压参数。

核心 idea:用「光谱分组的局部+全局注意力」替代会丢信息的单层 patch embedding,用「混合张量列车分解」替代代价高昂的标准注意力投影,从而在保留全秩表达力的同时大幅降本。

方法详解

整体框架

HyperFM 是一个为「大规模含云高光谱数据」量身设计的 MAE 基础模型。输入是一张 \(C\times H\times W\)\(C=291\))的高光谱图像,输出是预训练阶段重建的被遮挡区域、以及下游微调阶段四项云属性的逐像素回归图。整条管线是:原始高光谱图先过 Group Embed 模块做光谱分组特征提取与 patchify,再进 patch embedding 变成 token,随后被一串 Hypoformer 块(编码器 \(N_e=4\)、解码器 \(N_d=8\))编码;预训练时用 MAE 框架 遮 75% 的空间 patch、只让可见 token 过编码器再重建;下游时冻结编码器、接一个轻量卷积解码器同时回归四种云属性。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["输入<br/>291 波段高光谱图"] --> B["光谱分组嵌入<br/>LGA 组内 + GGA 组间 + 门控"]
    B --> C["Patch Embedding<br/>→ token 序列"]
    C --> D["Hypoformer 块<br/>HTT 注意力 + LMF FFN<br/>编码器×4 / 解码器×8"]
    D -->|预训练| E["MAE 重建<br/>遮 75% patch · L2 损失"]
    D -->|下游微调| F["轻量解码器<br/>同时回归 COT/CER/CWP/CTH"]

关键设计

1. Group Embed 模块:用光谱分组注意力替代会丢信息的单层 patch embedding

直接把 291 波段塞进一个 patch embedding 会造成严重压缩损失,这是高光谱建模的核心瓶颈。Group Embed 的做法是把光谱维切成 \(k\) 组,得到 \(X_1,\dots,X_k\in\mathbb{R}^{\frac{C}{k}\times H\times W}\),每组先单独过一个 Local Group Attention (LGA) 块提取组内特征 \(G_1,\dots,G_k\),再把这些特征拼接后送入 Global Group Attention (GGA) 块建模跨组关系,输出 \(Z\in\mathbb{R}^{C\times H\times W}\)。LGA 和 GGA 都用 MaxViT 块实现——它同时跑 block attention(局部)和 grid attention(全局),从而捕捉局部与全局的光谱-空间交互。更巧的是,作者借鉴 MoE 思想在 LGA 输出后加了一个可训练门控函数,只挑选信息量最大的若干组特征再喂给 GGA,让模型把算力聚焦在最有用的光谱组上。这样在 tokenize 之前就做了组内特征提取和组内 patchify,保留的光谱细节远多于传统 patch embedding。

具体分组是经验设定的:OCI 的 119 蓝 / 163 红 / 9 SWIR 波段(有部分重叠)被切成 9 组,每组至少含 13 个蓝、18 个红、1 个 SWIR 波段,确保每组都横跨光谱的不同区域,有利于学跨光谱关系

2. Hypoformer 块:用混合张量列车分解把注意力的参数压下来又不丢秩

标准 ViT 的 QKV 投影是 \(\mathcal{O}(N^2)\) 复杂度,面对高光谱的高维度扩展性很差,是参数臃肿的根源。Hypoformer(原本只在语言模型里验证过,本文首次用于视觉)把每个 block 的注意力和 FFN 都换成两个紧凑模块。其一是 HTT(Hybrid Tensor Train)Attention:不再用一个大稠密矩阵生成 Q/K/V,而是把一个稠密层 \(W_{dense}\in\mathbb{R}^{d\times 3\alpha d}\) 和一个张量列车线性层 \(W_{tt}\in\mathbb{R}^{d\times 3(1-\alpha)d}\) 的输出拼起来——\(q=\text{concat}(q_1,q_2)\)\(k=\text{concat}(k_1,k_2)\)\(v=\text{concat}(v_1,v_2)\),其中 \(q_1,k_1,v_1=\text{Split}(XW_{dense},3)\)\(q_2,k_2,v_2=\text{Split}(XW_{tt},3)\),再做常规 \(\text{softmax}(qk^\top/\sqrt{d})v\)。这里 \(\alpha\in[0,1]\) 是压缩比,控制稠密与张量列车两部分的占比。其二是 LMF(Low Matrix Factorization)FFN:用四个低秩分解的稠密层替代标准 FFN,\(\text{LMF-FFN}(X)=\text{ReLU}(XU_1V_1+b_1)U_2V_2+b_2\),秩 \(R\) 控制压缩程度。

之所以有效,是因为张量列车分解用一组小核(\(D\) 个核、TT 秩 \(R\))逼近大投影矩阵,把时间复杂度里的二次项部分替换成 \(N^{1+\frac{1}{D}}R^2\) 这样的亚二次增长,同时混合结构保留了全秩表达力——这是它区别于普通低秩分解(会限制表达力)的关键。实现里设 \(\alpha=0.5\)\(D=3\) 个 TT 核、\(R=3\),最终模型只有 32.06M 参数,约为 HyperSigma(100.16M)的三分之一

3. HyperFM250K 数据集 + MAE 预训练:让模型真正见过云

现有基础模型表现差的根因是预训练语料里没有云。作者从 NASA PACE-OCI 拉了 2262 个 Level-1B granule(2024.05–2025.04 全球),经四步预处理(无效像素置 NaN → 按 ≤10s 时间差配对 Level-2 云产品 → \(96\times96\) 滑窗切 patch → 丢弃 NaN 占比 >1% 的 patch),得到约 25 万个干净 patch,构成首个云覆盖 >60%、横跨陆/海/极地的高光谱数据集 HyperFM250K(291 波段,对照已有数据集要么无云、要么单一传感器)。预训练用 MAE:遮 75% 的空间 patch,只让可见 token 过编码器,再由解码器重建被遮区域,用 L2 重建损失。选 MAE 而非对比/聚类目标,是因为后者往往需要大 batch、重增强、敏感调参;而 MAE 只让未遮 token 过编码器,算力效率更高,可以在不成比例增加训练成本的前提下加大编码器容量

损失函数 / 训练策略

预训练用 MAE 的 L2 重建损失,遮蔽比例 75%,训 250 epoch(验证 MSE early stopping,patience 50),batch size 4,AdamW。下游四项云属性(COT/CER/CWP/CTH)用多任务学习联合回归(联合优于各练各的),微调时冻结预训练编码器、只更新一个由卷积层+上采样块+LayerNorm 组成的轻量解码器;COT 和 CWP 在训练前做 log 变换。评测指标统一用 MSE。⚠️ 作者坦言由于算力限制,下游微调只用了 2000 张训练图。

实验关键数据

主实验

四项逐像素云属性反演任务,指标为 MSE(越低越好)。下表为 full fine-tuning(编码器也更新)设定,HyperFM 全面领先且参数量最小:

模型 COT ↓ CER ↓ CWP ↓ CTH ↓ 参数量
HyperFM (本文) 0.2615 62.40 1.01 4.05 32.06M
SpectralEarth 0.3404 84.29 1.25 5.17 88.78M
CAM(任务专用) 0.3367 74.45 1.51 6.63 0.47M
UNet(任务专用) 0.3928 84.73 1.57 7.68 31.04M
HyperSigma 0.4649 117.51 1.75 10.33 100.16M

相对最强基础模型基线 HyperSigma(其 decoder-only 微调结果),HyperFM 在 COT/CER/CWP/CTH 上分别降低 18.59% / 34.66% / 23.88% / 52.31% 的 MSE,四项平均降低 32.36%

冻结编码器对比(decoder-only 微调)

为公平对比基础模型的表征质量,所有 FM 都冻结编码器、只训轻量解码器。即便如此,HyperFM 的 decoder-only 版本也已超过所有竞品基础模型乃至任务专用 SOTA:

模型 COT ↓ CER ↓ CWP ↓ CTH ↓ 可训练参数
HyperFM (本文) 0.3124 73.70 1.22 5.10 1.48M
HyperSigma 0.3212 95.49 1.33 8.49 0.69M
SpectralEarth 0.4699 97.92 1.71 7.67 0.54M
HyperFree 0.5570 117.90 2.06 10.07 0.69M

此外,三个现有基础模型在 zero-shot(不微调)下表现都很差(如 SpectralEarth COT MSE 高达 61.03、CER 14384),印证了它们在无云数据上预训练、无法直接迁移到含云场景的判断。

关键发现

  • 数据决定上限:现有 FM 在 zero-shot 下惨败、在云任务上长期落后,根因是预训练只见过无云像素;HyperFM 仅凭见过云就大幅领先——说明含云数据集 HyperFM250K 本身是核心贡献。
  • 表征质量过硬:HyperFM 哪怕冻结编码器(decoder-only)也能压过别人 full fine-tune 的结果,说明 Group Embed + Hypoformer 学到的光谱-空间表征确实更好。
  • 效率优势明显:32.06M 参数约为 HyperSigma/SpectralEarth/HyperFree(88–102M)的 1/3,HTT 的亚二次复杂度 \(\mathcal{O}(\alpha N^2 + D(\max[\alpha N,(1-\alpha)N])^{1+\frac{1}{D}}R^2)\) 让它在高光谱维度下扩展性远好于标准 ViT。
  • CTH 提升最大(52.31%):云顶高度这种强依赖全谱信息的任务上,全光谱建模 + 含云预训练的收益最突出。

亮点与洞察

  • 光谱分组 + MoE 门控:把数百波段按光谱相邻性分组、组内 LGA 组间 GGA 分层建模,再用可训练门控只留信息量大的组——这是缓解「高维波段塞进固定 token」压缩损失的轻巧解法,可迁移到任何超多通道输入(如多传感器融合、医学多模态体数据)。
  • Hypoformer 跨域搬运:把语言模型里验证过的混合张量列车注意力首次搬到视觉高光谱,既压参数又保全秩表达力,给「参数高效视觉 backbone」提供了一条不同于剪枝/LoRA 的预训练期路线。
  • 数据集即贡献:最让人「啊哈」的是——架构再巧也比不过让模型「见过云」。HyperFM250K(首个 >60% 云覆盖、跨陆海极地的高光谱集)才是性能跃升的根本来源,提醒大家基础模型的瓶颈常在数据分布而非模型尺寸。
  • MAE 在高光谱的效率红利:只让未遮 token 过编码器,使得加大编码器容量不会等比增加成本,对动辄数百波段的高光谱尤其划算。

局限与展望

  • 作者承认当前用的是固定超参(压缩比 0.5、3 个 TT 核、TT 秩 3),尚未做系统消融,最优配置未知。
  • 下游微调只用了 2000 张图、预训练也只跑了数据子集(受算力限制),完整规模实验还没做——目前的领先是在「数据/算力受限」前提下取得的,放大后是否保持优势仍待验证。
  • 真值来自 PACE-OCI Level-2 产品(由最优反演算法生成),本身可能带系统偏差;作者计划等主动传感器数据可用后做协同定位以获得更准的监督。
  • 重建质量在 patch 边界 有不连续伪影,需用重叠采样平滑(代价是额外算力)。
  • 个人看法:论文缺少对 Group Embed 各组件(LGA/GGA/门控/分组数)和 Hypoformer 超参的消融,难以判断各设计的独立贡献;「>32% 提升」是拿 HyperFM full fine-tune 对比 HyperSigma decoder-only,两种设定不完全对等,横向比较需保留 caveat。

相关工作与启发

  • vs HyperSigma:两者都是高光谱基础模型,HyperSigma 用分离的空间/光谱模块、在无云的 Gaofen/EO-1 数据上预训练;HyperFM 用光谱分组注意力 + 含云数据,区别在于「见没见过云」和「参数效率」——HyperFM 用 1/3 参数把云任务 MSE 平均压低 32%,但在某些非云相关基准上的泛化仍未充分验证。
  • vs SpectralEarth / HyperFree:它们用投影网络先把光谱降维再做表征学习,HyperFM 反其道用分组注意力保留光谱细节而非压缩;且二者同样只在无云数据上预训练,导致在云任务上 zero-shot 失效、full fine-tune 也落后。
  • vs UNet / CloudUNet / CAM(任务专用):这些 U-Net 系方法只用 2–8 个波段、依赖辅助变量、且各任务单独训练;HyperFM 用全 291 波段 + 多任务联合反演,一个预训练编码器迁移到四项任务,体现基础模型范式相对任务专用模型的优势。
  • 启发:当输入通道数远超 token 容量时,「先分组保细节、再门控选信息」比「单层硬压」更稳;参数高效不一定靠微调期的 LoRA,预训练期就用张量列车分解换骨架也是一条路。

评分

  • 新颖性: ⭐⭐⭐⭐ 光谱分组注意力 + Hypoformer 首次用于高光谱视觉 + 首个含云大规模数据集,组合扎实但单点创新多为已有技术迁移
  • 实验充分度: ⭐⭐⭐ 四任务对比 + 多基线齐全,但缺架构消融、且受算力限制只用数据子集,提升对比口径不完全对等
  • 写作质量: ⭐⭐⭐⭐ 动机清晰、公式与复杂度分析完整,数据集构建流程交代细致
  • 价值: ⭐⭐⭐⭐ HyperFM250K 数据集与代码开源,填补大气云高光谱基础模型空白,对遥感气候应用有直接价值