GreenHyperSpectra: A Multi-Source Hyperspectral Dataset for Global Vegetation Trait Prediction¶

会议: NeurIPS 2025
arXiv: 2507.06806
代码: https://huggingface.co/datasets/Avatarr05/GreenHyperSpectra
领域: 遥感 / 自监督学习
关键词: 高光谱数据集, 植被性状预测, 半监督学习, 跨传感器泛化, 掩码自编码器

一句话总结¶

GreenHyperSpectra构建了一个包含14万+多源高光谱植被样本的预训练数据集，横跨近端、航空和卫星三种平台，通过半监督和自监督方法（MAE、GAN、RTM-AE）训练的标签高效回归模型在7种植物性状预测上全面超越全监督基线，特别是在标签稀缺和分布外场景中优势显著。

研究背景与动机¶

领域现状：植物功能性状（如叶面积质量、叶绿素含量、含水量等）是生物多样性评估和生态系统监测的核心变量。高光谱遥感通过测量数百个窄波段的反射率，可以非破坏性地预测这些性状。传统方法主要使用偏最小二乘回归（PLSR）或全监督深度学习方法，将高光谱数据映射到多个性状值。

现有痛点：植物性状标注成本极高——需要实地采样和实验室分析。现有标注数据集在地理和生态上高度有限（如仅覆盖北半球温带森林），且不同研究的采样策略和测量协议不统一。更重要的是，不同高光谱传感器（地面光谱仪 vs 航空AVIRIS vs 卫星EnMAP）在光谱分辨率、空间分辨率和观测几何上差异巨大，导致严重的域偏移（domain shift），全监督模型在跨传感器场景下泛化能力很差。

核心矛盾：高光谱数据本身是丰富的（无标签数据容易获取），但标注稀缺。现有自/半监督学习在高光谱领域的应用主要面向分类任务（如土地覆盖分类），而性状预测是一个多输出回归问题，且需要处理跨传感器的输入异质性。至今没有为植物性状预测设计的大规模预训练数据集和自/半监督方法框架。

本文目标 (1) 构建跨传感器、跨生态系统的大规模高光谱预训练数据集；(2) 建立半/自监督学习在多输出回归任务上的基准方法框架；(3) 验证预训练方法在标签稀缺和分布外场景中的优势。

切入角度：利用来自不同平台（近端/航空/卫星）、不同年份（1992-2024）、不同生态系统的14万+无标签高光谱样本进行预训练，学习跨域鲁棒的光谱表征。

核心 idea：构建多源异质高光谱预训练数据集GreenHyperSpectra，结合MAE等自监督方法解决植物性状预测中"标签稀缺+域偏移"的双重挑战。

方法详解¶

整体框架¶

系统包含两个阶段：(1) 在GreenHyperSpectra（14万+无标签样本）上进行自/半监督预训练，学习通用光谱表征；(2) 在标注数据集（7900个标注样本，50个实验来源，7种性状）上微调进行多输出回归。评估覆盖全光谱（400-2450nm）、半光谱（400-900nm）、分布内和分布外四种场景。

关键设计¶

GreenHyperSpectra数据集构建:
- 功能：提供跨域高光谱预训练数据
- 核心思路：从三种平台采集数据——近端光谱仪（ASD FieldSpec等，<1m分辨率，1-4nm光谱分辨率，5620样本）、航空传感器（AVIRIS-NG、NEON AOP等，1-20m分辨率，96699样本）、卫星（PRISMA、EnMAP、EMIT等，30-60m分辨率，36059样本）。所有数据处理到地表反射率级别，光谱重采样统一到一致的波段网格。多平台特性引入了空间分辨率、光谱分辨率、太阳-传感器几何、背景条件等多维变异性，这正是现有单平台数据集所缺乏的。
- 设计动机：跨传感器域偏移是性状预测泛化的最大障碍，通过在预训练阶段暴露模型于多源数据，学习域不变的光谱特征
掩码自编码器（MAE）用于1D光谱重建:
- 功能：自监督预训练策略，通过掩码重建学习光谱表征
- 核心思路：将高光谱数据分成若干tokens（patch），随机掩码部分tokens后用Transformer编码器-解码器重建。重建损失结合MSE和余弦相似度（权重 \(\alpha\)），既捕捉光谱幅度信息又保留光谱形状特征。预训练后冻结编码器接多输出回归头进行线性探测（MAE_LP）或全参数微调（MAE_FT）。对于半光谱输入，MAE的掩码机制天然支持变长输入——同一个全光谱预训练模型可直接迁移到半光谱数据。
- 设计动机：MAE通过重建相邻和远距token之间的关联，学习到高光谱数据中的局部相关性和长程依赖，这些先验知识有利于下游回归任务
物理约束自编码器（RTM-AE）:
- 功能：将辐射传输模型（PROSAIL-PRO）作为不可学习的解码器，强制潜在空间与物理性状对齐
- 核心思路：编码器将光谱压缩为潜在向量，这个潜在向量直接对应于PROSAIL-PRO模型的输入参数（叶绿素含量、LAI等），通过PROSAIL-PRO模拟反射率并与原始光谱比较。额外加入了可学习的校正层来弥合模拟与真实光谱的差距，以及有标签数据的监督损失。
- 设计动机：引入物理先验约束，使潜在空间具有可解释性（每个维度对应一个物理性状），同时通过无标签数据的重建学习增强表征鲁棒性

损失函数 / 训练策略¶

MAE使用MSE + 加权余弦相似度重建损失；RTM-AE使用重建损失 + 监督回归损失；SR-GAN使用对抗损失 + 特征对比损失 + 标签回归损失。训练时标注数据采用80/20划分策略，GreenHyperSpectra的20个非重叠子集确保每个split中各数据源比例一致。

实验关键数据¶

主实验（全光谱 400-2450nm）¶

方法	平均R² (↑)	平均nRMSE (↓)	说明
Supervised (全监督)	0.587	13.697	EfficientNet-B0基线
SR-GAN	0.592	13.589	半监督GAN
RTM-AE	0.592	13.557	物理约束自编码器
MAE_FR_LP (线性探测)	0.466	15.499	冻结编码器+线性头
MAE_FR_FT (微调)	0.641	12.777	全参数微调，最佳

消融实验（标签稀缺场景）¶

标签比例	Supervised R²	MAE_FT R²	提升
20%	~0.40	~0.55	+37.5%
40%	~0.48	~0.58	+20.8%
60%	~0.53	~0.61	+15.1%
100%	0.587	0.641	+9.2%

关键发现¶

MAE微调是明确的最优策略：在全光谱设置下，MAE_FT的R²比全监督基线高9%，nRMSE低6%。但线性探测（MAE_LP）表现反而最差，说明预训练学到的表征必须通过微调才能适配下游回归任务的精细光谱依赖
标签越少优势越大：在仅20%标签数据时，MAE_FT相对基线提升最显著（37.5%），证实了自监督预训练在数据稀缺场景的核心价值
跨光谱迁移有效：全光谱预训练的MAE直接应用到半光谱数据（MAE_FR_HR_FT），R²达0.566——远超半光谱专用的全监督基线0.163，说明MAE学到了可迁移的光谱先验
分布外泛化：MAE_FT在50个数据集的交叉验证中R²达0.311 vs 全监督0.243，提升29%
噪声鲁棒性：在σ=0.05的加性高斯噪声下，MAE_FT仍保持R²=0.331，而全监督基线降至-0.065

亮点与洞察¶

跨平台数据集设计理念是本文最核心的贡献：不是简单地"堆积更多数据"，而是刻意引入传感器异质性（近端/航空/卫星三种尺度、不同时间跨度、不同生态系统），让模型在预训练阶段就学会域不变特征。分层采样策略确保每个split中各数据源比例一致，这个工程细节对实验可靠性至关重要
PROSAIL-PRO作为解码器的RTM-AE设计非常巧妙：将物理模型嵌入深度学习框架，潜在空间天然对应物理性状，兼顾了可解释性和预测性能。虽然性能略逊于MAE，但其物理意义使其在生态学应用中更受信任
MAE对变长输入的天然支持是一个被低估的优势：全光谱预训练后可直接迁移到半光谱场景，无需重新预训练，极大提升了一个预训练模型的实用性

局限与展望¶

预训练数据的增大对性能影响不大（Fig 5），这可能是因为当前14万样本中的光谱变异性已接近饱和，需要从更多未覆盖的生态系统和地理区域获取数据
MAE_LP性能差说明预训练表征与性状回归之间存在gap——可以考虑在预训练阶段引入辅助性状预测任务（如基于PLSR的弱监督信号）
标注数据的50个来源主要集中在北半球，非洲、南美等生物多样性热点区域覆盖不足，OOD泛化实验可能高估了真实世界的性能
未探索更先进的自监督方法（如DINOv2、I-JEPA等）在1D光谱数据上的适用性

评分¶

新颖性: ⭐⭐⭐⭐ 首个面向植物性状预测的多源高光谱预训练数据集+自监督基准框架
实验充分度: ⭐⭐⭐⭐⭐ 全/半光谱、标签敏感性、噪声鲁棒性、OOD泛化、消融实验覆盖极为全面
写作质量: ⭐⭐⭐⭐ 数据集构建和实验设计描述详实清晰
价值: ⭐⭐⭐⭐ 为遥感与Plant Science交叉领域建立了重要基准，数据和代码公开