GeoLink: Empowering Remote Sensing Foundation Model with OpenStreetMap Data¶
会议: NeurIPS 2025
arXiv: 2509.26016
代码: GitHub
领域: 遥感
关键词: 遥感基础模型, OpenStreetMap, 多模态预训练, 异构图神经网络, 跨模态对齐
一句话总结¶
GeoLink将OpenStreetMap矢量数据直接融入遥感基础模型预训练,通过异构GNN编码OSM数据并设计多粒度跨模态学习目标(区域-图像级对比 + 对象-patch级融合),在127万样本对上高效预训练后,7个分类和4个分割/变化检测benchmark全面超越现有RS FM。
研究背景与动机¶
领域现状:遥感基础模型(RS FM)已在多尺度、多时相、多传感器方向取得进展,但地面级地理空间数据的融入仍不足。
现有痛点:现有将OSM用于RS的方法多采用间接策略(转标签/知识图谱/合成文本),人工密集、任务特化且丢失空间信息。
核心矛盾:RS图像与OSM数据存在巨大模态鸿沟(数据结构/内容/空间粒度不同),但OSM提供的位置语义、结构化知识和社会经济信息是纯视觉分析无法获取的。
本文目标 设计地理空间显式方法,直接利用OSM原始矢量元素为RS FM注入地理上下文。
切入角度:将OSM建模为异构图,通过GNN编码后与RS ViT编码器进行多粒度交互。
核心 idea:用OSM的异构图结构作为RS自监督预训练的多粒度监督信号,同时支持掩码高效训练和多模态下游融合。
方法详解¶
整体框架¶
GeoLink含三个编码器:(1) ViT-L RS图像编码器输出patch编码;(2) GATConv异构GNN OSM编码器输出节点编码(点/线/面三类);(3) Two-way Transformer融合编码器生成混合编码。预训练阶段同时掩码两种模态,通过三个SSL目标联合优化。
关键设计¶
-
异构OSM图构建与编码:
- 功能:将OSM矢量地图建模为异构图,节点为点/折线/多边形,边为拓扑空间关系
- 核心思路:用BERT对OSM标签键值对编码,按全局频率加权平均 \(\sigma_V = \sum w_i h_i / \sum w_i\);用Delaunay三角化等拓扑关系构建边
- 设计动机:OSM自由标签系统需语言模型处理未见值;拓扑关系比距离更稳健
-
区域-图像级对比对齐:
- 功能:全局层面对齐RS和OSM表示
- 核心思路:Set2Set分别聚合三类节点→类型注意力加权→OSM区域编码 \(\varepsilon_G\);RS mean pooling→\(\varepsilon_I\);InfoNCE对比损失 \(\mathcal{L}_{cont}\)
- 设计动机:对比学习可将OSM结构化语义传递给图像编码器
-
对象-patch融合 + 空间一致性约束:
- 功能:细粒度跨模态关联学习
- 核心思路:Two-way Transformer + 正弦位置嵌入解决空间模糊性;一致性损失 \(\mathcal{L}_{cst} = \frac{1}{N}\sum\|\varepsilon_{OR}^m - \sigma_V^m\|^2\) 强制掩码节点的融合表示与原始特征一致
- 设计动机:基于地理学第一定律——空间上下文与掩码对象属性强相关
损失函数 / 训练策略¶
\(\mathcal{L} = \mathcal{L}_{rec} + 0.01\mathcal{L}_{cont} + 0.01\mathcal{L}_{cst}\)。RS 75%掩码+MAE重建,OSM 20%节点掩码。仅60 epoch预训练(vs Scale-MAE 800 epoch),4×RTX6000,batch 2640。
实验关键数据¶
主实验¶
| 任务 | 数据集 | 指标 | GeoLink | 之前SOTA | 提升 |
|---|---|---|---|---|---|
| kNN分类 | RESISC-45 | Top-1 | 87.33% | 85.42%(Scale-MAE) | +1.91% |
| Fine-tuning | EuroSAT | Top-1 | 98.30% | 98.27%(MMEarth) | 持平 |
| 分割(FT) | AI4SmallFarms | mIoU | 47.29% | 45.98%(Scale-MAE) | +1.31% |
| 变化检测(FT) | SpaceNet7 | mIoU | 64.07% | 63.22%(Scale-MAE) | +0.85% |
| UV识别(多模态) | UV数据集 | mIoU | 81.68% | 80.09%(Scale-MAE+OSM) | +1.59% |
消融实验¶
| 配置 | 效果 | 说明 |
|---|---|---|
| 无OSM预训练 | 分类/分割均下降 | OSM预训练显著增强RS编码器 |
| 无对比损失 | 分类性能下降 | 区域级跨模态对齐核心 |
| 无一致性损失 | 融合质量下降 | 精细空间约束必要 |
关键发现¶
- kNN协议下优势最显著——学到了结构化RS表示空间
- 训练样本有限时优势更明显(高数据效率)
- 多模态融合使混淆UFZ类别显著更可分
- 空间相关性在多模态地理数据融合中起关键作用
亮点与洞察¶
- 首个直接利用OSM原始矢量数据进行RS FM预训练的框架
- 异构GNN处理OSM数据的设计优雅——三类节点+拓扑边+BERT标签编码
- 仅60 epoch预训练即收敛,训练效率极高
- 多粒度学习目标设计合理:全局对比+局部位置感知融合互补
局限与展望¶
- 预训练数据可能存在地域偏差(依赖OSM标注覆盖度)
- 仅使用RGB波段,未扩展到多光谱/SAR
- 融合编码器增加额外计算开销
相关工作与启发¶
- vs Scale-MAE/CROMA: 关注多尺度/多传感器但忽视地面地理知识;GeoLink补充了这一空白
- vs 间接OSM利用: 传统方法丢失空间信息;GeoLink直接图编码保留完整
评分¶
- 新颖性: ⭐⭐⭐⭐ 首个直接融合OSM到RS FM预训练
- 实验充分度: ⭐⭐⭐⭐ 7+4个benchmark,多协议评估
- 写作质量: ⭐⭐⭐⭐ 结构清晰,图精美
- 价值: ⭐⭐⭐⭐ RS FM多模态化新方向,代码开源