MMLandmarks: a Cross-View Instance-Level Benchmark for Geo-Spatial Understanding¶

会议: CVPR 2026
arXiv: 2512.17492
代码: https://mmlandmarks.compute.dtu.dk (项目主页)
领域: 多模态VLM / 遥感地理空间 / 跨视角检索 / 基准数据集
关键词: 地理空间理解, 跨视角检索, 实例级基准, 多模态对齐, 地理定位

一句话总结¶

MMLandmarks 构建了首个在「地面图 / 航拍图 / 文本 / GPS」四模态间做到逐地标一一对应的大规模实例级地理空间基准（美国 18,557 个地标、32.9 万地面图 + 19.7 万航拍图），并证明现有专用模型和通用基础模型都解不好它，再用一个 CLIP 风格的简单四模态对比学习 baseline（MMCLIP）说明「在这种数据上训练能一套模型横扫多任务」。

研究背景与动机¶

领域现状：地理空间理解长期被拆成互不相通的子任务——跨视角检索（地面↔卫星）、图像地理定位（预测 GPS）、地标检索（精确匹配同一地标）各有各的数据集和专用模型。多模态学习（CLIP、ImageBind、GeoCLIP）虽已进入这个领域，但大多只对齐「图像-文本」或「图像-GPS」这类成对模态。

现有痛点：① 现有遥感/航拍数据集（DOTA、NAIP 类）多为目标检测、分类、地物语义分割这类粗粒度、低分辨率任务，没有实例级标注；② 跨视角检索基准（CVUSA、VIGOR、CVACT 等）严重依赖 Google 街景全景图，只能覆盖道路和城市，图像内容缺乏多样性，导致基准已经饱和（强几何对应让任务变简单）；③ 这些数据集大量受 Google 街景/卫星图的许可限制，无法自由再分发或用于机器学习训练，拖慢研究。

核心矛盾：缺一个细粒度、实例级、跨多模态多视角的数据集——既要规模大、又要每个地标在所有模态上都有对应、还要许可宽松可以自由分享模型和数据。三者很难同时满足，这正是现有数据集在「规模 / 多样性 / 标注粒度」上各有短板的根因。

本文目标：拆成三个子问题——(1) 怎么可信地把同一地标的四种模态绑在一起；(2) 怎么构造一个有挑战性、不会因模态相关性而虚高的评测协议；(3) 用什么基线证明这种多模态数据真能带来「一套模型多任务通用」。

切入角度：作者放弃「街景全景 + 卫星图采样」的老路，改用 landmark-centric（以地标为中心） 的采集——以 OpenStreetMap 的带 Wiki 标签的多边形为锚点，借 Wikimedia Commons（地面图）、Wikipedia（文本）、NAIP（高分航拍）三个许可宽松的公开源把四模态绑到同一个 Wiki 实体（Q-id）上。这样既绕开 Google 的许可枷锁，又天然引入真实世界的视角/光照/室内外多样性。

核心 idea：用「Wiki 实体 ID 作为锚点 + 四个开放数据源 + 一一对应约束」造一个四模态地理空间基准，再用「全模态两两 InfoNCE 对比」的简单 baseline 把所有任务统一成同一嵌入空间里的最近邻检索。

方法详解¶

这是一篇基准（benchmark）论文，核心贡献是数据集构建管线 + 评测协议 + 一个统一基线，而不是某个复杂网络结构。下面先讲数据怎么从「全美 OSM 多边形」一路过滤到「四模态对齐的 18,557 个地标」，再讲评测怎么设计得有挑战性、baseline 怎么把四模态拉进同一空间。

整体框架¶

输入是公开的 OpenStreetMap 多边形元信息，输出是一个四模态一一对应的基准（训练集 + 索引集 + 查询集）外加一个统一基线 MMCLIP。整条管线分三段：① 地标采集与过滤（用 Wiki 标签锚定实体、用包围盒尺寸做均衡过滤）→ ② 三集划分与去重（构造大规模困难索引集、严格去重防泄漏）→ ③ 四模态统一基线（每模态独立编码器 + 全模态两两对比损失，推理时做最近邻检索）。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["全美 OSM 多边形<br/>(带 wiki/wikidata 标签)"] --> B["地标采集与过滤<br/>Q-id 锚定四模态 + 包围盒<400m"]
    B --> C["四模态一一对应<br/>18,557 地标"]
    C --> D["三集划分与去重<br/>训练 / 714k 地面+100k 航拍索引 / 1000 查询"]
    C --> E["室内外清洗<br/>VLM 标注, 保留 83% 户外"]
    D --> F["统一基线 MMCLIP<br/>四模态编码器 + 两两 InfoNCE"]
    E --> F
    F --> G["最近邻检索<br/>跨视角/地理定位/Text→X 多任务"]

关键设计¶

1. 以 Wiki 实体为锚点的四模态对齐采集：解决「同一地标如何可信绑定四模态」

老办法（CVUSA/VIGOR）用 Google Maps 同一坐标采「卫星图 + 街景全景」，对自然地标行不通——地标照片往往是远距离拍的，按坐标取航拍很可能取到一片没有地标的区域。作者改用 Wiki 实体作锚：先收集全美所有带 wikipedia ∪ wikidata 标签的 OSM 多边形，从中取出形如 Q123456 的 Wiki-identifier（它把一个实体的所有 Wiki 信息链到一起），再要求该实体同时有 Wikipedia 页面（提供文本）和 Wikimedia Commons 页面（提供地面图）。地面图来自 Wikimedia Commons（多为 Wiki Loves Monuments 活动投稿，CC/公有领域许可，最长边压到 800px），航拍图来自 NAIP（1–2 米分辨率、公有领域、经 Google Earth Engine 取 \(800\times800\)），GPS 取地标包围盒中心，文本取 Wikipedia 正文（剔除 References/See also 等段落）。这样四模态都挂在同一个 Q-id 上，一一对应且全程许可宽松——这是它能成为「首个四模态完全对应、可自由分享」数据集的根本原因

2. 包围盒尺寸过滤 + 真实世界多样性：让基准既均衡又难

为避免数据集里地标尺度悬殊（从一座桥到一整个园区），作者做了一条启发式过滤：只保留包围盒最长边 < 400 米的地标，保证航拍图里地标占比分布均匀。同时这种采集方式天然保留了几个让任务变难的真实属性：地面图来自众包，含强烈的类内方差（光照、角度、室内外、甚至素描/扫描件都有）；NAIP 提供同一地点多个时间戳的航拍（有时跨十年），既是天然数据增广，也支持时序变化检测研究；地标分布长尾且地理偏斜（加州、东北部大城市扎堆）。这正好补上现有跨视角基准「几何对应太强、内容多样性太低导致饱和」的缺口——MMLandmarks 用大域差（地面↔航拍视角剧变）+ 大类内方差把任务重新做难

3. 防泄漏的三集划分与困难索引集：让评测数字不虚高

检索任务最怕索引集和训练集重叠导致虚高。作者构造了地面和航拍两个大索引集并严格去重：地面索引取自 GLDv2 的 76.2 万图，按国家过滤出 17,804 个美国地标后，移除其中与 MMLandmarks 重叠的 5,277 个地标，得到 71.45 万张地面图的画廊；航拍索引则从训练集随机采点、给 GPS 加噪到 10 万个新位置，并强制新坐标与训练集/其他索引坐标相距 >500 米（避免在别的图里又看到同一地标），再取最新 NAIP 图。查询集随机采 1000 个地标——这里有个细节：地面图类内方差大、本就难，所以所有地面图都当查询（18,688 张）；但同一地标的航拍图高度相关、会虚高性能，所以只用最新一张航拍当查询（1000 张）。此外用 VLM（LLaVA-1.5-7B）把众包地面图标成室内/室外，做了个只含户外图的子集（占原始地面图 83%，抽检 1000 张仅 8.2% 误标），因为室内图不利于学地理空间对齐表示

4. 全模态两两对比的统一基线 MMCLIP：证明「多模态数据 → 一套模型通吃多任务」

为了说明数据的价值，作者训了个刻意简单的 baseline：每个模态一个冻结编码器（地面/航拍图共用冻结 CLIP 图像编码器、文本用对应冻结 CLIP 文本编码器、GPS 用 GeoCLIP 式可训练位置编码器），每个编码器后接一个两层线性 + ReLU 的投影头把各模态投到统一维度（512）。损失把 InfoNCE 扩展到 \(K=4\) 个模态的所有两两组合：

\[\mathcal{L}=\frac{1}{K(K-1)}\sum_{i=1}^{K}\sum_{\substack{j=1\\ j\neq i}}^{K}\mathcal{L}_{i,j}\]

其中 \(\mathcal{L}_{i,j}\) 是模态 \(i\) 与 \(j\) 的对比损失，温度固定 0.07。推理时所有任务统一为「在学到的联合空间里做 \(k\) 近邻检索」。它的意义不在于刷 SOTA（作者明确说不主张优于任何模型），而在于用同一套权重同时解跨视角检索、地理定位、Text→X 检索——这是现有专用模型做不到的

实验关键数据¶

主实验：跨视角检索（Table 2）¶

现有专用跨视角模型和通用基础模型在 MMLandmarks 上零样本表现都很差，MMCLIP 大幅领先（medR 越低越好，mAP/R@K 越高越好）：

模型	类型	Sat→Ground medR↓	Sat→Ground mAP@1k↑	Ground→Sat medR↓	Ground→Sat mAP@1k↑
Sample4Geo-UNI	专用跨视角	34988	3.0	40056	1.1
TransGeo-90°	专用跨视角	40973	0.7	13425	0.9
SigLIP2 (ViT-L/512)	通用基础模型	682	8.6	140	18.7
OAI-CLIP (ViT-L/336)	通用基础模型	519	10.4	620	15.2
MMCLIP	本文 baseline	23	18.8	48	26.2

专用跨视角模型（在 CVUSA/VIGOR 等老基准上训练）几乎全军覆没，medR 高达三四万，印证了「旧跨视角数据集多样性不足」的判断；通用大模型靠规模和分辨率能稍微好一点，但仍远未饱和基准。

地理定位（Table 3 / Table 4）¶

报告各距离阈值下落在该范围内的预测百分比（越高越好）：

任务	方法	Street(1km)	City(25km)	Region(200km)	Country(750km)	Continent(2500km)
Ground→GPS	GeoCLIP	21.37	36.44	48.57	71.45	91.50
Ground→GPS	MMCLIP	16.83	35.95	51.78	74.94	91.52
Sat→GPS	GeoCLIP	12.3	31.3	48.8	81.3	97.4
Sat→GPS	MMCLIP	36.9	61.5	81.1	95.5	99.7

Ground→GPS 上 MMCLIP 用远少于 GeoCLIP/G3 的训练图就打成可比（GeoCLIP 街级略好，但其数据可能与 MP16 重叠导致虚高）；Satellite→GPS 上 MMCLIP 全面碾压——SatCLIP 因 Sen-2 与 NAIP 的大域差几乎失效，而 MMCLIP 在每个阈值都大幅领先。

Text-to-Any 检索（Table 5）¶

为防 Wikipedia 首句的地名线索虚高，作者用 GPT-3.5 去掉地点线索并人工校正：

任务	方法	medR↓	mAP@1k↑	R@1↑
Text→Satellite	OAI-CLIP (ViT-L/336)	1037	14.5	11.1
Text→Satellite	MMCLIP	388	17.3	13.4

消融实验（Table 6）¶

配置	mAP@1k S→G	mAP@1k G→S	G/S→GPS(1km)	说明
all⇔all, G,S 仅图	17.59	25.59	—	只用两图模态
all⇔all, G,S,T,C, 首句, 随机航拍	17.39	25.05	15.63 / 27.7	加全模态
MMCLIP (G,S,T,C, 随机句, 最新航拍, 户外子集)	18.79	26.20	16.83 / 36.9	最终基线（灰行）
G⇔all (ImageBind 式), 最新航拍, 户外子集	18.89	27.46	15.68 / 18.3	仅以地面为锚对齐

关键发现¶

「最新航拍 + 户外子集」是涨点主力：把航拍采样从随机改成「取最新一张」、并只用户外地面图训练，几乎在所有任务上显著提升，尤其把 Sat→GPS(1km) 从 ~27 拉到 36.9。
模态越多反而检索略降：加入更多模态会轻微拉低纯检索 mAP，但带来一套模型多任务的通用性——这是「通用 vs 专精」的权衡。
全模态对比 vs ImageBind 式锚定：ImageBind 风格（只以地面为锚 G⇔all）在纯检索上略好，但全模态两两对比（all⇔all）在地理定位尤其 Sat→GPS 上明显更强，因为后者让 GPS 与每个模态都直接对齐而非间接对齐。
基准远未饱和：即使最好的 MMCLIP，跨视角 R@1 也只有 20–30 区间，留足了提升空间。

亮点与洞察¶

用 Wiki 实体 ID 当「跨模态胶水」：以 Q-id 锚定 OSM 多边形 → Wikipedia → Wikimedia Commons → NAIP，把四个异构开放源天然绑成一一对应——这个思路可迁移到任何「需要把多源数据按同一实体对齐」的数据集构建（如商品、生物物种、建筑）。
「查询集非对称采样」防虚高：地面图全用、航拍图只用最新一张，是因为同模态相关性会让评测虚高——这种「按模态内方差差异化设计查询」的协议很值得借鉴。
许可宽松是一等公民：作者把「可自由再分发、可训练、可分享模型」当成核心设计目标而非事后补丁，直接绕开 Google 街景/卫星的许可枷锁，这是数据集能长期被社区复用的关键。
最让人「啊哈」的点：专用跨视角模型在新基准上 medR 高达三四万（基本等于乱猜），把「旧跨视角基准饱和=任务被解决」的错觉戳破——饱和只是因为旧数据太容易。

局限与展望¶

仅限美国（作者承认）：受制于 NAIP 是目前唯一足够多样的开放高分航拍源，数据集只覆盖美国，地理偏斜严重（加州/东北部扎堆），跨大洲泛化未验证。
baseline 刻意简单：编码器全冻结、只加投影头，作者明说不追求 SOTA；因此「数据潜力」更多是下限演示，真正的上限需要更强的可训练架构来探。
文本模态信息偏弱：Text→X 性能明显低于图像查询，因为去掉地名后 Wikipedia 句子语义线索稀薄；如何更好利用长文本是开放问题。
潜在数据泄漏 caveat：因聚焦知名地标，部分查询/索引地面图可能也出现在 MP16 里，会抬高 GeoCLIP/G3 等模型的可比数字——横向比较街级定位时需谨慎。
改进思路：解冻/微调编码器、引入时序航拍做变化检测任务、把同样的 Wiki-anchor 管线推广到其他有 NAIP 类开放航拍的国家以打破美国限制。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首个四模态完全一一对应、许可宽松的大陆级实例级地理空间基准，Wiki-anchor 采集思路巧妙
实验充分度: ⭐⭐⭐⭐ 覆盖跨视角/地理定位/Text→X 多任务、对比大量专用与通用模型、消融到位；但 baseline 刻意简单、仅美国
写作质量: ⭐⭐⭐⭐ 动机清晰、协议设计（防泄漏/防虚高）讲得透；表格密集需细读
价值: ⭐⭐⭐⭐⭐ 戳破旧跨视角基准饱和假象、给多模态地理空间研究提供可自由分享的统一试金石