MMLandmarks: a Cross-View Instance-Level Benchmark for Geo-Spatial Understanding¶
会议: CVPR 2026
arXiv: 2512.17492
代码: https://mmlandmarks.compute.dtu.dk (项目主页)
领域: 多模态VLM / 遥感地理空间 / 跨视角检索 / 基准数据集
关键词: 地理空间理解, 跨视角检索, 实例级基准, 多模态对齐, 地理定位
一句话总结¶
MMLandmarks 构建了首个在「地面图 / 航拍图 / 文本 / GPS」四模态间做到逐地标一一对应的大规模实例级地理空间基准(美国 18,557 个地标、32.9 万地面图 + 19.7 万航拍图),并证明现有专用模型和通用基础模型都解不好它,再用一个 CLIP 风格的简单四模态对比学习 baseline(MMCLIP)说明「在这种数据上训练能一套模型横扫多任务」。
研究背景与动机¶
领域现状:地理空间理解长期被拆成互不相通的子任务——跨视角检索(地面↔卫星)、图像地理定位(预测 GPS)、地标检索(精确匹配同一地标)各有各的数据集和专用模型。多模态学习(CLIP、ImageBind、GeoCLIP)虽已进入这个领域,但大多只对齐「图像-文本」或「图像-GPS」这类成对模态。
现有痛点:① 现有遥感/航拍数据集(DOTA、NAIP 类)多为目标检测、分类、地物语义分割这类粗粒度、低分辨率任务,没有实例级标注;② 跨视角检索基准(CVUSA、VIGOR、CVACT 等)严重依赖 Google 街景全景图,只能覆盖道路和城市,图像内容缺乏多样性,导致基准已经饱和(强几何对应让任务变简单);③ 这些数据集大量受 Google 街景/卫星图的许可限制,无法自由再分发或用于机器学习训练,拖慢研究。
核心矛盾:缺一个细粒度、实例级、跨多模态多视角的数据集——既要规模大、又要每个地标在所有模态上都有对应、还要许可宽松可以自由分享模型和数据。三者很难同时满足,这正是现有数据集在「规模 / 多样性 / 标注粒度」上各有短板的根因。
本文目标:拆成三个子问题——(1) 怎么可信地把同一地标的四种模态绑在一起;(2) 怎么构造一个有挑战性、不会因模态相关性而虚高的评测协议;(3) 用什么基线证明这种多模态数据真能带来「一套模型多任务通用」。
切入角度:作者放弃「街景全景 + 卫星图采样」的老路,改用 landmark-centric(以地标为中心) 的采集——以 OpenStreetMap 的带 Wiki 标签的多边形为锚点,借 Wikimedia Commons(地面图)、Wikipedia(文本)、NAIP(高分航拍)三个许可宽松的公开源把四模态绑到同一个 Wiki 实体(Q-id)上。这样既绕开 Google 的许可枷锁,又天然引入真实世界的视角/光照/室内外多样性。
核心 idea:用「Wiki 实体 ID 作为锚点 + 四个开放数据源 + 一一对应约束」造一个四模态地理空间基准,再用「全模态两两 InfoNCE 对比」的简单 baseline 把所有任务统一成同一嵌入空间里的最近邻检索。
方法详解¶
这是一篇基准(benchmark)论文,核心贡献是数据集构建管线 + 评测协议 + 一个统一基线,而不是某个复杂网络结构。下面先讲数据怎么从「全美 OSM 多边形」一路过滤到「四模态对齐的 18,557 个地标」,再讲评测怎么设计得有挑战性、baseline 怎么把四模态拉进同一空间。
整体框架¶
输入是公开的 OpenStreetMap 多边形元信息,输出是一个四模态一一对应的基准(训练集 + 索引集 + 查询集)外加一个统一基线 MMCLIP。整条管线分三段:① 地标采集与过滤(用 Wiki 标签锚定实体、用包围盒尺寸做均衡过滤)→ ② 三集划分与去重(构造大规模困难索引集、严格去重防泄漏)→ ③ 四模态统一基线(每模态独立编码器 + 全模态两两对比损失,推理时做最近邻检索)。
%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
A["全美 OSM 多边形<br/>(带 wiki/wikidata 标签)"] --> B["地标采集与过滤<br/>Q-id 锚定四模态 + 包围盒<400m"]
B --> C["四模态一一对应<br/>18,557 地标"]
C --> D["三集划分与去重<br/>训练 / 714k 地面+100k 航拍索引 / 1000 查询"]
C --> E["室内外清洗<br/>VLM 标注, 保留 83% 户外"]
D --> F["统一基线 MMCLIP<br/>四模态编码器 + 两两 InfoNCE"]
E --> F
F --> G["最近邻检索<br/>跨视角/地理定位/Text→X 多任务"]
关键设计¶
1. 以 Wiki 实体为锚点的四模态对齐采集:解决「同一地标如何可信绑定四模态」
老办法(CVUSA/VIGOR)用 Google Maps 同一坐标采「卫星图 + 街景全景」,对自然地标行不通——地标照片往往是远距离拍的,按坐标取航拍很可能取到一片没有地标的区域。作者改用 Wiki 实体作锚:先收集全美所有带 wikipedia ∪ wikidata 标签的 OSM 多边形,从中取出形如 Q123456 的 Wiki-identifier(它把一个实体的所有 Wiki 信息链到一起),再要求该实体同时有 Wikipedia 页面(提供文本)和 Wikimedia Commons 页面(提供地面图)。地面图来自 Wikimedia Commons(多为 Wiki Loves Monuments 活动投稿,CC/公有领域许可,最长边压到 800px),航拍图来自 NAIP(1–2 米分辨率、公有领域、经 Google Earth Engine 取 \(800\times800\)),GPS 取地标包围盒中心,文本取 Wikipedia 正文(剔除 References/See also 等段落)。这样四模态都挂在同一个 Q-id 上,一一对应且全程许可宽松——这是它能成为「首个四模态完全对应、可自由分享」数据集的根本原因
2. 包围盒尺寸过滤 + 真实世界多样性:让基准既均衡又难
为避免数据集里地标尺度悬殊(从一座桥到一整个园区),作者做了一条启发式过滤:只保留包围盒最长边 < 400 米的地标,保证航拍图里地标占比分布均匀。同时这种采集方式天然保留了几个让任务变难的真实属性:地面图来自众包,含强烈的类内方差(光照、角度、室内外、甚至素描/扫描件都有);NAIP 提供同一地点多个时间戳的航拍(有时跨十年),既是天然数据增广,也支持时序变化检测研究;地标分布长尾且地理偏斜(加州、东北部大城市扎堆)。这正好补上现有跨视角基准「几何对应太强、内容多样性太低导致饱和」的缺口——MMLandmarks 用大域差(地面↔航拍视角剧变)+ 大类内方差把任务重新做难
3. 防泄漏的三集划分与困难索引集:让评测数字不虚高
检索任务最怕索引集和训练集重叠导致虚高。作者构造了地面和航拍两个大索引集并严格去重:地面索引取自 GLDv2 的 76.2 万图,按国家过滤出 17,804 个美国地标后,移除其中与 MMLandmarks 重叠的 5,277 个地标,得到 71.45 万张地面图的画廊;航拍索引则从训练集随机采点、给 GPS 加噪到 10 万个新位置,并强制新坐标与训练集/其他索引坐标相距 >500 米(避免在别的图里又看到同一地标),再取最新 NAIP 图。查询集随机采 1000 个地标——这里有个细节:地面图类内方差大、本就难,所以所有地面图都当查询(18,688 张);但同一地标的航拍图高度相关、会虚高性能,所以只用最新一张航拍当查询(1000 张)。此外用 VLM(LLaVA-1.5-7B)把众包地面图标成室内/室外,做了个只含户外图的子集(占原始地面图 83%,抽检 1000 张仅 8.2% 误标),因为室内图不利于学地理空间对齐表示
4. 全模态两两对比的统一基线 MMCLIP:证明「多模态数据 → 一套模型通吃多任务」
为了说明数据的价值,作者训了个刻意简单的 baseline:每个模态一个冻结编码器(地面/航拍图共用冻结 CLIP 图像编码器、文本用对应冻结 CLIP 文本编码器、GPS 用 GeoCLIP 式可训练位置编码器),每个编码器后接一个两层线性 + ReLU 的投影头把各模态投到统一维度(512)。损失把 InfoNCE 扩展到 \(K=4\) 个模态的所有两两组合:
其中 \(\mathcal{L}_{i,j}\) 是模态 \(i\) 与 \(j\) 的对比损失,温度固定 0.07。推理时所有任务统一为「在学到的联合空间里做 \(k\) 近邻检索」。它的意义不在于刷 SOTA(作者明确说不主张优于任何模型),而在于用同一套权重同时解跨视角检索、地理定位、Text→X 检索——这是现有专用模型做不到的
实验关键数据¶
主实验:跨视角检索(Table 2)¶
现有专用跨视角模型和通用基础模型在 MMLandmarks 上零样本表现都很差,MMCLIP 大幅领先(medR 越低越好,mAP/R@K 越高越好):
| 模型 | 类型 | Sat→Ground medR↓ | Sat→Ground mAP@1k↑ | Ground→Sat medR↓ | Ground→Sat mAP@1k↑ |
|---|---|---|---|---|---|
| Sample4Geo-UNI | 专用跨视角 | 34988 | 3.0 | 40056 | 1.1 |
| TransGeo-90° | 专用跨视角 | 40973 | 0.7 | 13425 | 0.9 |
| SigLIP2 (ViT-L/512) | 通用基础模型 | 682 | 8.6 | 140 | 18.7 |
| OAI-CLIP (ViT-L/336) | 通用基础模型 | 519 | 10.4 | 620 | 15.2 |
| MMCLIP | 本文 baseline | 23 | 18.8 | 48 | 26.2 |
专用跨视角模型(在 CVUSA/VIGOR 等老基准上训练)几乎全军覆没,medR 高达三四万,印证了「旧跨视角数据集多样性不足」的判断;通用大模型靠规模和分辨率能稍微好一点,但仍远未饱和基准。
地理定位(Table 3 / Table 4)¶
报告各距离阈值下落在该范围内的预测百分比(越高越好):
| 任务 | 方法 | Street(1km) | City(25km) | Region(200km) | Country(750km) | Continent(2500km) |
|---|---|---|---|---|---|---|
| Ground→GPS | GeoCLIP | 21.37 | 36.44 | 48.57 | 71.45 | 91.50 |
| Ground→GPS | MMCLIP | 16.83 | 35.95 | 51.78 | 74.94 | 91.52 |
| Sat→GPS | GeoCLIP | 12.3 | 31.3 | 48.8 | 81.3 | 97.4 |
| Sat→GPS | MMCLIP | 36.9 | 61.5 | 81.1 | 95.5 | 99.7 |
Ground→GPS 上 MMCLIP 用远少于 GeoCLIP/G3 的训练图就打成可比(GeoCLIP 街级略好,但其数据可能与 MP16 重叠导致虚高);Satellite→GPS 上 MMCLIP 全面碾压——SatCLIP 因 Sen-2 与 NAIP 的大域差几乎失效,而 MMCLIP 在每个阈值都大幅领先。
Text-to-Any 检索(Table 5)¶
为防 Wikipedia 首句的地名线索虚高,作者用 GPT-3.5 去掉地点线索并人工校正:
| 任务 | 方法 | medR↓ | mAP@1k↑ | R@1↑ |
|---|---|---|---|---|
| Text→Satellite | OAI-CLIP (ViT-L/336) | 1037 | 14.5 | 11.1 |
| Text→Satellite | MMCLIP | 388 | 17.3 | 13.4 |
消融实验(Table 6)¶
| 配置 | mAP@1k S→G | mAP@1k G→S | G/S→GPS(1km) | 说明 |
|---|---|---|---|---|
| all⇔all, G,S 仅图 | 17.59 | 25.59 | — | 只用两图模态 |
| all⇔all, G,S,T,C, 首句, 随机航拍 | 17.39 | 25.05 | 15.63 / 27.7 | 加全模态 |
| MMCLIP (G,S,T,C, 随机句, 最新航拍, 户外子集) | 18.79 | 26.20 | 16.83 / 36.9 | 最终基线(灰行) |
| G⇔all (ImageBind 式), 最新航拍, 户外子集 | 18.89 | 27.46 | 15.68 / 18.3 | 仅以地面为锚对齐 |
关键发现¶
- 「最新航拍 + 户外子集」是涨点主力:把航拍采样从随机改成「取最新一张」、并只用户外地面图训练,几乎在所有任务上显著提升,尤其把 Sat→GPS(1km) 从 ~27 拉到 36.9。
- 模态越多反而检索略降:加入更多模态会轻微拉低纯检索 mAP,但带来一套模型多任务的通用性——这是「通用 vs 专精」的权衡。
- 全模态对比 vs ImageBind 式锚定:ImageBind 风格(只以地面为锚 G⇔all)在纯检索上略好,但全模态两两对比(all⇔all)在地理定位尤其 Sat→GPS 上明显更强,因为后者让 GPS 与每个模态都直接对齐而非间接对齐。
- 基准远未饱和:即使最好的 MMCLIP,跨视角 R@1 也只有 20–30 区间,留足了提升空间。
亮点与洞察¶
- 用 Wiki 实体 ID 当「跨模态胶水」:以
Q-id锚定 OSM 多边形 → Wikipedia → Wikimedia Commons → NAIP,把四个异构开放源天然绑成一一对应——这个思路可迁移到任何「需要把多源数据按同一实体对齐」的数据集构建(如商品、生物物种、建筑)。 - 「查询集非对称采样」防虚高:地面图全用、航拍图只用最新一张,是因为同模态相关性会让评测虚高——这种「按模态内方差差异化设计查询」的协议很值得借鉴。
- 许可宽松是一等公民:作者把「可自由再分发、可训练、可分享模型」当成核心设计目标而非事后补丁,直接绕开 Google 街景/卫星的许可枷锁,这是数据集能长期被社区复用的关键。
- 最让人「啊哈」的点:专用跨视角模型在新基准上 medR 高达三四万(基本等于乱猜),把「旧跨视角基准饱和=任务被解决」的错觉戳破——饱和只是因为旧数据太容易。
局限与展望¶
- 仅限美国(作者承认):受制于 NAIP 是目前唯一足够多样的开放高分航拍源,数据集只覆盖美国,地理偏斜严重(加州/东北部扎堆),跨大洲泛化未验证。
- baseline 刻意简单:编码器全冻结、只加投影头,作者明说不追求 SOTA;因此「数据潜力」更多是下限演示,真正的上限需要更强的可训练架构来探。
- 文本模态信息偏弱:Text→X 性能明显低于图像查询,因为去掉地名后 Wikipedia 句子语义线索稀薄;如何更好利用长文本是开放问题。
- 潜在数据泄漏 caveat:因聚焦知名地标,部分查询/索引地面图可能也出现在 MP16 里,会抬高 GeoCLIP/G3 等模型的可比数字——横向比较街级定位时需谨慎。
- 改进思路:解冻/微调编码器、引入时序航拍做变化检测任务、把同样的 Wiki-anchor 管线推广到其他有 NAIP 类开放航拍的国家以打破美国限制。
相关工作与启发¶
- vs 跨视角检索基准(CVUSA / VIGOR / CVACT / CV-Cities):它们用 Google 街景全景 + 卫星图,只覆盖道路/城市、内容多样性低、许可受限、基准已饱和;MMLandmarks 改用地标中心采集,带来大类内方差和大域差、许可宽松,且首次加入文本和 GPS 凑齐四模态一一对应。
- vs 地理定位模型(GeoCLIP / G3 / StreetCLIP / SatCLIP):它们专精「图→GPS」单任务;MMLandmarks 用同一套数据支持多任务,MMCLIP 在 Sat→GPS 上大幅超过 SatCLIP/GeoCLIP(高分 NAIP 域 vs 低分 Sen-2 域的差距是关键)。
- vs 多模态对齐方法(CLIP / ImageBind / LanguageBind):它们多依赖网络爬取的图文对,缺乏多模态一一对应监督;MMLandmarks 提供密集的实例级全模态组合监督,MMCLIP 把 InfoNCE 扩到四模态两两对齐,消融显示全模态对比在地理定位上优于 ImageBind 式单锚对齐。
- vs 地标检索(GLDv2):本文复用 GLDv2 作地面索引集并去重,但把任务从「全球地面图精确匹配」扩展到「跨视角 + 跨模态」,且强调实例级与跨视角域差。
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 首个四模态完全一一对应、许可宽松的大陆级实例级地理空间基准,Wiki-anchor 采集思路巧妙
- 实验充分度: ⭐⭐⭐⭐ 覆盖跨视角/地理定位/Text→X 多任务、对比大量专用与通用模型、消融到位;但 baseline 刻意简单、仅美国
- 写作质量: ⭐⭐⭐⭐ 动机清晰、协议设计(防泄漏/防虚高)讲得透;表格密集需细读
- 价值: ⭐⭐⭐⭐⭐ 戳破旧跨视角基准饱和假象、给多模态地理空间研究提供可自由分享的统一试金石