Vision-Language Reasoning for Geolocalization: A Reinforcement Learning Approach¶

会议: AAAI 2026
arXiv: 2601.00388
代码: https://github.com/aialt/geo-r
领域: 强化学习
关键词: 图像地理定位, 视觉语言推理, 强化学习, Chain-of-Region, GRPO

一句话总结¶

提出 Geo-R，一个无需检索的推理驱动图像地理定位框架，通过 Chain-of-Region 层次化推理范式和基于 Haversine 距离的坐标对齐奖励的强化学习策略，在 IM2GPS3K 上 1km 准确率达 18.10%，超越所有无检索方法并逼近检索方法。

研究背景与动机¶

图像地理定位的挑战：全球尺度的图像地理定位面临地理区域高多样性、远距离位置视觉相似、以及许多图像缺乏明确地理线索等困难。

现有方法分为两大类：

分类方法：将地球划分为离散区域做分类（PlaNet、CPlaNet），但对未见区域泛化差

检索方法：从带地标的图像数据库中检索相似样本（GeoCLIP、PIGEON），依赖大规模检索数据库

核心问题： - 可解释性不足：两类方法均难以产生结构化的推理解释 - 合成推理的局限：现有 VLM 方法（如 Img2Loc、G3）依赖合成数据构建推理标注，容易产生浅层或不一致的推理 - SFT 对数值误差不敏感：监督微调不会惩罚小的数值误差，难以直接提升坐标精度

关键洞察：RL 可以提供连续且有方向性的优化信号——预测坐标越接近真实值，奖励越高——而这正是 SFT 所缺乏的。

方法详解¶

整体框架¶

Geo-R 是一个无检索、以推理为中心的全球图像地理定位框架，包含三个核心组件：

Chain-of-Region (CoR)：层次化推理范式，引导模型逐层推断地理标签
基于 GRPO 的强化学习：使用复合奖励函数联合优化坐标精度和格式一致性
多样性驱动的数据选择：构建困难样本子集增强泛化能力

训练采用两阶段策略：SFT 阶段 → RL 阶段，基于 Qwen2.5-VL-7B-Instruct 进行训练。

关键设计¶

1. Chain-of-Region (CoR)：层次化地理推理¶

CoR 将图像地理定位重新表述为逐步推理过程，模拟人类地理推理：

推理链路：图像 → 国家 → 省/州 → 城市 → 精确坐标

设计动机： - VLM 擅长结构化推理和层次化决策，直接回归坐标往往无法激发其深层地理认知 - CoR 引导模型基于图像中的可见线索（地标、植被、建筑风格、气候）进行从"看到什么"到"在哪里"的推理转换

数据合成管线：每个推理标签（国家、区域、城市）通过逆解码真实坐标自动生成——利用全球行政边界数据库和地理编码工具将 GPS 坐标反向解析为地名，无需人工标注。合成了 50 万地理多样性推理样本（MP16-Rand-500K）。

2. 基于 GRPO 的强化学习优化¶

采用 Group Relative Policy Optimization (GRPO) 作为训练框架，设计复合奖励函数：

距离奖励 \(r_{distance}\)：基于 Haversine 距离度量预测与真实坐标间的测地线误差。设 \(R = 6371\) km 为地球平均半径，先计算：

\[a = \sin^2\left(\frac{\Delta x}{2}\right) + \cos(x_1) \cdot \cos(x_2) \cdot \sin^2\left(\frac{\Delta y}{2}\right)\]

\[d = R \cdot 2 \cdot \arcsin(\sqrt{a})\]

奖励函数为分段线性设计：

\[r_{distance} = \begin{cases} 1.0 - 0.5 \cdot \frac{d}{750}, & d \leq 750 \\ 0.5 - 0.3 \cdot \frac{d-750}{1750}, & 750 < d \leq 2500 \\ 0.2 - 0.2 \cdot \frac{d-2500}{17500}, & \text{otherwise} \end{cases}\]

设计动机：近距离精确预测给予高奖励，中等误差适度惩罚，大距离误差梯度缓慢衰减，确保即使大误差也有可学习的梯度信号。

格式奖励 \(r_{format}\)：二值奖励，仅当输出包含恰好一个以预期格式（括号内逗号分隔）的有效纬度-经度对时为 1，否则为 0。总奖励为 \(r = r_{distance} \times r_{format}\)。

3. 多样性驱动的困难样本选择¶

问题：GRPO 存在优势消失问题——当同一组内所有响应获得相同奖励时，相对优势趋近于零，梯度更新无效。这在训练后期尤为突出，大量"热门区域"（城市中心、地标）样本因模型已熟知而产生奖励饱和。

解决方案： 1. 先找出 Qwen-VL-3B 能正确定位的 10 万样本，形成"热门区域"聚类 2. 排除所有距这些热门区域 200 公里内的样本 3. 剩余样本（偏远、视觉模糊、文化中性的区域）组成 MP16-Hard-200K 子集

设计动机：长尾困难样本显著增强训练多样性和奖励信号方差，有效缓解优势消失问题。

损失函数 / 训练策略¶

SFT 阶段：50 万样本，AdamW 优化器，学习率 \(1 \times 10^{-5}\)，batch size 64，1 epoch
RL 阶段：20 万样本（MP16-Hard-200K），用 GRPO 进行策略梯度优化
硬件：8 块 NVIDIA A100 GPU

实验关键数据¶

主实验¶

IM2GPS3K 和 YFCC4K 上的主结果：

方法	类型	1km	25km	200km	750km	2500km
Geo-R (本文)	无检索	18.10	41.53	58.31	75.33	86.42
GeoCLIP	无检索	14.11	34.47	50.65	69.67	83.82
GLOBE	无检索	-	40.18	56.19	71.45	-
GeoDecoder	无检索	12.8	33.5	45.9	61.0	76.1
Geo-Ranker	检索	18.79	45.05	61.49	76.31	89.29
G3	检索	16.65	40.94	55.56	71.24	84.68
PIGEON	检索	11.3	36.7	53.8	72.4	85.3

关键结论：Geo-R 在无检索方法中全面领先，且在 1km 精度上接近甚至超越部分检索方法。

消融实验¶

CoR vs CoT vs 基线推理策略（IM2GPS3K）：

模型规模	推理方式	1km	25km	200km	750km	2500km
7B	基线	5.3%	24.3%	42.4%	61.4%	72.9%
7B	CoT	6.3%	26.1%	44.6%	60.6%	71.9%
7B	CoR	7.1%	33.7%	55.5%	73.4%	85.5%
32B	基线	10.2%	29.7%	43.1%	68.4%	73.9%
32B	CoR	12.3%	35.0%	50.7%	66.7%	81.4%

RL 对困难样本特别有效：

SFT 规模	RL 数据	1km	25km	200km	750km	2500km
500k (CoR)	无 RL	12.6%	31.7%	50.2%	70.3%	84.3%
500k (CoR)	Rand 200k	13.3%	32.4%	51.6%	71.3%	82.3%
500k (CoR)	Hard 200k	14.8%	36.3%	54.6%	72.7%	83.8%

关键发现¶

CoR 显著优于 CoT：7B 模型下 25km 准确率提升 7.6 个百分点（33.7% vs 26.1%），表明结构化地理推理比通用推理链更有效
RL 对困难样本效果最佳：Hard 样本 RL 在 1km 精度上从 12.6% 提升至 14.8%，而 SFT 阶段 Rand 样本更稳定
SFT 对数值误差不敏感验证：单纯增加 SFT 数据从 10k 到 500k，1km 精度仅从 7.3% 到 12.6%，但加入 RL 后进一步显著提升
纯推理可匹敌检索：无需任何外部数据库或图像匹配，Geo-R 在多个阈值上接近或超越检索方法

亮点与洞察¶

逆解码数据合成方法精巧：利用真实坐标反向解析地名，天然对齐推理链与坐标，避免合成数据的幻觉问题
GRPO 优势消失问题的发现与解决：识别了热门区域导致的奖励饱和问题，通过地理距离过滤构建困难子集是一个优雅的解决方案
分段线性奖励函数设计细致：三段式设计让模型在不同误差范围内都有有意义的学习信号
从 SFT 到 RL 的自然过渡：SFT 建立推理结构基础，RL 精调坐标精度，两者互补

局限与展望¶

7B 模型的天花板：仅用 Qwen2.5-VL-7B，更大模型可能进一步提升
YFCC4K 上 1km 精度偏低（10.47%），跨域泛化仍有提升空间
奖励函数的阈值选择（750, 2500 km）缺乏理论依据，可能需要自适应设计
未考虑时间线索：某些图像包含季节、光照等时间信息，可进一步利用
计算成本：RL 训练需要 8×A100，成本不低

评分¶

新颖性: ⭐⭐⭐⭐ — CoR + 距离奖励 RL 的组合对地理定位领域有新意，优势消失问题的解决方案值得借鉴
实验充分度: ⭐⭐⭐⭐⭐ — 消融非常全面：推理策略、数据规模、采样策略、RL 影响，四维度消融
写作质量: ⭐⭐⭐⭐ — 动机清晰，方法描述完整
价值: ⭐⭐⭐⭐ — 建立了无检索地理定位的新范式，具有良好的可扩展性