ReasonMap: Towards Fine-Grained Visual Reasoning from Transit Maps¶

会议: CVPR 2026
arXiv: 2505.18675
代码: 项目主页
领域: 多模态VLM
关键词: 视觉推理, 地铁地图, MLLM评测, 空间推理, 强化微调

一句话总结¶

提出 ReasonMap 基准，利用 30 个城市的高分辨率地铁线路图构建 1,008 个问答对，系统评估 16 个 MLLM 的细粒度视觉理解和空间推理能力，揭示了开源模型中 base 变体反超推理变体的反直觉现象，并建立了 GRPO 强化微调的训练基线。

研究背景与动机¶

现有 MLLM 推理基准存在明显盲区： - 数学/逻辑类（MathVQA, MMMU, MathVerse）：视觉理解在其中作用有限 - 细粒度视觉类（VBench, VisualPuzzles）：需要详细感知但几乎不涉及空间规划推理 - 空间推理类*（CityBench, MapBench）：粒度较粗，且多依赖外部工具（地图 API）绕过真正的视觉推理

核心问题：要求模型同时具备细粒度视觉理解（识别站名、线路颜色/编号）和空间推理（规划换乘路径）的基准仍然缺失。

地铁线路图是理想的测试载体——信息密集、结构化、需要精确的空间解读能力，且与实际应用（导航、城市规划）密切相关。

方法详解¶

整体框架¶

ReasonMap 构建流程分三阶段： 1. 数据收集与预处理：收集 30 个城市（13 个国家）的高分辨率地铁图，同时用 MLLM + 人工校正提取线路/站点信息→标准化 JSON（Metro Data） 2. 问答对构建：从地图上随机选两站，生成短问题（固定模板）和长问题（两种模板），通过 Google Map/高德地图 API 收集参考路线 3. 质量控制：正确性验证、多样性保证、难度平衡（地图难度 easy/medium/hard 各 10 张，问题难度按换乘次数分级）

关键设计¶

两层评估框架：
- 正确性评估（Accuracy）：验证答案中出发/到达站、线路名称、途经站的一致性——必须所有检查项全部通过才算正确
- 质量评估（Map Score）：即使答案不完全正确，仍评估路线质量——匹配站名得 1 分、匹配线路名得 2 分、途经站计数对比或集合 IoU，满分按问题类型上限封顶。正确答案获得额外加分，确保正确答案得分始终高于错误答案
难度感知加权：评估指标引入难度加权，更高难度的样本分配更大权重，避免模型仅靠解决简单题获得虚高分数
GRPO 强化微调训练基线：基于 Qwen2.5-VL-3B/7B-Instruct，设计准确率奖励（正确性评估的二值信号）和格式奖励（鼓励可解析输出），在跨城市设置下验证泛化能力

损失函数 / 训练策略¶

GRPO 优化：AdamW，初始学习率 \(1.0 \times 10^{-6}\)，KL 散度系数 \(1.0 \times 10^{-3}\)
每次查询采样 8 个响应，全局 batch size 16
训练集与测试集城市完全不重叠（跨城市泛化验证）

实验关键数据¶

主实验¶

16 个 MLLM 在 ReasonMap 上的表现（加权准确率）：

模型	类型	短问题 Acc	长问题 Acc	Map Score (S/L)
OpenAI o3	闭源推理	63.02%	59.11%	9.53/17.96
Gemini-2.5-Flash	闭源推理	46.09%	29.86%	7.64/9.98
Doubao-415	闭源推理	43.14%	46.09%	7.33/14.67
OpenAI 4o	闭源基础	41.15%	42.80%	6.84/13.57
Qwen2.5-VL-72B	开源基础	26.65%	24.22%	5.09/8.80
InternVL3-78B	开源基础	25.35%	19.62%	4.80/7.50
QvQ-72B-Preview	开源推理	9.03%	4.25%	1.59/1.55
Skywork-R1V	开源推理	6.86%	3.21%	2.11/3.11

消融实验¶

GRPO 强化微调效果（跨城市泛化）：

模型	短问题 Acc	长问题 Acc	Map Score (S/L)
Qwen2.5-VL-3B	8.68%	7.99%	2.75/3.70
+RL	11.46%(↑2.78)	10.50%(↑2.51)	3.81/6.09
Qwen2.5-VL-7B	13.28%	7.12%	4.01/5.74
+RL	26.22%(↑12.94)	26.04%(↑18.92)	5.52/9.52

视觉遮蔽实验（仅文本输入）： - 大多数模型性能显著下降（Qwen2.5-VL-72B: 26.65%→16.41%，Doubao-415: 43.14%→21.53%） - 小模型（Qwen2.5-VL-3B）反而略有提升（8.68%→9.38%），暗示其更依赖先验知识而非真正的视觉推理

关键发现¶

反直觉现象：开源模型中 base 变体一致性地优于推理变体（如 Qwen2.5-VL-72B 26.65% vs QvQ-72B 9.03%），但闭源模型中推理变体更优（o3 63.02% vs 4o 41.15%）
原因分析：开源推理模型在反复自检时容易引入"视觉混淆"——初始识别正确路线后在自反思中覆盖为错误答案；闭源推理模型具有更强的视觉锚定能力，能在推理链中自我纠正
模型规模定律仍然成立：同系列更大模型以更少 token 获得更高准确率
7B 模型强化微调后差距最大（+18.92%），且 token 使用量下降

亮点与洞察¶

揭示 MLLM 盲区：首次系统证明当前 MLLM 在需要真正视觉锚定的空间推理任务上的严重不足
base vs reasoning 反转现象为理解 RL 微调对视觉推理的影响提供重要线索
评估框架设计精细：分离正确性与质量的两层评估，加上难度加权，比简单对比答案更有信息量
高分辨率挑战：平均 5839×5449 的地图分辨率远超一般 VQA 基准，测试模型处理信息密集视觉输入的能力

局限与展望¶

数据规模相对有限（1,008 QA 对 / 30 城市），扩展至更多城市和交通模式可增强泛化评估
仅评估地铁/轻轨，不涉及公交、步行等多模态交通
部分城市的站名语言可能影响模型 OCR 性能，但未深入定量分析
最强闭源模型（o3）准确率也仅 63%，说明任务难度高但也可能意味着数据中存在歧义
强化微调仅在 3B/7B 模型上验证，更大模型的收益未知

评分¶

新颖性: ⭐⭐⭐⭐ — 地铁图作为视觉推理测试床饶有新意，评估框架设计巧妙，但基准构建方法论并非全新
实验充分度: ⭐⭐⭐⭐⭐ — 16 个模型系统评估 + 视觉遮蔽对照 + RL 训练基线 + 详细错误分析
写作质量: ⭐⭐⭐⭐ — 结构完整，发现阐述清楚，表格信息丰富
价值: ⭐⭐⭐⭐ — 揭示了 MLLM 在细粒度视觉推理上的关键短板，为社区提供了有价值的评估工具