CVPR2026 VLM Reasoning 多模态推理视觉推理空间推理地铁地图 benchmark 强化微调 GRPO

ReasonMap: Towards Fine-Grained Visual Reasoning from Transit Maps¶

会议: CVPR2026
arXiv: 2505.18675
代码: fscdc/ReasonMap
领域: 多模态VLM
关键词: 多模态推理, 视觉推理, 空间推理, 地铁地图, benchmark, 强化微调, GRPO

一句话总结¶

提出 ReasonMap 基准，利用 30 个城市的高分辨率公交地图构建 1,008 个 QA 对，通过两级评估框架（正确性+质量）系统评估 16 个 MLLM 的细粒度视觉推理能力，发现开源模型中 base 优于 reasoning 而闭源模型相反。

研究背景与动机¶

MLLM 视觉推理评估不足：现有多模态推理基准（MathVQA、MMMU、MathVerse）主要评估符号/数学推理，视觉理解的作用有限，缺乏对细粒度视觉理解与空间推理的联合评估。

现有基准粒度偏粗：VisuLogic、VisualPuzzles 等关注细粒度感知但不涉及空间规划；CityBench、MapBench 涉及空间推理但粒度不够精细，且依赖外部工具（地图 API）完成任务，绕过了真正的视觉推理。

地图是理想的测试载体：公交地图作为结构化、信息密集的视觉产物，天然要求精确的空间解读能力，非常适合评测细粒度视觉推理。

推理型模型表现存疑：推理型 MLLM 在数学和逻辑任务上表现突出，但在需要视觉接地的空间推理任务上是否同样有效，缺乏系统验证。

视觉依赖 vs 语言先验：已有研究指出 MLLM 可能依赖内部知识先验而非真正关注视觉输入，需要通过视觉遮蔽实验来验证。

缺少训练基线：在细粒度视觉推理场景下缺少 RL 训练基线，阻碍了后续研究对比与探索。

方法详解¶

整体框架¶

ReasonMap 是一个评测细粒度视觉推理的基准，核心载体是公交/地铁地图——结构化、信息密集、天然要求精确的空间解读。整条流水线分三段：先收集 30 个城市的高分辨率地图并结构化为统一的 Metro Data，再据此自动生成短/长两类 QA 对并配上参考路线，最后做质量控制把不可视觉追踪或错误的题剔掉，得到 ReasonMap 基准。评测侧用一套两级框架（先判对错、再打质量分）来评估 16 个 MLLM；同一套框架的指标又被改造成奖励，驱动一个 GRPO 强化微调基线供后续研究对比。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400, 'subGraphTitleMargin': {'top': 8, 'bottom': 16}}}}%%
flowchart TD
    subgraph BUILD["三段式数据构建流水线"]
        direction TB
        A["30 城市高分辨率地铁图<br/>(平均 5839×5449)"] --> B["数据收集与预处理<br/>GPT-4o 抽线路/站点 + 人工纠错 → Metro Data"]
        B --> C["QA 对构建<br/>随机两站 → 短/长问题 + API 参考路线 + 难度标注"]
        C --> D["质量控制<br/>正确性/多样性/难度均衡, 剔除不可视觉追踪题"]
    end
    D --> E["ReasonMap 基准<br/>1008 QA 对"]
    E -->|测试集| F["16 个 MLLM 作答"]
    F --> G["两级评估框架<br/>正确性 Acc + 质量 Map Score"]
    E -->|训练集| H["GRPO 训练基线<br/>Qwen2.5-VL-3B/7B, 跨城市划分"]
    G -->|accuracy + format 奖励| H

关键设计¶

1. 三段式数据构建流水线：把地图变成可追踪、可评分的 QA

要测真正的视觉推理，就得保证每道题都能在图上视觉追踪、且答案与视觉内容一致。流水线为此分三段：(a) 数据收集与预处理——从公开来源收集 30 个城市（13 国）的高分辨率地铁图（平均 5,839×5,449，远超现有视觉推理数据集常见的 <1,000×1,000），用 GPT-4o 提取线路与站点名、人工纠错后存成统一 JSON，换乘站/支线起始站等特殊情况单独标注；(b) QA 对构建——随机取两站，短问题用 1 个固定模板、长问题从 2 个模板随机选（一个问经停站数、一个要求列出具体经停站），参考路线由高德（中国城市）/ Google Map（其他城市）API 获取，问题难度按换乘次数分（0 次 easy / 1 次 medium / ≥2 次 hard），地图难度按线路与换乘站数分（easy/medium/hard 各 10 张），每张图固定 20:15:5 配额共 40 题；(c) 质量控制——从正确性、多样性、难度均衡三方面检查，错题人工修正或丢弃，不可视觉追踪的路线直接剔除。

2. 两级评估框架：先判对错，再用质量分拉开模型差距

单纯的正确率太粗，区分不出模型间的细微差异。ReasonMap 因此叠两层：正确性评估（Accuracy）依次验证出发/到达站正确性 → 每段路线名存在性 → 每段出发/到达站有效性 → 相邻段换乘站一致性，全通过才算正确；质量评估（Map Score）对短问题逐段对比答案与参考路线，匹配 stop1/stop2 得 1 分、路线名 2 分、段内出发/到达站各 1 分，上限 10 分、答对额外加分，长问题在此基础上再加经停站数评估（num_via_stop_score，绝对误差映射到 4 分制）或具体经停站评估（via_stop_score，IoU + 精确匹配平均后截断到 10 分）。高难度样本赋更大权重，让分数更能反映鲁棒性。

3. GRPO 训练基线：补上细粒度视觉推理缺失的 RL 起点

这一领域此前没有 RL 训练基线，后续研究无从对比。论文在 Qwen2.5-VL-3B/7B-Instruct 上用 GRPO（Group Relative Policy Optimization）做强化微调，奖励由两部分组成——基于正确性评估的二值 accuracy reward，和鼓励可解析输出的 format reward；训练用 AdamW、lr=1e-6、KL 系数 1e-3、每查询采样 8 个响应、全局 batch size 16，并采用训练/测试城市完全不相交的跨城市划分来检验泛化。

实验¶

主要结果¶

模型	类型	短问题加权 Acc	长问题加权 Acc	Map Score (S/L)
Qwen2.5-VL-72B	Base	26.65%	24.22%	5.09 / 8.80
InternVL3-78B	Base	25.35%	19.62%	4.80 / 7.50
QvQ-72B-Preview	Reasoning	9.03%	4.25%	1.59 / 1.55
Kimi-VL-A3B-Thinking	Reasoning	5.47%	5.47%	2.44 / 3.17
OpenAI o3	Reasoning	63.02%	59.11%	9.53 / 17.96
OpenAI 4o	Base	41.15%	42.80%	6.84 / 13.57
Gemini-2.5-Flash	Reasoning	46.09%	29.86%	7.64 / 9.98

RL 训练基线消融¶

模型	短问题 Acc 提升	长问题 Acc 提升	Map Score 提升 (S/L)
Qwen2.5-VL-3B + RL	+2.78%	+2.51%	+1.06 / +2.39
Qwen2.5-VL-7B + RL	+12.94%	+18.92%	+1.51 / +3.78

关键发现¶

开源 base > reasoning，闭源 reasoning > base：开源推理模型在思考过程中反复试错引入视觉混淆（先正确后自我否定），而闭源推理模型具备更强的视觉接地能力，即使出现视觉混淆也能在推理链中自我纠正。
缩放律仍然成立：同系列更大模型准确率更高且 token 用量更少（Qwen2.5-VL-72B 短问题 26.65% vs 3B 的 8.68%）。
视觉遮蔽实验：去除视觉输入后多数模型性能下降，闭源模型下降更显著（Doubao-415 短问题 Acc 下降 21.61%），说明其有效利用了视觉信息；而 Qwen2.5-VL-3B 几乎不变甚至提升，说明小模型更依赖语言先验。
RL 微调一致有效：7B 模型在跨城市设置下短问题 Acc 从 13.28% 提升到 26.22%，长问题从 7.12% 到 26.04%，同时 token 用量减少。
错误类型分析：主要错误包括视觉混淆（相似颜色线路误识别）、格式错误、幻觉（重复正确答案或生成无关内容）和拒答。多种错误可在同一回复中共现。
城市间差异大：即使地图难度相当，不同城市间的模型表现差异显著，与城市知名度和站名语言密切相关。

亮点¶

首个面向细粒度视觉推理的高分辨率地图基准，分辨率远超现有数据集（5,839×5,449 vs 通常<1,000×1,000）
两级评估框架（正确性 + 质量）设计精巧，map score 比简单 Acc 更能区分模型差异
揭示了开源/闭源 base/reasoning 模型的反直觉表现差异，并通过 case analysis 给出合理解释
半自动化可扩展的数据构建流水线，便于后续扩充城市
视觉遮蔽实验验证了视觉接地的必要性

局限性¶

数据规模偏小（1,008 QA 对、30 个城市），城市覆盖和语言多样性有限
仅限地铁/公交地图，未涉及更复杂的地图类型（如道路网络、建筑平面图）
参考路线依赖 Google Map/高德 API，可能存在覆盖偏差
评估依赖严格格式解析，格式错误直接判错可能低估某些模型的真实推理能力
RL 训练基线仅在 Qwen2.5-VL 上验证，未涵盖更多架构

评分¶

新颖性: ⭐⭐⭐⭐ — 首次聚焦高分辨率地图的细粒度空间推理评测，选题新颖
实验充分度: ⭐⭐⭐⭐⭐ — 16 个模型全面对比 + 视觉遮蔽 + RL 基线 + 错误分析，非常充分
写作质量: ⭐⭐⭐⭐ — 结构清晰，评估框架描述严谨
价值: ⭐⭐⭐⭐ — 为细粒度视觉推理提供了重要基准，开源/闭源差异发现有启发性