RewardMap: Tackling Sparse Rewards in Fine-grained Visual Reasoning via Multi-Stage Reinforcement Learning¶

会议: ICLR 2026
arXiv: 2510.02240
代码: 项目页面
领域: 强化学习
关键词: 多模态大模型, 视觉推理, 稀疏奖励, 多阶段RL, 地铁路线规划

一句话总结¶

提出RewardMap框架，通过难度感知的细节奖励设计和从简单感知到复杂推理的多阶段RL课程学习策略，克服细粒度视觉推理中的稀疏奖励问题。

研究背景与动机¶

细粒度视觉推理（如地铁路线规划）是多模态大模型（MLLM）的核心挑战。ReasonMap基准揭示了即使先进的MLLM在结构化、信息密集的视觉场景中也难以进行空间推理。

将标准RL方法（如GRPO）直接应用于此类复杂任务面临稀疏奖励瓶颈： - 成功信号仅在长推理链末端给出（最终答案对/错） - 任务难度进一步放大稀疏性——大多数采样得到的奖励 \(r_i \approx 0\) - 在GRPO中，当所有采样都失败时，组内优势 \(\hat{A}_i\) 趋近零，梯度信号微弱，收敛困难

传统SFT虽提供密集监督，但无法赋予模型长链决策的推理能力。核心矛盾是任务复杂度与监督信号密度的错配。

本文的切入点：（1）构建ReasonMap-Plus数据集作为密集奖励冷启动源；（2）设计从易到难的多阶段RL训练，从感知逐步过渡到推理。

方法详解¶

整体框架¶

RewardMap包含两个核心组件：（1）难度感知的奖励设计，在格式和正确性奖励基础上增加细节奖励；（2）多阶段GRPO训练课程，从简单VQA到复杂路线规划逐步推进。

关键设计¶

ReasonMap-Plus数据集构建:
- 功能：构建4018个VQA问题覆盖5种扩展题型，30个城市13个国家
- 核心思路：设计全局计数、局部计数、判断题3大类问题，利用Metro Data自动生成答案
- 设计动机：VQA题型简单、奖励密集，适合作为RL冷启动，训练模型的基础视觉理解能力
难度感知的细节奖励:
- 功能：在正确性奖励外增加部分分数奖励
- 核心思路：\(R = W_{\text{difficulty}}(R_{\text{format}} + R_{\text{correctness}} + \alpha \times R_{\text{detail}})\)
- 细节奖励对起点/终点、路线名、换乘站、路段数分别给予奖惩
- 难度权重 \(W_{\text{difficulty}} = W_{\text{map}} + W_{\text{question}}\)，综合地图难度和换乘次数
- 设计动机：缓解规划任务中的稀疏奖励，即使最终答案错误也能从部分正确的信息中学习
多阶段GRPO课程学习:
- 功能：按全局课程原则将训练分为多阶段
- 核心思路：判断题 → 计数题 → 规划题（视觉理解 → 视觉推理）。每阶段内随机打乱样本
- 设计动机：（1）低层级任务奖励密集，支持有效冷启动；（2）逐步桥接感知和推理，避免直接面对困难任务时的训练崩溃；（3）局部随机性防止过拟合固定课程轨迹

损失函数 / 训练策略¶

使用GRPO的标准策略梯度目标，以组相对优势驱动更新。关键不同在于奖励函数的设计（三层奖励+难度加权）和数据调度策略（多阶段课程）。冷启动阶段直接使用RL而非SFT，确保奖励信号与任务目标从一开始就对齐。

实验关键数据¶

主实验（Qwen2.5-VL-7B-Instruct）¶

方法	ReasonMap加权准确率(S/L)	ReasonMap-Plus加权准确率
基础模型	13.28%/7.12%	44.21%
+RL (GRPO)	26.22%/26.04%	44.64%
+RL (REINFORCE++)	27.17%/27.60%	-
+RewardMap（完整）	最优	最优

消融实验¶

配置	关键指标	说明
仅格式+正确性奖励	基线性能	稀疏奖励下学习困难
+细节奖励	显著提升	部分分数缓解稀疏性
+难度权重	进一步提升	难题贡献更多学习信号
+多阶段课程	最佳性能	冷启动策略有效

关键发现¶

RewardMap训练的模型在6个外部基准上平均提升3.47%，说明能力泛化性好
使用RL冷启动优于SFT冷启动，避免了SFT导致的过拟合和认知僵化
参考模型对比中，GPT-5在ReasonMap上达到59.98%/62.50%，显示出该任务的极高难度
Seed1.5-VL和GPT-4o在ReasonMap-Plus上分别达到73.58%和64.42%

亮点与洞察¶

问题定义有价值：地铁路线规划是MLLM视觉推理的天然测试场，任务本身兼具实用性和科学价值
RL替代SFT做冷启动是一个有洞察力的设计选择，避免了奖励与损失函数的错配
细节奖励设计巧妙：利用规划任务的结构性（起点、终点、换乘站等可独立验证）分解奖励

局限与展望¶

细节奖励的设计依赖于任务特定的结构信息，泛化到其他视觉推理任务需要重新设计
难度权重的超参数（\(\gamma_e, \gamma_m, \gamma_h, \beta_0, \beta_1\)）需要预设
当前仅在Qwen2.5-VL模型族上验证，对其他架构的泛化性未知

评分¶

新颖性: ⭐⭐⭐⭐ 多阶段RL冷启动替代SFT的思路有新意，但各组件较标准
实验充分度: ⭐⭐⭐⭐ 多基准验证包括外部泛化，有消融研究
写作质量: ⭐⭐⭐⭐ 问题动机清晰，框架图示清晰
价值: ⭐⭐⭐⭐ 为MLLM视觉推理的RL训练提供了实用方案