RewardMap: Tackling Sparse Rewards in Fine-grained Visual Reasoning via Multi-Stage Reinforcement Learning¶
会议: ICLR 2026
arXiv: 2510.02240
代码: 项目页面
领域: 强化学习
关键词: 多模态大模型, 视觉推理, 稀疏奖励, 多阶段RL, 地铁路线规划
一句话总结¶
提出RewardMap框架,通过难度感知的细节奖励设计和从简单感知到复杂推理的多阶段RL课程学习策略,克服细粒度视觉推理中的稀疏奖励问题。
研究背景与动机¶
细粒度视觉推理(如地铁路线规划)是多模态大模型(MLLM)的核心挑战。ReasonMap基准揭示了即使先进的MLLM在结构化、信息密集的视觉场景中也难以进行空间推理。
将标准RL方法(如GRPO)直接应用于此类复杂任务面临稀疏奖励瓶颈: - 成功信号仅在长推理链末端给出(最终答案对/错) - 任务难度进一步放大稀疏性——大多数采样得到的奖励 \(r_i \approx 0\) - 在GRPO中,当所有采样都失败时,组内优势 \(\hat{A}_i\) 趋近零,梯度信号微弱,收敛困难
传统SFT虽提供密集监督,但无法赋予模型长链决策的推理能力。核心矛盾是任务复杂度与监督信号密度的错配。
本文的切入点:(1)构建ReasonMap-Plus数据集作为密集奖励冷启动源;(2)设计从易到难的多阶段RL训练,从感知逐步过渡到推理。
方法详解¶
整体框架¶
RewardMap包含两个核心组件:(1)难度感知的奖励设计,在格式和正确性奖励基础上增加细节奖励;(2)多阶段GRPO训练课程,从简单VQA到复杂路线规划逐步推进。
关键设计¶
-
ReasonMap-Plus数据集构建:
- 功能:构建4018个VQA问题覆盖5种扩展题型,30个城市13个国家
- 核心思路:设计全局计数、局部计数、判断题3大类问题,利用Metro Data自动生成答案
- 设计动机:VQA题型简单、奖励密集,适合作为RL冷启动,训练模型的基础视觉理解能力
-
难度感知的细节奖励:
- 功能:在正确性奖励外增加部分分数奖励
- 核心思路:\(R = W_{\text{difficulty}}(R_{\text{format}} + R_{\text{correctness}} + \alpha \times R_{\text{detail}})\)
- 细节奖励对起点/终点、路线名、换乘站、路段数分别给予奖惩
- 难度权重 \(W_{\text{difficulty}} = W_{\text{map}} + W_{\text{question}}\),综合地图难度和换乘次数
- 设计动机:缓解规划任务中的稀疏奖励,即使最终答案错误也能从部分正确的信息中学习
-
多阶段GRPO课程学习:
- 功能:按全局课程原则将训练分为多阶段
- 核心思路:判断题 → 计数题 → 规划题(视觉理解 → 视觉推理)。每阶段内随机打乱样本
- 设计动机:(1)低层级任务奖励密集,支持有效冷启动;(2)逐步桥接感知和推理,避免直接面对困难任务时的训练崩溃;(3)局部随机性防止过拟合固定课程轨迹
损失函数 / 训练策略¶
使用GRPO的标准策略梯度目标,以组相对优势驱动更新。关键不同在于奖励函数的设计(三层奖励+难度加权)和数据调度策略(多阶段课程)。冷启动阶段直接使用RL而非SFT,确保奖励信号与任务目标从一开始就对齐。
实验关键数据¶
主实验(Qwen2.5-VL-7B-Instruct)¶
| 方法 | ReasonMap加权准确率(S/L) | ReasonMap-Plus加权准确率 |
|---|---|---|
| 基础模型 | 13.28%/7.12% | 44.21% |
| +RL (GRPO) | 26.22%/26.04% | 44.64% |
| +RL (REINFORCE++) | 27.17%/27.60% | - |
| +RewardMap(完整) | 最优 | 最优 |
消融实验¶
| 配置 | 关键指标 | 说明 |
|---|---|---|
| 仅格式+正确性奖励 | 基线性能 | 稀疏奖励下学习困难 |
| +细节奖励 | 显著提升 | 部分分数缓解稀疏性 |
| +难度权重 | 进一步提升 | 难题贡献更多学习信号 |
| +多阶段课程 | 最佳性能 | 冷启动策略有效 |
关键发现¶
- RewardMap训练的模型在6个外部基准上平均提升3.47%,说明能力泛化性好
- 使用RL冷启动优于SFT冷启动,避免了SFT导致的过拟合和认知僵化
- 参考模型对比中,GPT-5在ReasonMap上达到59.98%/62.50%,显示出该任务的极高难度
- Seed1.5-VL和GPT-4o在ReasonMap-Plus上分别达到73.58%和64.42%
亮点与洞察¶
- 问题定义有价值:地铁路线规划是MLLM视觉推理的天然测试场,任务本身兼具实用性和科学价值
- RL替代SFT做冷启动是一个有洞察力的设计选择,避免了奖励与损失函数的错配
- 细节奖励设计巧妙:利用规划任务的结构性(起点、终点、换乘站等可独立验证)分解奖励
局限与展望¶
- 细节奖励的设计依赖于任务特定的结构信息,泛化到其他视觉推理任务需要重新设计
- 难度权重的超参数(\(\gamma_e, \gamma_m, \gamma_h, \beta_0, \beta_1\))需要预设
- 当前仅在Qwen2.5-VL模型族上验证,对其他架构的泛化性未知
相关工作与启发¶
- ReasonMap(Feng et al., 2025b)是本文的基准和数据基础
- GRPO(Shao et al., 2024)提供了RL优化框架
- 课程RL(Parashar et al., 2025)的从易到难策略启发了多阶段设计
- 启示:对于复杂推理任务,奖励工程(reward engineering)可能比算法创新更为关键
评分¶
- 新颖性: ⭐⭐⭐⭐ 多阶段RL冷启动替代SFT的思路有新意,但各组件较标准
- 实验充分度: ⭐⭐⭐⭐ 多基准验证包括外部泛化,有消融研究
- 写作质量: ⭐⭐⭐⭐ 问题动机清晰,框架图示清晰
- 价值: ⭐⭐⭐⭐ 为MLLM视觉推理的RL训练提供了实用方案