RegionReasoner: Region-Grounded Multi-Round Visual Reasoning¶
会议: ICLR 2026
arXiv: 2602.03733
代码: RegionReasoner
领域: 图像分割
关键词: multi-round reasoning, region grounding, reinforcement-learning, GRPO, VLM, referring segmentation
一句话总结¶
提出 RegionReasoner,一个基于强化学习的多轮视觉推理框架,通过引用标注奖励和全局-局部一致性奖励,使推理轨迹必须显式引用参考区域坐标并保持语义连贯,在新构建的 RegionDial-Bench 上显著提升多轮定位和分割精度。
背景与动机¶
现有痛点¶
现有痛点:领域现状:1. 现有 VLM 推理主要是单步或纯文本空间推理,缺乏迭代视觉上下文精炼能力 2. VisionReasoner 提供了单轮结构化推理但不跨轮传播区域引用 3. SegLLM 支持多轮交互分割但没有可验证的推理轨迹或 RL 信号 4. 朴素堆叠单轮推理导致:引用传播脆弱、坐标幻觉难以检测 5. 随着对话轮数增加,全局描述与局部证据语义漂移 6. 缺乏针对多轮推理精度和一致性的评估基准
方法详解¶
结构化输出: 每轮生成 4 个标签块 <scene> → <focus> → <think> → <answer>
Reference-Grounded Thinking (引用标注推理):
- 推理轨迹 <think> 必须显式引用参考 bbox 坐标
- 引用奖励 \(R_{ref}\):正确引用得分 + 幻觉坐标惩罚(\(\eta=0.5\))
Global-Local Consistency Reward (全局-局部一致性):
- 从 <scene> 和 <focus> 提取关键词集合,与 <think> 计算非对称重叠
- 加入空间/比较/定位词汇先验 \(\ell(h_t)\)
- \(R_{cons} = w_s \cdot \text{Ov}(s_t, h_t) + w_f \cdot \text{Ov}(f_t, h_t) + w_\ell \cdot \ell(h_t)\)
训练: 基于 GRPO,Qwen2.5-VL-7B 初始化,4×H100 训练 ~10h
RegionDial-Bench 基准: - 从 RefCOCO+/RefCOCOg 构建多轮对话 - RefCOCO+ Multi-turn: 715 图/2355 轮; RefCOCOg: 1580 图/4405 轮 - 支持检测(AP50)和分割(gIoU)的逐轮评估
实验关键数据¶
7 轮检测(RefCOCO+ Multi-turn, AP↑)¶
| 方法 | R1 | R2 | R3 | R4 | R5 | R6 | R7 | Avg |
|---|---|---|---|---|---|---|---|---|
| Qwen2.5-VL-7B | 65.5 | 49.0 | 48.1 | 36.5 | 30.0 | 38.2 | 25.9 | 49.9 |
| Seg-Zero-7B | 90.5 | 71.2 | 73.6 | 59.6 | 48.8 | 58.2 | 48.2 | 73.1 |
| VisionReasoner-7B | 88.3 | 74.7 | 75.8 | 64.2 | 56.3 | 57.3 | 47.0 | 74.8 |
| RegionReasoner-7B | 89.3 | 83.2 | 81.6 | 69.6 | 61.9 | 69.1 | 64.7 | 80.7 |
7 轮分割(RefCOCO+ Multi-turn, gIoU↑)¶
| 方法 | R1 | R2 | R3 | R4 | R5 | R6 | R7 | Avg |
|---|---|---|---|---|---|---|---|---|
| Seg-Zero-7B | 78.6 | 62.8 | 64.0 | 51.6 | 42.4 | 50.8 | 46.7 | 64.0 |
| SegLLM-7B | 71.1 | 71.7 | 70.4 | 58.7 | 41.9 | 39.2 | 30.3 | 60.7 |
| VisionReasoner-7B | 75.6 | 65.0 | 65.9 | 54.9 | 46.6 | 48.9 | 40.8 | 64.3 |
| RegionReasoner-7B | 76.4 | 73.1 | 72.0 | 58.8 | 51.3 | 59.4 | 54.6 | 69.6 |
消融实验¶
| 奖励配置 | RefCOCO+ AP Avg | RefCOCOg gIoU Avg | 说明 |
|---|---|---|---|
| 仅 base rewards | 74.8 | 64.3 | VisionReasoner 基线 |
| +引用奖励 \(R_{ref}\) | 77.5 | 66.8 | 减少坐标幻觉 |
| +一致性奖励 \(R_{cons}\) | 76.9 | 66.2 | 稳定弱空间场景 |
| +两者联合 | 80.7 | 69.6 | 互补效果最佳 |
关键发现¶
- 后续轮次优势最大:R5/R6/R7 上检测 AP 提升 +5.6/+11.8/+17.7 vs VisionReasoner——表明引用传播和一致性约束有效遏制了误差累积
- 两种奖励互补:引用奖励主要减少坐标幻觉和改善区域复用/修正;一致性奖励在弱空间线索的场景中稳定推理语义
- SegLLM 在 R1-R3 表现不错但 R7 急剧退化(30.3 gIoU),没有结构化推理轨迹导致长对话失控
- 4×H100 训练约 10 小时完成,推理使用约束解码保证格式有效性
亮点与洞察¶
- 可验证推理轨迹:推理中的 bbox 引用可被自动解析和审计——每个结论都有可追溯的空间证据
- 两个奖励信号精准互补:引用奖励确保"说了什么区域就真的看了那个区域",一致性奖励确保"场景描述、局部描述和推理三者语义一致"
- 多轮稳定性:性能衰减显著小于所有基线,RegionReasoner 在 R7 仍保持 64.7 AP(VisionReasoner 仅 47.0)
- 统一检测和分割:无任务特定头,检测用 bbox JSON、分割用 point_2d JSON,同一框架同一训练
- RegionDial-Bench:首个同时覆盖检测和分割的多轮推理基准,支持逐轮评估和参考传播
局限与展望¶
- 基准规模较小(RefCOCO+ 仅 715 图/2355 轮),更大规模和更多样场景的泛化性待验证
- 关键词匹配方式(lemma + 停用词移除 + 名词过滤)较粗糙,在语义丰富但词汇多样的场景中可能遗漏真实一致性
- 仅在 7B 规模验证,更大模型(如 72B)可能不需要如此结构化的约束即可实现多轮稳定推理
- 约束解码增加推理复杂度,JSON 格式和标签模式的强制执行可能限制生成灵活性
- 空间关系的词汇先验(left/right/inside/overlap 等)是手工定义的,覆盖度可能不足
相关工作与启发¶
- vs VisionReasoner:单轮结构化推理的强基线;RegionReasoner 扩展多轮但继承其 tag 结构和 base rewards
- vs SegLLM:多轮分割交互,有对话式监督但无显式推理轨迹、无 RL 信号——本文补齐了可验证性和学习信号两个缺口
- vs Vision-R1/VLM-R1/Pixel Reasoner:RL 增强 VLM 推理的并行工作,但都是单轮;RegionReasoner 是多轮 + 区域标记
- vs GRPO:采用的策略优化算法,与 PPO 相比更适合大模型的 RL 微调
评分¶
- 新颖性: ⭐⭐⭐⭐ 引用标注推理 + 全局-局部一致性奖励的组合方案新颖实用
- 实验充分度: ⭐⭐⭐⭐ 检测+分割 + 逐轮精细分析 + 消融 + 多基线对比
- 写作质量: ⭐⭐⭐⭐ 形式化完整,流水线描述清晰
- 价值: ⭐⭐⭐⭐ 多轮视觉推理的新方向,基准和方法都有独立贡献