RegionReasoner: Region-Grounded Multi-Round Visual Reasoning¶

会议: ICLR 2026
arXiv: 2602.03733
代码: RegionReasoner
领域: 图像分割
关键词: multi-round reasoning, region grounding, reinforcement-learning, GRPO, VLM, referring segmentation

一句话总结¶

提出 RegionReasoner，一个基于强化学习的多轮视觉推理框架，通过引用标注奖励和全局-局部一致性奖励，使推理轨迹必须显式引用参考区域坐标并保持语义连贯，在新构建的 RegionDial-Bench 上显著提升多轮定位和分割精度。

背景与动机¶

现有痛点¶

现有痛点：领域现状：1. 现有 VLM 推理主要是单步或纯文本空间推理，缺乏迭代视觉上下文精炼能力 2. VisionReasoner 提供了单轮结构化推理但不跨轮传播区域引用 3. SegLLM 支持多轮交互分割但没有可验证的推理轨迹或 RL 信号 4. 朴素堆叠单轮推理导致：引用传播脆弱、坐标幻觉难以检测 5. 随着对话轮数增加，全局描述与局部证据语义漂移 6. 缺乏针对多轮推理精度和一致性的评估基准

方法详解¶

结构化输出: 每轮生成 4 个标签块 <scene> → <focus> → <think> → <answer>

Reference-Grounded Thinking (引用标注推理): - 推理轨迹 <think> 必须显式引用参考 bbox 坐标 - 引用奖励 \(R_{ref}\)：正确引用得分 + 幻觉坐标惩罚(\(\eta=0.5\))

Global-Local Consistency Reward (全局-局部一致性): - 从 <scene> 和 <focus> 提取关键词集合，与 <think> 计算非对称重叠 - 加入空间/比较/定位词汇先验 \(\ell(h_t)\) - \(R_{cons} = w_s \cdot \text{Ov}(s_t, h_t) + w_f \cdot \text{Ov}(f_t, h_t) + w_\ell \cdot \ell(h_t)\)

训练: 基于 GRPO，Qwen2.5-VL-7B 初始化，4×H100 训练 ~10h

RegionDial-Bench 基准: - 从 RefCOCO+/RefCOCOg 构建多轮对话 - RefCOCO+ Multi-turn: 715 图/2355 轮; RefCOCOg: 1580 图/4405 轮 - 支持检测(AP50)和分割(gIoU)的逐轮评估

实验关键数据¶

7 轮检测（RefCOCO+ Multi-turn, AP↑）¶

方法	R1	R2	R3	R4	R5	R6	R7	Avg
Qwen2.5-VL-7B	65.5	49.0	48.1	36.5	30.0	38.2	25.9	49.9
Seg-Zero-7B	90.5	71.2	73.6	59.6	48.8	58.2	48.2	73.1
VisionReasoner-7B	88.3	74.7	75.8	64.2	56.3	57.3	47.0	74.8
RegionReasoner-7B	89.3	83.2	81.6	69.6	61.9	69.1	64.7	80.7

7 轮分割（RefCOCO+ Multi-turn, gIoU↑）¶

方法	R1	R2	R3	R4	R5	R6	R7	Avg
Seg-Zero-7B	78.6	62.8	64.0	51.6	42.4	50.8	46.7	64.0
SegLLM-7B	71.1	71.7	70.4	58.7	41.9	39.2	30.3	60.7
VisionReasoner-7B	75.6	65.0	65.9	54.9	46.6	48.9	40.8	64.3
RegionReasoner-7B	76.4	73.1	72.0	58.8	51.3	59.4	54.6	69.6

消融实验¶

奖励配置	RefCOCO+ AP Avg	RefCOCOg gIoU Avg	说明
仅 base rewards	74.8	64.3	VisionReasoner 基线
+引用奖励 \(R_{ref}\)	77.5	66.8	减少坐标幻觉
+一致性奖励 \(R_{cons}\)	76.9	66.2	稳定弱空间场景
+两者联合	80.7	69.6	互补效果最佳

关键发现¶

后续轮次优势最大：R5/R6/R7 上检测 AP 提升 +5.6/+11.8/+17.7 vs VisionReasoner——表明引用传播和一致性约束有效遏制了误差累积
两种奖励互补：引用奖励主要减少坐标幻觉和改善区域复用/修正；一致性奖励在弱空间线索的场景中稳定推理语义
SegLLM 在 R1-R3 表现不错但 R7 急剧退化（30.3 gIoU），没有结构化推理轨迹导致长对话失控
4×H100 训练约 10 小时完成，推理使用约束解码保证格式有效性

亮点与洞察¶

可验证推理轨迹：推理中的 bbox 引用可被自动解析和审计——每个结论都有可追溯的空间证据
两个奖励信号精准互补：引用奖励确保"说了什么区域就真的看了那个区域"，一致性奖励确保"场景描述、局部描述和推理三者语义一致"
多轮稳定性：性能衰减显著小于所有基线，RegionReasoner 在 R7 仍保持 64.7 AP（VisionReasoner 仅 47.0）
统一检测和分割：无任务特定头，检测用 bbox JSON、分割用 point_2d JSON，同一框架同一训练
RegionDial-Bench：首个同时覆盖检测和分割的多轮推理基准，支持逐轮评估和参考传播

局限与展望¶

基准规模较小（RefCOCO+ 仅 715 图/2355 轮），更大规模和更多样场景的泛化性待验证
关键词匹配方式（lemma + 停用词移除 + 名词过滤）较粗糙，在语义丰富但词汇多样的场景中可能遗漏真实一致性
仅在 7B 规模验证，更大模型（如 72B）可能不需要如此结构化的约束即可实现多轮稳定推理
约束解码增加推理复杂度，JSON 格式和标签模式的强制执行可能限制生成灵活性
空间关系的词汇先验（left/right/inside/overlap 等）是手工定义的，覆盖度可能不足

评分¶

新颖性: ⭐⭐⭐⭐ 引用标注推理 + 全局-局部一致性奖励的组合方案新颖实用
实验充分度: ⭐⭐⭐⭐ 检测+分割 + 逐轮精细分析 + 消融 + 多基线对比
写作质量: ⭐⭐⭐⭐ 形式化完整，流水线描述清晰
价值: ⭐⭐⭐⭐ 多轮视觉推理的新方向，基准和方法都有独立贡献