跳转至

SpatialThinker: Reinforcing 3D Reasoning in Multimodal LLMs via Spatial Rewards

会议: NeurIPS 2025
arXiv: 2511.07403
代码: https://github.com/SpatialThinker
领域: 多模态VLM
关键词: 空间推理, 场景图, 强化学习, 密集奖励, 3D理解

一句话总结

提出 SpatialThinker,通过在线 RL 结合多目标密集空间奖励(格式→计数→准确性→空间定位的字典序门控)训练 MLLM 构建场景图并进行结构化空间推理,仅用 7K 样本超越 GPT-4o 在 3DSRBench 上 12.1%。

研究背景与动机

领域现状

领域现状:领域现状**:空间理解是 MLLM 的核心短板,现有方法要么需要海量数据(SpatialVLM 用 2B 样本)、要么需要显式 3D 输入(深度图/点云)、要么用稀疏奖励做 RL

现有痛点:稀疏奖励(仅最终答案是否正确)对视觉定向推理提供的指导不足;SFT 学静态模式而非推理策略

核心 idea

现有痛点

现有痛点:场景图引导推理**:模型先构建问题相关的子场景图(物体+边界框+关系),再在此结构上推理

核心矛盾

核心矛盾:密集空间奖励**:四组件奖励(格式+计数+准确性+CIoU空间定位)配字典序门控,避免奖励 hacking

方法详解

关键设计

  1. 推理模板<observe>场景描述 → <scene>JSON场景图(物体ID+bbox+关系三元组)→ <think>推理 → <answer>答案
  2. 密集空间奖励 + 字典序门控

    • 格式奖励 \(R_f\)\(w=0.1\)):JSON可解析+字段完整
    • 计数奖励 \(R_c\)\(w=0.2\)):物体和关系数匹配度
    • 准确性奖励 \(R_a\)\(w=0.5\)):最终答案正确
    • 空间奖励 \(R_s\)\(w=0.2\)):仅当答案正确时激活,用匈牙利匹配+CIoU 评估定位精度
    • 门控:\(R_{total} = \mathbb{I}[R_f=1] \cdot (w_f R_f + w_c R_c + w_a R_a + \mathbb{I}[R_a=1] \cdot w_s R_s)\)
    • STVQA-7K 数据集:从 Visual Genome 场景图生成的 7.5K 高质量空间 VQA,覆盖 9 类空间推理

训练策略

基于 Qwen2.5-VL-7B,用 GRPO(无需 Critic 网络),4×H100 训练 15 小时。

实验关键数据

主实验

模型 3DSRBench CV-Bench BLINK Avg.
GPT-4o 44.3 79.4 80.4
Qwen2.5-VL-7B (base) 48.4 68.6 68.2
+ Sparse RL 52.4 (+4.0) 72.1 72.8
+ SpatialThinker (Dense) 55.6 (+7.2) 75.3 76.8

消融实验

奖励配置 3DSRBench Δ vs base
无 RL 48.4 -
稀疏奖励 52.4 +4.0
+格式+计数 53.8 +5.4
+空间奖励(无门控) 54.1 +5.7
+空间奖励(有门控) 55.6 +7.2

关键发现

  • 密集奖励的收益是稀疏奖励的 1.8 倍(+7.2 vs +4.0)
  • 字典序门控至关重要——无门控时模型会生成过多物体来骗取空间奖励
  • 仅 7K 样本超越百万级 SFT 数据集的方法

亮点与洞察

  • "observe→localize→think→answer"的推理模板模拟了人类空间推理:先观察场景,再定位关键物体,然后推理,最后回答
  • 密集空间奖励在仅 7K 样本上的效果超越百万级 SFT——证明了"指导什么学"比"学什么多"更重要
  • 字典序门控是避免奖励 hacking 的关键设计——直接可迁移到其他多目标 RL

局限与展望

  • 场景图构建质量依赖训练数据的标注精度;对极复杂场景子图提取可能不完整

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 场景图+密集RL的空间推理首创
  • 实验充分度: ⭐⭐⭐⭐⭐ 12个基准全面评估+详细消融
  • 写作质量: ⭐⭐⭐⭐⭐ 奖励设计推导清晰
  • 价值: ⭐⭐⭐⭐⭐ 用极少数据解决空间推理难题