SpatialThinker: Reinforcing 3D Reasoning in Multimodal LLMs via Spatial Rewards¶

会议: NeurIPS 2025
arXiv: 2511.07403
代码: https://github.com/SpatialThinker
领域: 多模态VLM
关键词: 空间推理, 场景图, 强化学习, 密集奖励, 3D理解

一句话总结¶

提出 SpatialThinker，通过在线 RL 结合多目标密集空间奖励（格式→计数→准确性→空间定位的字典序门控）训练 MLLM 构建场景图并进行结构化空间推理，仅用 7K 样本超越 GPT-4o 在 3DSRBench 上 12.1%。

领域现状：领域现状**：空间理解是 MLLM 的核心短板，现有方法要么需要海量数据（SpatialVLM 用 2B 样本）、要么需要显式 3D 输入（深度图/点云）、要么用稀疏奖励做 RL

现有痛点：稀疏奖励（仅最终答案是否正确）对视觉定向推理提供的指导不足；SFT 学静态模式而非推理策略

核心 idea：

现有痛点：场景图引导推理**：模型先构建问题相关的子场景图（物体+边界框+关系），再在此结构上推理

核心矛盾：密集空间奖励**：四组件奖励（格式+计数+准确性+CIoU空间定位）配字典序门控，避免奖励 hacking

推理模板：<observe>场景描述 → <scene>JSON场景图（物体ID+bbox+关系三元组）→ <think>推理 → <answer>答案
密集空间奖励 + 字典序门控：
- 格式奖励 \(R_f\)（\(w=0.1\)）：JSON可解析+字段完整
- 计数奖励 \(R_c\)（\(w=0.2\)）：物体和关系数匹配度
- 准确性奖励 \(R_a\)（\(w=0.5\)）：最终答案正确
- 空间奖励 \(R_s\)（\(w=0.2\)）：仅当答案正确时激活，用匈牙利匹配+CIoU 评估定位精度
- 门控：\(R_{total} = \mathbb{I}[R_f=1] \cdot (w_f R_f + w_c R_c + w_a R_a + \mathbb{I}[R_a=1] \cdot w_s R_s)\)
- STVQA-7K 数据集：从 Visual Genome 场景图生成的 7.5K 高质量空间 VQA，覆盖 9 类空间推理

基于 Qwen2.5-VL-7B，用 GRPO（无需 Critic 网络），4×H100 训练 15 小时。

模型	3DSRBench	CV-Bench	BLINK Avg.
GPT-4o	44.3	79.4	80.4
Qwen2.5-VL-7B (base)	48.4	68.6	68.2
+ Sparse RL	52.4 (+4.0)	72.1	72.8
+ SpatialThinker (Dense)	55.6 (+7.2)	75.3	76.8