RoboSpatial: Teaching Spatial Understanding to 2D and 3D Vision-Language Models for Robotics¶

会议: CVPR 2025
arXiv: 2411.16537
代码: https://github.com/chanh-ee/RoboSpatial
领域: 多模态VLM
关键词: 空间推理, 机器人操作, VLM微调, 3D空间理解, 参考坐标系

一句话总结¶

RoboSpatial 构建了一个包含 1M 图像、5k 3D 扫描和 3M 空间关系标注的大规模机器人空间理解数据集，通过自动化 pipeline 从已有 3D 场景数据中生成三类空间问答对（空间上下文/兼容性/配置），并引入三种参考坐标系（自我/世界/物体），在多个 2D 和 3D VLM 上训练后显著提升空间推理性能，并在真实机器人操作实验中验证了有效性。

研究背景与动机¶

VLM 在机器人领域的应用日益广泛，但空间理解能力仍然是瓶颈——现有 VLM 可以描述"桌上有碗"，却无法推理碗在桌上的具体位置、能否放下新物品等复杂空间关系。核心矛盾在于：VLM 的训练数据来自通用图像数据集，缺乏机器人场景中的精细空间标注，尤其缺乏对参考坐标系（自我中心/世界中心/物体中心）的理解能力。现有空间推理数据集（如 SpatialVLM、BLINK）要么规模小、要么不支持多坐标系、要么不适用于具身场景。本文的切入角度是：空间理解的瓶颈是缺乏合适的训练数据，因此构建大规模、多坐标系、机器人导向的空间 QA 数据集来弥补这一缺口。

方法详解¶

整体框架¶

RoboSpatial 的核心是一个自动化数据生成 pipeline：输入带有 3D 标注框、相机位姿和语义标签的场景数据集（如 ScanNet、Matterport3D、GraspNet-1B），输出包含 \((I_i, q_i, a_i, l_i)\)（图像、问题、答案、参考坐标系标签）的空间推理 QA 数据集。Pipeline 分两阶段：先在 3D 空间提取空间关系，再映射到 2D 图像空间生成 QA 对。

关键设计¶

三类空间关系定义:
- 功能：覆盖机器人场景中最核心的空间推理需求
- 核心思路：将空间理解分解为三个层次—— (1) Spatial Context（空间上下文）：识别环境中的空闲空间，输出可放置位置的 2D 坐标；(2) Spatial Compatibility（空间兼容性）：判断目标物体能否放进指定区域，通过模拟虚拟包围盒放置并检测碰撞来回答 True/False；(3) Spatial Configuration（空间配置）：判断两个物体之间的相对空间关系（左/右/上/下/前/后），输出 True/False
- 设计动机：距离度量难以跨场景归一化，而这三种关系直接对应机器人的路径规划、物品放置和导航需求
三种参考坐标系:
- 功能：让模型理解同一空间关系在不同视角下的差异
- 核心思路：每个 QA 对从三个坐标系分别生成—— (a) Ego-centric（以相机位姿为中心），(b) World-centric（全局坐标系），(c) Object-centric（以锚物体的朝向为中心，如"车前方"指车头方向）
- 设计动机：自然语言中的空间描述隐含了参考坐标系，"桌子前面"在不同视角下完全不同，模型必须学会区分
两阶段数据生成 Pipeline:
- 功能：从 3D 标注场景中自动生成大规模 QA 对
- 核心思路：Stage 1 在 3D 空间中基于 oriented bounding box 的位置和朝向，计算物体间的六方向关系 \(r_i \in \{left, right, above, below, front, behind\}\)；Stage 2 在 2D 图像空间中通过俯视占据地图采样空闲点，利用射线检测过滤遮挡点，并通过虚拟碰撞检测判断兼容性（要求各轴至少 10cm 余量）
- 设计动机：利用精确 3D 几何避免感知模型的噪声标注，同时通过相机投影桥接 2D/3D 模态

损失函数 / 训练策略¶

在已有 VLM（如 VILA-1.5-8B、LLaVA-NeXT-8B）上进行微调，使用 RoboSpatial 数据集 + 辅助物体定位数据集（将物体描述映射到 2D bounding box）进行联合训练。辅助定位数据集用于缓解物体指代解析错误带来的级联失败。

实验关键数据¶

主实验（RoboSpatial-Val）¶

模型	Indoor 均分	Tabletop 均分	总均分	提升
VILA (baseline)	43.1	37.4	40.2	-
VILA + RoboSpatial	64.8	62.9	63.9	+23.7
LLaVA-NeXT (baseline)	31.4	29.2	30.3	-
LLaVA-NeXT + RoboSpatial	60.4	60.5	60.5	+30.2
LEO (3D, baseline)	41.9	43.7	42.8	-
LEO + RoboSpatial	73.1	70.7	71.9	+29.1
GPT-4o (zero-shot)	49.3	52.3	50.8	-

域外泛化（RoboSpatial-Home / BLINK / SpatialBench）¶

模型	Home Config	Home Compat	BLINK Acc	SpatialBench
LLaVA-NeXT	68.3	70.5	71.3	55.9
LLaVA-NeXT + RoboSpatial	78.9	80.1	79.0	70.6
SpaceLLaVA + RoboSpatial	71.6	72.4	81.8	67.7
GPT-4o	77.2	58.1	76.2	70.6

机器人实验¶

模型	成功率 (%)
LLaVA-NeXT	23.7
LLaVA-NeXT + RoboSpatial	52.6
RoboPoint	44.7
GPT-4o	46.9

关键发现¶

所有 2D 和 3D VLM 在 RoboSpatial 微调后，所有任务性能均大幅提升（↑20-30%）
模型能泛化到训练中未见过的空间介词（如 "next to"、"under"），因为训练覆盖了 3D 空间的六个主方向
3D VLM（如 LEO）通常优于 2D VLM，但公平性比较受限于预训练数据差异
跨环境迁移有正向协同效应：在 indoor 数据上训练也能提升 tabletop 性能

亮点与洞察¶

数据驱动的空间理解：证明了空间推理的瓶颈在数据而非模型架构，通用 VLM + 好的空间数据即可大幅提升
参考坐标系的引入是关键创新点，让模型学会"车前方"和"我前方"的区别
自动化 pipeline 可扩展到新场景和新空间关系，具有良好的可扩展性
微调后的 LLaVA-NeXT 在真实机器人实验中超过 GPT-4o，显示了领域数据的价值

局限与展望¶

空间上下文（context）任务中使用凸包判定正确性标准过于严格，导致分数偏低
2D 到 3D 的投影误差（2 像素 → 5-10cm）仍是机器人操作中的关键瓶颈
3D VLM 目前需要完整 3D 扫描作为输入，难以在真实场景中实时获取
模板化 QA 可能限制语言多样性，未来可引入 LLM 改写

评分¶

新颖性: ⭐⭐⭐⭐ 参考坐标系和三类空间关系的定义很有见地，但整体方法偏数据工程
实验充分度: ⭐⭐⭐⭐⭐ 覆盖多个 VLM、多个 benchmark、域外泛化、交叉环境迁移、真实机器人实验
写作质量: ⭐⭐⭐⭐ 结构清晰，pipeline 描述详尽
价值: ⭐⭐⭐⭐ 对机器人领域的 VLM 空间推理有直接推动作用，数据集开源价值很高

补充说明¶

数据集规模：3M QA 对来自 5 个源数据集（ScanNet、Matterport3D、3RScan、HOPE、GraspNet-1B）
评测中凸包判定标准偏严格，实际准确率可能高于报告值
跨环境实验表明 indoor 和 tabletop 之间存在正向迁移效应，一起训练效果更好