跳转至

RoboSpatial: Teaching Spatial Understanding to 2D and 3D Vision-Language Models for Robotics

会议: CVPR 2025
arXiv: 2411.16537
代码: https://github.com/chanh-ee/RoboSpatial
领域: 多模态VLM
关键词: 空间推理, 机器人操作, VLM微调, 3D空间理解, 参考坐标系

一句话总结

RoboSpatial 构建了一个包含 1M 图像、5k 3D 扫描和 3M 空间关系标注的大规模机器人空间理解数据集,通过自动化 pipeline 从已有 3D 场景数据中生成三类空间问答对(空间上下文/兼容性/配置),并引入三种参考坐标系(自我/世界/物体),在多个 2D 和 3D VLM 上训练后显著提升空间推理性能,并在真实机器人操作实验中验证了有效性。

研究背景与动机

VLM 在机器人领域的应用日益广泛,但空间理解能力仍然是瓶颈——现有 VLM 可以描述"桌上有碗",却无法推理碗在桌上的具体位置、能否放下新物品等复杂空间关系。核心矛盾在于:VLM 的训练数据来自通用图像数据集,缺乏机器人场景中的精细空间标注,尤其缺乏对参考坐标系(自我中心/世界中心/物体中心)的理解能力。现有空间推理数据集(如 SpatialVLM、BLINK)要么规模小、要么不支持多坐标系、要么不适用于具身场景。本文的切入角度是:空间理解的瓶颈是缺乏合适的训练数据,因此构建大规模、多坐标系、机器人导向的空间 QA 数据集来弥补这一缺口。

方法详解

整体框架

RoboSpatial 的核心是一个自动化数据生成 pipeline:输入带有 3D 标注框、相机位姿和语义标签的场景数据集(如 ScanNet、Matterport3D、GraspNet-1B),输出包含 \((I_i, q_i, a_i, l_i)\)(图像、问题、答案、参考坐标系标签)的空间推理 QA 数据集。Pipeline 分两阶段:先在 3D 空间提取空间关系,再映射到 2D 图像空间生成 QA 对。

关键设计

  1. 三类空间关系定义:

    • 功能:覆盖机器人场景中最核心的空间推理需求
    • 核心思路:将空间理解分解为三个层次—— (1) Spatial Context(空间上下文):识别环境中的空闲空间,输出可放置位置的 2D 坐标;(2) Spatial Compatibility(空间兼容性):判断目标物体能否放进指定区域,通过模拟虚拟包围盒放置并检测碰撞来回答 True/False;(3) Spatial Configuration(空间配置):判断两个物体之间的相对空间关系(左/右/上/下/前/后),输出 True/False
    • 设计动机:距离度量难以跨场景归一化,而这三种关系直接对应机器人的路径规划、物品放置和导航需求
  2. 三种参考坐标系:

    • 功能:让模型理解同一空间关系在不同视角下的差异
    • 核心思路:每个 QA 对从三个坐标系分别生成—— (a) Ego-centric(以相机位姿为中心),(b) World-centric(全局坐标系),(c) Object-centric(以锚物体的朝向为中心,如"车前方"指车头方向)
    • 设计动机:自然语言中的空间描述隐含了参考坐标系,"桌子前面"在不同视角下完全不同,模型必须学会区分
  3. 两阶段数据生成 Pipeline:

    • 功能:从 3D 标注场景中自动生成大规模 QA 对
    • 核心思路:Stage 1 在 3D 空间中基于 oriented bounding box 的位置和朝向,计算物体间的六方向关系 \(r_i \in \{left, right, above, below, front, behind\}\);Stage 2 在 2D 图像空间中通过俯视占据地图采样空闲点,利用射线检测过滤遮挡点,并通过虚拟碰撞检测判断兼容性(要求各轴至少 10cm 余量)
    • 设计动机:利用精确 3D 几何避免感知模型的噪声标注,同时通过相机投影桥接 2D/3D 模态

损失函数 / 训练策略

在已有 VLM(如 VILA-1.5-8B、LLaVA-NeXT-8B)上进行微调,使用 RoboSpatial 数据集 + 辅助物体定位数据集(将物体描述映射到 2D bounding box)进行联合训练。辅助定位数据集用于缓解物体指代解析错误带来的级联失败。

实验关键数据

主实验(RoboSpatial-Val)

模型 Indoor 均分 Tabletop 均分 总均分 提升
VILA (baseline) 43.1 37.4 40.2 -
VILA + RoboSpatial 64.8 62.9 63.9 +23.7
LLaVA-NeXT (baseline) 31.4 29.2 30.3 -
LLaVA-NeXT + RoboSpatial 60.4 60.5 60.5 +30.2
LEO (3D, baseline) 41.9 43.7 42.8 -
LEO + RoboSpatial 73.1 70.7 71.9 +29.1
GPT-4o (zero-shot) 49.3 52.3 50.8 -
模型 Home Config Home Compat BLINK Acc SpatialBench
LLaVA-NeXT 68.3 70.5 71.3 55.9
LLaVA-NeXT + RoboSpatial 78.9 80.1 79.0 70.6
SpaceLLaVA + RoboSpatial 71.6 72.4 81.8 67.7
GPT-4o 77.2 58.1 76.2 70.6

机器人实验

模型 成功率 (%)
LLaVA-NeXT 23.7
LLaVA-NeXT + RoboSpatial 52.6
RoboPoint 44.7
GPT-4o 46.9

关键发现

  • 所有 2D 和 3D VLM 在 RoboSpatial 微调后,所有任务性能均大幅提升(↑20-30%)
  • 模型能泛化到训练中未见过的空间介词(如 "next to"、"under"),因为训练覆盖了 3D 空间的六个主方向
  • 3D VLM(如 LEO)通常优于 2D VLM,但公平性比较受限于预训练数据差异
  • 跨环境迁移有正向协同效应:在 indoor 数据上训练也能提升 tabletop 性能

亮点与洞察

  • 数据驱动的空间理解:证明了空间推理的瓶颈在数据而非模型架构,通用 VLM + 好的空间数据即可大幅提升
  • 参考坐标系的引入是关键创新点,让模型学会"车前方"和"我前方"的区别
  • 自动化 pipeline 可扩展到新场景和新空间关系,具有良好的可扩展性
  • 微调后的 LLaVA-NeXT 在真实机器人实验中超过 GPT-4o,显示了领域数据的价值

局限与展望

  • 空间上下文(context)任务中使用凸包判定正确性标准过于严格,导致分数偏低
  • 2D 到 3D 的投影误差(2 像素 → 5-10cm)仍是机器人操作中的关键瓶颈
  • 3D VLM 目前需要完整 3D 扫描作为输入,难以在真实场景中实时获取
  • 模板化 QA 可能限制语言多样性,未来可引入 LLM 改写

相关工作与启发

  • vs SpatialVLM/SpatialRGPT: 它们基于互联网图像和感知模型标注,无法泛化到具身场景;RoboSpatial 基于真实 3D 扫描,精度更高
  • vs RoboPoint/Molmo: 这些指向模型缺乏参考坐标系和物体兼容性理解,只能预测点而不能回答空间关系
  • vs EmbSpatial-Bench: 规模太小(4k QA vs 3M QA),且不支持多坐标系
  • vs 3D-LLM/LEO: 3D VLM 能直接利用深度信息,但需要完整扫描输入,RoboSpatial 同时支持 2D 和 3D
  • vs BLINK-Spatial: BLINK 仅包含 286 个样本的评测,RoboSpatial 是训练+评测一体的完整方案

评分

  • 新颖性: ⭐⭐⭐⭐ 参考坐标系和三类空间关系的定义很有见地,但整体方法偏数据工程
  • 实验充分度: ⭐⭐⭐⭐⭐ 覆盖多个 VLM、多个 benchmark、域外泛化、交叉环境迁移、真实机器人实验
  • 写作质量: ⭐⭐⭐⭐ 结构清晰,pipeline 描述详尽
  • 价值: ⭐⭐⭐⭐ 对机器人领域的 VLM 空间推理有直接推动作用,数据集开源价值很高

补充说明

  • 数据集规模:3M QA 对来自 5 个源数据集(ScanNet、Matterport3D、3RScan、HOPE、GraspNet-1B)
  • 评测中凸包判定标准偏严格,实际准确率可能高于报告值
  • 跨环境实验表明 indoor 和 tabletop 之间存在正向迁移效应,一起训练效果更好