跳转至

AntiGrounding: Lifting Robotic Actions into VLM Representation Space for Decision Making

会议: NeurIPS 2025
arXiv: 2506.12374
代码: 无
领域: 多模态VLM / 机器人操作
关键词: VLM, 反接地, 机器人操作, MPC, 结构化VQA, Real2Sim2Real

一句话总结

反转传统指令接地范式——不将 VLM 知识压缩到中间表征(符号技能或约束),而是将候选机器人轨迹渲染到多视角场景图像中,直接在 VLM 的原生高维表征空间中评估动作方案,实现零样本闭环机器人操作控制。

研究背景与动机

VLM 经过海量多模态数据训练后,内部隐式编码了丰富的空间理解、物理直觉和语义推理能力。然而当前将 VLM 应用于机器人操作的主流方法都面临一个共同困境:信息瓶颈

三类主流方法的局限

  1. 符号技能序列方法(如 Code as Policies、SayCan):将 VLM 输出转化为预定义技能的调用序列(如 pour(teapot, cup))。问题在于技能库是有限且离散的,无法表达连续的动作细节——比如倒茶需要精确的倾斜角度渐变和壶嘴对准,这些在被压缩为单个 pour 原语时完全丢失
  2. 3D 空间约束方法(如 Voxposer):将场景离散化为体素网格并计算值函数。体素化过程丢失精细几何和纹理信息,且分辨率受限于内存
  3. 关键点约束方法(如 Rekep):用少量关键点定义空间关系约束。依赖手动选择关键点,约束模板往往过于刚性,难以适应多样化的操作场景

所有这些方法的共同问题是:将 VLM 的高维表征空间压缩到低维中间表示,丢失了 VLM 内在编码的大量任务相关信息。

核心问题:能否反过来——不把 VLM 知识"接地"到动作空间,而把动作"提升"到 VLM 的表征空间中进行评估?

方法详解

整体框架

AntiGrounding 构建了一个 Real2Sim2Real 闭环控制系统:

  1. Real → Sim:3D 重建真实场景到仿真环境
  2. Sim 内的 MPC 循环:生成候选轨迹 → 多视角渲染 → VLM 结构化评估 → 选择最优轨迹
  3. Sim → Real:将在仿真中验证通过的动作同步到真实机器人执行

这种架构的优势是安全性——所有动作先在仿真中验证,只有可行方案才会被执行。

关键设计

  1. VLM 驱动的轨迹评估(结构化 VQA):将机器人决策问题转化为标准的视觉问答任务。在仿真环境中从多个视角渲染候选轨迹(用彩色曲线标注在场景图像上),然后向 VLM 提出一组结构化子问题进行评分。子问题覆盖五个维度:安全性(碰撞风险)、任务对齐(是否符合指令语义)、效率(路径长度和时间)、物理可行性(关节约束和负载),以及视角清晰度(当前视角是否足以判断轨迹质量)。每个维度有独立权重 \(w_k\),总分为加权求和。采用多 VLM agent 集成(MoA 框架),多个 VLM 独立评分后取均值,降低单个模型的随机波动。最终得分为:\(S_{j,t} = \frac{1}{M'}\sum_{m}\sum_{v} C'_{v,t}(\sum_k w_k \cdot s_{m,v,j,k,t})\)

  2. 自适应多视角融合与置信度加权:不同视角在不同操作阶段的信息量不同。定义视角置信度 \(C_{v,t} = \frac{q_{\text{view}}}{1 + \lambda_C \cdot \sigma_{v,t}}\),其中 \(q_{\text{view}}\) 是 VLM 对该视角清晰度的自评分,\(\sigma_{v,t}\) 是各 agent 在该视角上的评分方差(方差大说明判断不一致,信息不可靠)。高置信度视角获得更大权重。这种机制使系统自动聚焦于信息丰富的视角,回避模糊视角的干扰。

  3. 退火式轨迹生成与经验引导:在 MPC 的每个时间步,以当前末端执行器位置为中心,在球形区域内采样候选目标位置。采样半径和角度分散度按指数退火衰减:\(R_{t'} = R_{\min} + (R_0 - R_{\min}) \cdot e^{-\lambda_R t'}\)。初始大范围探索,后期精细搜索。结合历史 VLM 评分反馈,对高分方向施加采样偏置。检测到子任务转换信号时重置退火,重新进入探索阶段。

Real2Sim2Real 管道

构建高保真仿真环境的三个组件:

  • SPAR3D:从单张 RGB 图像重建物体 3D mesh(一次重建可跨场景复用)
  • SAM-6D:估计物体 6D 位姿,将 mesh 精确放置到仿真场景中
  • Scalable Real2Sim:通过机器人抓取和放置的交互数据估计物理参数(质量、惯性、摩擦力)

刚性耦合旋转模块

VLM 目前难以直接理解和推理 3D 旋转。该模块将 SAM-6D 估计的旋转矩阵转化为可视化的坐标轴标记,让 VLM 做轴对齐推理(哪个轴需要旋转、旋转到哪个方向),然后将推理结果映射回具体的旋转矩阵——桥接了 VLM 的语义推理和精确数值控制。

离线策略优化

累积执行数据(VLM 输入/输出、实际执行结果),由 meta-VLM 进行全局回顾审查,识别预测偏差模式(如哪些任务中安全性权重应该更高),迭代优化评估模板的子问题措辞和权重分配。

实验关键数据

主实验(8 类操作任务)

任务类别 具体任务 Code as Policies Voxposer Rekep AntiGrounding
精确放置 圆形胶带堆叠 1/10 3/10 5/10 6/10
精确放置 海绵堆叠 2/10 2/10 6/10 7/10
杂乱场景 玩具迷宫导航 1/10 3/10 3/10 5/10
杂乱场景 抽屉取物 1/10 4/10 4/10 6/10
多阶段 倒水 0/10 0/10 6/10 5/10
多阶段 拖鞋摆放 0/10 0/10 5/10 7/10
常识推理 垃圾分类 0/10 2/10 2/10 7/10
常识推理 形状匹配 0/10 1/10 2/10 4/10
总计 6.25% 18.75% 41.25% 57.5%

AntiGrounding 在 8 个任务中的 7 个上超过或持平所有基线。唯一落后的"倒水"任务(5/10 vs Rekep 6/10),因为该任务更依赖精确的预定义约束而非通用推理。

消融实验

变体 胶带堆叠 迷宫导航 倒水 垃圾分类
完整 AntiGrounding 56.67% 53.33% 46.67% 73.33%
去除结构化 VQA 43.33% 36.67% 20.00% 43.33%
去除多视角融合 26.67% 23.33% 23.33% 36.67%
去除 VLM 引导轨迹生成 3.33% 6.67% 0% 0%
去除刚性耦合旋转 13.33% 16.67% 0% 13.33%

VLM 引导的轨迹生成是最关键组件——去除后系统几乎完全失效,说明纯随机轨迹在 VLM 评估下基本无法找到可行方案。

离线策略优化效果

任务 无优化 有优化 提升
胶带堆叠 55.24% 67.02% +11.78%
迷宫导航 48.72% 72.85% +24.13%
倒水 40.21% 62.77% +22.56%
垃圾分类 68.49% 75.16% +6.67%

离线优化在复杂任务上提升显著,尤其是迷宫导航和倒水这类需要精细操作的任务。

关键发现

  • 在需要精确空间推理和常识理解的任务中(如垃圾分类——需要理解垃圾类别语义),AntiGrounding 优势最大
  • 系统误差分析显示 VLM 误差占主导(约 40%),其次是轨迹生成误差和 R2S2R 误差——VLM 空间推理能力仍是最大瓶颈
  • 多视角融合和结构化 VQA 各自贡献显著,两者的结合效果大于各自之和
  • 退火轨迹搜索比固定半径搜索在复杂场景中表现好得多

亮点与洞察

  • 逆向思维的范式创新:将动作"提升"到 VLM 空间而非将 VLM "接地"到动作空间——绕过了信息压缩瓶颈,使 VLM 在其"主场"(图像理解+问答)上工作
  • 将机器人决策转化为 VQA:候选轨迹可视化渲染到场景图像中 → VLM 看图答题选最优方案。这一转化使得任何 VLM 都可以零样本参与机器人决策
  • 多视角隐式 3D:不构建显式 3D 表征,而是通过多个 2D 视角让 VLM 隐式推理 3D 信息——"enough eyes see everything"
  • 完整 Real2Sim2Real 闭环:从场景重建到仿真验证再到真实执行的全自动化管道

局限与展望

  1. VLM 推理成本高:每个 MPC 步需多次调用 VLM(多视角 × 多 agent),实时性严重受限——实际部署中每步可能需要数秒
  2. 绝对成功率偏低:最高 7/10,整体 57.5%——距离可靠部署仍有较大差距
  3. 未与端到端 VLA 方法对比:缺少与 RT-2、Octo 等端到端视觉-语言-动作模型的对比,无法判断"反接地"是否优于端到端学习
  4. 依赖仿真精度:R2S2R 管道中的重建和物理参数估计误差会传导到最终性能
  5. 刚性耦合假设:假设末端执行器与抓取物体保持固定旋转关系,无法处理柔性物体或需要重新抓取调整的情况
  6. VLM 空间推理能力的天花板:当前 VLM 在精确空间关系推理上仍有明显不足,这是方法的根本瓶颈

相关工作与启发

  • Code as Policies:符号技能序列方法的代表,成功率仅 6.25%——暴露了预定义技能库的根本局限
  • Voxposer:3D 体素值图方法,信息损失严重,18.75% 成功率
  • Rekep:关键点约束方法,在预定义约束匹配好的任务(倒水)上有效,但常识推理弱
  • PIVOT:也将 VLM 用于轨迹评估,但使用单视角和简单提示;AntiGrounding 通过多视角融合和结构化 VQA 显著增强
  • 启发:"反接地"思想可推广到自动驾驶规划评估(将候选路径渲染到驾驶场景图像中让 VLM 评估)、建筑/室内设计方案评估等场景

评分

⭐⭐⭐⭐ (3.5/5)

理由:范式创新令人印象深刻——"反接地"的逆向思维打开了 VLM 用于机器人控制的新方向。完整的 R2S2R 管道和系统性的消融分析展示了扎实的工程。但绝对成功率偏低(57.5%)、缺少与端到端 VLA 的对比、以及高推理延迟限制了方法的实用性。核心瓶颈在于 VLM 的空间推理精度,这超出了方法本身能解决的范围。