AntiGrounding: Lifting Robotic Actions into VLM Representation Space for Decision Making¶
会议: NeurIPS 2025
arXiv: 2506.12374
代码: 无
领域: 多模态VLM / 机器人操作
关键词: VLM, 反接地, 机器人操作, MPC, 结构化VQA, Real2Sim2Real
一句话总结¶
反转传统指令接地范式——不将 VLM 知识压缩到中间表征(符号技能或约束),而是将候选机器人轨迹渲染到多视角场景图像中,直接在 VLM 的原生高维表征空间中评估动作方案,实现零样本闭环机器人操作控制。
研究背景与动机¶
VLM 经过海量多模态数据训练后,内部隐式编码了丰富的空间理解、物理直觉和语义推理能力。然而当前将 VLM 应用于机器人操作的主流方法都面临一个共同困境:信息瓶颈。
三类主流方法的局限:
- 符号技能序列方法(如 Code as Policies、SayCan):将 VLM 输出转化为预定义技能的调用序列(如
pour(teapot, cup))。问题在于技能库是有限且离散的,无法表达连续的动作细节——比如倒茶需要精确的倾斜角度渐变和壶嘴对准,这些在被压缩为单个pour原语时完全丢失 - 3D 空间约束方法(如 Voxposer):将场景离散化为体素网格并计算值函数。体素化过程丢失精细几何和纹理信息,且分辨率受限于内存
- 关键点约束方法(如 Rekep):用少量关键点定义空间关系约束。依赖手动选择关键点,约束模板往往过于刚性,难以适应多样化的操作场景
所有这些方法的共同问题是:将 VLM 的高维表征空间压缩到低维中间表示,丢失了 VLM 内在编码的大量任务相关信息。
核心问题:能否反过来——不把 VLM 知识"接地"到动作空间,而把动作"提升"到 VLM 的表征空间中进行评估?
方法详解¶
整体框架¶
AntiGrounding 构建了一个 Real2Sim2Real 闭环控制系统:
- Real → Sim:3D 重建真实场景到仿真环境
- Sim 内的 MPC 循环:生成候选轨迹 → 多视角渲染 → VLM 结构化评估 → 选择最优轨迹
- Sim → Real:将在仿真中验证通过的动作同步到真实机器人执行
这种架构的优势是安全性——所有动作先在仿真中验证,只有可行方案才会被执行。
关键设计¶
-
VLM 驱动的轨迹评估(结构化 VQA):将机器人决策问题转化为标准的视觉问答任务。在仿真环境中从多个视角渲染候选轨迹(用彩色曲线标注在场景图像上),然后向 VLM 提出一组结构化子问题进行评分。子问题覆盖五个维度:安全性(碰撞风险)、任务对齐(是否符合指令语义)、效率(路径长度和时间)、物理可行性(关节约束和负载),以及视角清晰度(当前视角是否足以判断轨迹质量)。每个维度有独立权重 \(w_k\),总分为加权求和。采用多 VLM agent 集成(MoA 框架),多个 VLM 独立评分后取均值,降低单个模型的随机波动。最终得分为:\(S_{j,t} = \frac{1}{M'}\sum_{m}\sum_{v} C'_{v,t}(\sum_k w_k \cdot s_{m,v,j,k,t})\)。
-
自适应多视角融合与置信度加权:不同视角在不同操作阶段的信息量不同。定义视角置信度 \(C_{v,t} = \frac{q_{\text{view}}}{1 + \lambda_C \cdot \sigma_{v,t}}\),其中 \(q_{\text{view}}\) 是 VLM 对该视角清晰度的自评分,\(\sigma_{v,t}\) 是各 agent 在该视角上的评分方差(方差大说明判断不一致,信息不可靠)。高置信度视角获得更大权重。这种机制使系统自动聚焦于信息丰富的视角,回避模糊视角的干扰。
-
退火式轨迹生成与经验引导:在 MPC 的每个时间步,以当前末端执行器位置为中心,在球形区域内采样候选目标位置。采样半径和角度分散度按指数退火衰减:\(R_{t'} = R_{\min} + (R_0 - R_{\min}) \cdot e^{-\lambda_R t'}\)。初始大范围探索,后期精细搜索。结合历史 VLM 评分反馈,对高分方向施加采样偏置。检测到子任务转换信号时重置退火,重新进入探索阶段。
Real2Sim2Real 管道¶
构建高保真仿真环境的三个组件:
- SPAR3D:从单张 RGB 图像重建物体 3D mesh(一次重建可跨场景复用)
- SAM-6D:估计物体 6D 位姿,将 mesh 精确放置到仿真场景中
- Scalable Real2Sim:通过机器人抓取和放置的交互数据估计物理参数(质量、惯性、摩擦力)
刚性耦合旋转模块¶
VLM 目前难以直接理解和推理 3D 旋转。该模块将 SAM-6D 估计的旋转矩阵转化为可视化的坐标轴标记,让 VLM 做轴对齐推理(哪个轴需要旋转、旋转到哪个方向),然后将推理结果映射回具体的旋转矩阵——桥接了 VLM 的语义推理和精确数值控制。
离线策略优化¶
累积执行数据(VLM 输入/输出、实际执行结果),由 meta-VLM 进行全局回顾审查,识别预测偏差模式(如哪些任务中安全性权重应该更高),迭代优化评估模板的子问题措辞和权重分配。
实验关键数据¶
主实验(8 类操作任务)¶
| 任务类别 | 具体任务 | Code as Policies | Voxposer | Rekep | AntiGrounding |
|---|---|---|---|---|---|
| 精确放置 | 圆形胶带堆叠 | 1/10 | 3/10 | 5/10 | 6/10 |
| 精确放置 | 海绵堆叠 | 2/10 | 2/10 | 6/10 | 7/10 |
| 杂乱场景 | 玩具迷宫导航 | 1/10 | 3/10 | 3/10 | 5/10 |
| 杂乱场景 | 抽屉取物 | 1/10 | 4/10 | 4/10 | 6/10 |
| 多阶段 | 倒水 | 0/10 | 0/10 | 6/10 | 5/10 |
| 多阶段 | 拖鞋摆放 | 0/10 | 0/10 | 5/10 | 7/10 |
| 常识推理 | 垃圾分类 | 0/10 | 2/10 | 2/10 | 7/10 |
| 常识推理 | 形状匹配 | 0/10 | 1/10 | 2/10 | 4/10 |
| 总计 | 6.25% | 18.75% | 41.25% | 57.5% |
AntiGrounding 在 8 个任务中的 7 个上超过或持平所有基线。唯一落后的"倒水"任务(5/10 vs Rekep 6/10),因为该任务更依赖精确的预定义约束而非通用推理。
消融实验¶
| 变体 | 胶带堆叠 | 迷宫导航 | 倒水 | 垃圾分类 |
|---|---|---|---|---|
| 完整 AntiGrounding | 56.67% | 53.33% | 46.67% | 73.33% |
| 去除结构化 VQA | 43.33% | 36.67% | 20.00% | 43.33% |
| 去除多视角融合 | 26.67% | 23.33% | 23.33% | 36.67% |
| 去除 VLM 引导轨迹生成 | 3.33% | 6.67% | 0% | 0% |
| 去除刚性耦合旋转 | 13.33% | 16.67% | 0% | 13.33% |
VLM 引导的轨迹生成是最关键组件——去除后系统几乎完全失效,说明纯随机轨迹在 VLM 评估下基本无法找到可行方案。
离线策略优化效果¶
| 任务 | 无优化 | 有优化 | 提升 |
|---|---|---|---|
| 胶带堆叠 | 55.24% | 67.02% | +11.78% |
| 迷宫导航 | 48.72% | 72.85% | +24.13% |
| 倒水 | 40.21% | 62.77% | +22.56% |
| 垃圾分类 | 68.49% | 75.16% | +6.67% |
离线优化在复杂任务上提升显著,尤其是迷宫导航和倒水这类需要精细操作的任务。
关键发现¶
- 在需要精确空间推理和常识理解的任务中(如垃圾分类——需要理解垃圾类别语义),AntiGrounding 优势最大
- 系统误差分析显示 VLM 误差占主导(约 40%),其次是轨迹生成误差和 R2S2R 误差——VLM 空间推理能力仍是最大瓶颈
- 多视角融合和结构化 VQA 各自贡献显著,两者的结合效果大于各自之和
- 退火轨迹搜索比固定半径搜索在复杂场景中表现好得多
亮点与洞察¶
- 逆向思维的范式创新:将动作"提升"到 VLM 空间而非将 VLM "接地"到动作空间——绕过了信息压缩瓶颈,使 VLM 在其"主场"(图像理解+问答)上工作
- 将机器人决策转化为 VQA:候选轨迹可视化渲染到场景图像中 → VLM 看图答题选最优方案。这一转化使得任何 VLM 都可以零样本参与机器人决策
- 多视角隐式 3D:不构建显式 3D 表征,而是通过多个 2D 视角让 VLM 隐式推理 3D 信息——"enough eyes see everything"
- 完整 Real2Sim2Real 闭环:从场景重建到仿真验证再到真实执行的全自动化管道
局限与展望¶
- VLM 推理成本高:每个 MPC 步需多次调用 VLM(多视角 × 多 agent),实时性严重受限——实际部署中每步可能需要数秒
- 绝对成功率偏低:最高 7/10,整体 57.5%——距离可靠部署仍有较大差距
- 未与端到端 VLA 方法对比:缺少与 RT-2、Octo 等端到端视觉-语言-动作模型的对比,无法判断"反接地"是否优于端到端学习
- 依赖仿真精度:R2S2R 管道中的重建和物理参数估计误差会传导到最终性能
- 刚性耦合假设:假设末端执行器与抓取物体保持固定旋转关系,无法处理柔性物体或需要重新抓取调整的情况
- VLM 空间推理能力的天花板:当前 VLM 在精确空间关系推理上仍有明显不足,这是方法的根本瓶颈
相关工作与启发¶
- Code as Policies:符号技能序列方法的代表,成功率仅 6.25%——暴露了预定义技能库的根本局限
- Voxposer:3D 体素值图方法,信息损失严重,18.75% 成功率
- Rekep:关键点约束方法,在预定义约束匹配好的任务(倒水)上有效,但常识推理弱
- PIVOT:也将 VLM 用于轨迹评估,但使用单视角和简单提示;AntiGrounding 通过多视角融合和结构化 VQA 显著增强
- 启发:"反接地"思想可推广到自动驾驶规划评估(将候选路径渲染到驾驶场景图像中让 VLM 评估)、建筑/室内设计方案评估等场景
评分¶
⭐⭐⭐⭐ (3.5/5)
理由:范式创新令人印象深刻——"反接地"的逆向思维打开了 VLM 用于机器人控制的新方向。完整的 R2S2R 管道和系统性的消融分析展示了扎实的工程。但绝对成功率偏低(57.5%)、缺少与端到端 VLA 的对比、以及高推理延迟限制了方法的实用性。核心瓶颈在于 VLM 的空间推理精度,这超出了方法本身能解决的范围。