AntiGrounding: Lifting Robotic Actions into VLM Representation Space for Decision Making¶

会议: NeurIPS 2025
arXiv: 2506.12374
代码: 无
领域: 多模态VLM / 机器人操作
关键词: VLM, 反接地, 机器人操作, MPC, 结构化VQA, Real2Sim2Real

一句话总结¶

反转传统指令接地范式——不将 VLM 知识压缩到中间表征（符号技能或约束），而是将候选机器人轨迹渲染到多视角场景图像中，直接在 VLM 的原生高维表征空间中评估动作方案，实现零样本闭环机器人操作控制。

研究背景与动机¶

VLM 经过海量多模态数据训练后，内部隐式编码了丰富的空间理解、物理直觉和语义推理能力。然而当前将 VLM 应用于机器人操作的主流方法都面临一个共同困境：信息瓶颈。

三类主流方法的局限：

符号技能序列方法（如 Code as Policies、SayCan）：将 VLM 输出转化为预定义技能的调用序列（如 pour(teapot, cup)）。问题在于技能库是有限且离散的，无法表达连续的动作细节——比如倒茶需要精确的倾斜角度渐变和壶嘴对准，这些在被压缩为单个 pour 原语时完全丢失
3D 空间约束方法（如 Voxposer）：将场景离散化为体素网格并计算值函数。体素化过程丢失精细几何和纹理信息，且分辨率受限于内存
关键点约束方法（如 Rekep）：用少量关键点定义空间关系约束。依赖手动选择关键点，约束模板往往过于刚性，难以适应多样化的操作场景

所有这些方法的共同问题是：将 VLM 的高维表征空间压缩到低维中间表示，丢失了 VLM 内在编码的大量任务相关信息。

核心问题：能否反过来——不把 VLM 知识"接地"到动作空间，而把动作"提升"到 VLM 的表征空间中进行评估？

方法详解¶

整体框架¶

AntiGrounding 构建了一个 Real2Sim2Real 闭环控制系统：

Real → Sim：3D 重建真实场景到仿真环境
Sim 内的 MPC 循环：生成候选轨迹 → 多视角渲染 → VLM 结构化评估 → 选择最优轨迹
Sim → Real：将在仿真中验证通过的动作同步到真实机器人执行

这种架构的优势是安全性——所有动作先在仿真中验证，只有可行方案才会被执行。

关键设计¶

VLM 驱动的轨迹评估（结构化 VQA）：将机器人决策问题转化为标准的视觉问答任务。在仿真环境中从多个视角渲染候选轨迹（用彩色曲线标注在场景图像上），然后向 VLM 提出一组结构化子问题进行评分。子问题覆盖五个维度：安全性（碰撞风险）、任务对齐（是否符合指令语义）、效率（路径长度和时间）、物理可行性（关节约束和负载），以及视角清晰度（当前视角是否足以判断轨迹质量）。每个维度有独立权重 \(w_k\)，总分为加权求和。采用多 VLM agent 集成（MoA 框架），多个 VLM 独立评分后取均值，降低单个模型的随机波动。最终得分为：\(S_{j,t} = \frac{1}{M'}\sum_{m}\sum_{v} C'_{v,t}(\sum_k w_k \cdot s_{m,v,j,k,t})\)。
自适应多视角融合与置信度加权：不同视角在不同操作阶段的信息量不同。定义视角置信度 \(C_{v,t} = \frac{q_{\text{view}}}{1 + \lambda_C \cdot \sigma_{v,t}}\)，其中 \(q_{\text{view}}\) 是 VLM 对该视角清晰度的自评分，\(\sigma_{v,t}\) 是各 agent 在该视角上的评分方差（方差大说明判断不一致，信息不可靠）。高置信度视角获得更大权重。这种机制使系统自动聚焦于信息丰富的视角，回避模糊视角的干扰。
退火式轨迹生成与经验引导：在 MPC 的每个时间步，以当前末端执行器位置为中心，在球形区域内采样候选目标位置。采样半径和角度分散度按指数退火衰减：\(R_{t'} = R_{\min} + (R_0 - R_{\min}) \cdot e^{-\lambda_R t'}\)。初始大范围探索，后期精细搜索。结合历史 VLM 评分反馈，对高分方向施加采样偏置。检测到子任务转换信号时重置退火，重新进入探索阶段。

Real2Sim2Real 管道¶

构建高保真仿真环境的三个组件：

SPAR3D：从单张 RGB 图像重建物体 3D mesh（一次重建可跨场景复用）
SAM-6D：估计物体 6D 位姿，将 mesh 精确放置到仿真场景中
Scalable Real2Sim：通过机器人抓取和放置的交互数据估计物理参数（质量、惯性、摩擦力）

刚性耦合旋转模块¶

VLM 目前难以直接理解和推理 3D 旋转。该模块将 SAM-6D 估计的旋转矩阵转化为可视化的坐标轴标记，让 VLM 做轴对齐推理（哪个轴需要旋转、旋转到哪个方向），然后将推理结果映射回具体的旋转矩阵——桥接了 VLM 的语义推理和精确数值控制。

离线策略优化¶

累积执行数据（VLM 输入/输出、实际执行结果），由 meta-VLM 进行全局回顾审查，识别预测偏差模式（如哪些任务中安全性权重应该更高），迭代优化评估模板的子问题措辞和权重分配。

实验关键数据¶

主实验（8 类操作任务）¶

任务类别	具体任务	Code as Policies	Voxposer	Rekep	AntiGrounding
精确放置	圆形胶带堆叠	1/10	3/10	5/10	6/10
精确放置	海绵堆叠	2/10	2/10	6/10	7/10
杂乱场景	玩具迷宫导航	1/10	3/10	3/10	5/10
杂乱场景	抽屉取物	1/10	4/10	4/10	6/10
多阶段	倒水	0/10	0/10	6/10	5/10
多阶段	拖鞋摆放	0/10	0/10	5/10	7/10
常识推理	垃圾分类	0/10	2/10	2/10	7/10
常识推理	形状匹配	0/10	1/10	2/10	4/10
总计		6.25%	18.75%	41.25%	57.5%

AntiGrounding 在 8 个任务中的 7 个上超过或持平所有基线。唯一落后的"倒水"任务（5/10 vs Rekep 6/10），因为该任务更依赖精确的预定义约束而非通用推理。

消融实验¶

变体	胶带堆叠	迷宫导航	倒水	垃圾分类
完整 AntiGrounding	56.67%	53.33%	46.67%	73.33%
去除结构化 VQA	43.33%	36.67%	20.00%	43.33%
去除多视角融合	26.67%	23.33%	23.33%	36.67%
去除 VLM 引导轨迹生成	3.33%	6.67%	0%	0%
去除刚性耦合旋转	13.33%	16.67%	0%	13.33%

VLM 引导的轨迹生成是最关键组件——去除后系统几乎完全失效，说明纯随机轨迹在 VLM 评估下基本无法找到可行方案。

离线策略优化效果¶

任务	无优化	有优化	提升
胶带堆叠	55.24%	67.02%	+11.78%
迷宫导航	48.72%	72.85%	+24.13%
倒水	40.21%	62.77%	+22.56%
垃圾分类	68.49%	75.16%	+6.67%

离线优化在复杂任务上提升显著，尤其是迷宫导航和倒水这类需要精细操作的任务。

关键发现¶

在需要精确空间推理和常识理解的任务中（如垃圾分类——需要理解垃圾类别语义），AntiGrounding 优势最大
系统误差分析显示 VLM 误差占主导（约 40%），其次是轨迹生成误差和 R2S2R 误差——VLM 空间推理能力仍是最大瓶颈
多视角融合和结构化 VQA 各自贡献显著，两者的结合效果大于各自之和
退火轨迹搜索比固定半径搜索在复杂场景中表现好得多

亮点与洞察¶

逆向思维的范式创新：将动作"提升"到 VLM 空间而非将 VLM "接地"到动作空间——绕过了信息压缩瓶颈，使 VLM 在其"主场"（图像理解+问答）上工作
将机器人决策转化为 VQA：候选轨迹可视化渲染到场景图像中 → VLM 看图答题选最优方案。这一转化使得任何 VLM 都可以零样本参与机器人决策
多视角隐式 3D：不构建显式 3D 表征，而是通过多个 2D 视角让 VLM 隐式推理 3D 信息——"enough eyes see everything"
完整 Real2Sim2Real 闭环：从场景重建到仿真验证再到真实执行的全自动化管道

局限与展望¶

VLM 推理成本高：每个 MPC 步需多次调用 VLM（多视角 × 多 agent），实时性严重受限——实际部署中每步可能需要数秒
绝对成功率偏低：最高 7/10，整体 57.5%——距离可靠部署仍有较大差距
未与端到端 VLA 方法对比：缺少与 RT-2、Octo 等端到端视觉-语言-动作模型的对比，无法判断"反接地"是否优于端到端学习
依赖仿真精度：R2S2R 管道中的重建和物理参数估计误差会传导到最终性能
刚性耦合假设：假设末端执行器与抓取物体保持固定旋转关系，无法处理柔性物体或需要重新抓取调整的情况
VLM 空间推理能力的天花板：当前 VLM 在精确空间关系推理上仍有明显不足，这是方法的根本瓶颈

评分¶

⭐⭐⭐⭐ (3.5/5)

理由：范式创新令人印象深刻——"反接地"的逆向思维打开了 VLM 用于机器人控制的新方向。完整的 R2S2R 管道和系统性的消融分析展示了扎实的工程。但绝对成功率偏低（57.5%）、缺少与端到端 VLA 的对比、以及高推理延迟限制了方法的实用性。核心瓶颈在于 VLM 的空间推理精度，这超出了方法本身能解决的范围。