Generalizable Coarse-to-Fine Robot Manipulation via Language-Aligned 3D Keypoints¶
会议: ICLR 2026
arXiv: 2509.23575
代码: 无
领域: 3D视觉 / 机器人操作
关键词: Robot Manipulation, Coarse-to-Fine Policy, 3D Keypoints, VLM Fine-tuning, Language Grounding
一句话总结¶
CLAP(Coarse-to-fine Language-Aligned manipulation Policy)通过任务分解、VLM微调的3D关键点预测和3D感知表征三个核心组件,实现了对新指令和新环境的强泛化能力,在 GemBench 上以 1/5 的训练数据比 SOTA 高出 12%。
研究背景与动机¶
分层的粗到细(Coarse-to-Fine)策略在机器人3D操作任务中展现了巨大潜力。其基本思路是:粗分支(coarse branch)预测一个感兴趣区域(Region of Interest),然后细分支(fine branch)在该区域内执行精确的动作预测。这种层次化设计显著提升了样本效率和操作精度。
然而即使引入了预训练模型增强,现有的分层策略仍然面临泛化性不足的核心问题:
对新指令的泛化: 当给出训练时未见过的自然语言指令时(如"拿起红色的杯子"→"把蓝色的碗放到架子上"),策略往往失败
对环境变化的泛化: 物体位置、外观、背景等变化都可能导致策略崩溃
样本效率: 现有方法通常需要大量演示轨迹来学习每个任务
这些问题的根源在于:粗分支缺乏对语言语义的深度理解,且表征缺乏3D空间的结构化信息。
方法详解¶
整体框架¶
CLAP 要解决的是粗到细策略「泛化性不足」这个老问题:粗分支看不懂语言、表征没有 3D 结构,于是换一句指令、挪一下物体就崩。它的做法是把粗分支彻底换血——原文称之为 coarse task planner,不再直接回归一个感兴趣区域,而是先用语言把任务拆开、再用 VLM 把语义落到 3D 空间上的一个点。整条流水线是这样转的:一条自然语言指令先被分解成有序的原子子任务,逐个子任务连同当前 RGB 观察一起喂给微调过的 VLM,预测出一个与该子任务语义对齐的 3D 关键点;细分支(fine-grained action predictor)再以这个关键点为锚,融合多视角 RGB-D 构建 3D 感知表征,输出末端执行器的精确动作。语言、语义、3D 空间三者在关键点这个中间表征上被串了起来。
%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
I["自然语言指令<br/>(如:把杯子放到盘子旁边)"] --> D["任务分解<br/>拆成有序原子子任务"]
D --> S["当前子任务文本<br/>+ 多视角 RGB-D 观察"]
S --> K["VLM 微调预测 3D 关键点<br/>语义对齐的空间锚点"]
K --> R["3D 感知表征<br/>以关键点为中心融合 RGB-D"]
R --> A["末端执行器动作"]
A -->|未完成则取下一子任务| S
关键设计¶
1. 任务分解:把「需要海量数据才能学会」的复杂指令拆成可复用的原子动作
直接把"把杯子放到盘子旁边"这种长指令端到端映射成动作,需要见过大量类似轨迹才行,这正是泛化差、样本贵的根源。CLAP 改用 LLM(或规则化方法)先把指令分解成有序步骤——上例会被拆成「接近杯子 → 抓取杯子 → 移动到盘子旁 → 放下杯子」。拆开之后每个子任务都更短、更原子,而且"抓取""放下"这类动作天然能跨场景复用:训练时在杯子上学过的"抓取",到了碗、盒子上仍然成立。这种组合性是泛化能力的第一个来源——策略不必为每条新指令从头学起,只要把已掌握的原子技能重新排列即可。
2. VLM 微调预测 3D 关键点:让粗分支真正「看懂」语言指的是物体的哪个部位
原来的粗分支只会给区域,并不理解语义;CLAP 把它换成一个在机器人操作数据上微调过的 VLM(如基于 CLIP 的模型)。它吃进 RGB 图像和子任务文本,吐出 3D 空间里的关键点坐标。关键之处在于这个点是语言对齐的——同一个红色杯子,"抓取"预测的点落在杯柄、"推动"则落在杯侧面,点的位置随指令语义而变。之所以微调而非端到端从零训,是因为 VLM 本身就带着"杯子长什么样""抓取该作用在哪"的视觉-语言先验,微调只是把这些先验搬到操作场景里,既省数据又保住了对新概念的泛化。输出选 3D 而非 2D 坐标,则是为了让关键点携带深度与空间关系,下游动作预测才有立足点。
3. 3D 感知表征:给细分支一个对视角和遮挡都鲁棒的空间推理基础
机器人操作本质是 3D 的——抓取姿态、放置位置都定义在三维空间里,纯 2D 特征一旦遇到视角变化或物体遮挡就失稳。CLAP 让细分支不再直接看原始图像,而是结合多视角 RGB 与深度信息,以上一步预测的关键点为中心构建 3D 局部特征,动作回归就建立在这份 3D 表征之上。把感受野收束到关键点附近的局部 3D 区域,既保留了精确操作所需的几何细节,又天然对全局布局的变化不敏感,这是泛化能力的第三个来源。
一个完整示例¶
以"把杯子放到盘子旁边"走一遍:指令先被任务分解模块拆成 4 个子任务。执行到「抓取杯子」这一步时,当前 RGB 观察和文本"抓取杯子"一起进入微调 VLM,因为语义是"抓取",预测的 3D 关键点落在杯柄上;细分支随即以杯柄这个点为中心,融合多视角 RGB + 深度构建 3D 局部表征,回归出末端执行器的接近与闭合动作。等到「放下杯子」子任务,同样的观察换成文本"放到盘子旁",VLM 预测的关键点转移到盘子边缘的目标位置,细分支再在那里输出放置动作。整个过程中,换的是子任务文本,关键点就跟着语义在 3D 空间里移动,动作也随之改变——这正是它换一句新指令仍能正确执行的原因。
损失函数 / 训练策略¶
VLM 的关键点预测用回归损失(L1 或 L2 距离)把预测的 3D 坐标对齐到标注关键点;细分支则用行为克隆(Behavior Cloning),在关键点邻域内学从 3D 表征到末端执行器动作的映射。得益于粗分支大量复用 VLM 的预训练先验,策略学习的数据需求被压得很低——真实机器人实验中仅 10 条演示即可训练出可用策略,远少于常规方法所需的数百条。
实验关键数据¶
实验设置¶
- 仿真基准:GemBench(专为泛化评估设计的操作基准)
- 真实实验:真实机器人平台,10条演示
- 评价指标:操作成功率
- 泛化维度:新指令、新物体外观、新环境布局
主实验¶
| 方法 | GemBench 平均成功率 | 训练轨迹数 | 说明 |
|---|---|---|---|
| SOTA(基线最优) | ~X% | ~5N | 需要大量演示 |
| CLAP | X + 12% | N(1/5) | 显著更高成功率 + 更少数据 |
CLAP 在 GemBench 上比 SOTA 方法平均成功率高出 12 个百分点,同时仅使用 1/5 的训练轨迹。
真实机器人实验¶
| 设置 | 成功率 | 说明 |
|---|---|---|
| 训练场景 | 高成功率 | 10条演示即可学会 |
| 新指令 | 成功泛化 | 语言对齐的关键点正确识别新目标 |
| 新环境 | 成功泛化 | 3D表征对布局变化鲁棒 |
消融实验¶
| 配置 | 关键指标 | 说明 |
|---|---|---|
| 无任务分解 | 成功率下降 | 复杂指令直接处理效果差 |
| 无VLM微调(直接用预训练VLM) | 成功率下降 | 预训练VLM对操作场景不够适配 |
| 2D表征替代3D表征 | 成功率下降 | 缺乏深度信息影响精确操作 |
关键发现¶
- 三个组件缺一不可: 任务分解、VLM 微调、3D 表征各自贡献了不同维度的泛化能力
- 极低数据需求: 10条演示在真实场景即可工作,这对实际部署非常有价值
- 语言对齐是关键: 关键点不仅是空间位置,还携带语义信息——同一物体对不同指令产生不同关键点
亮点与洞察¶
- "少量数据+强泛化"的理想组合: 通过充分利用预训练 VLM 的先验知识,将样本需求压到极低水平同时保持强泛化
- 层次化设计清晰: 粗分支(VLM 关键点预测)和细分支(3D 局部动作预测)分工明确,各司其职
- 语言与3D空间的桥接: 通过 VLM 微调将语言语义映射到 3D 关键点,是连接 NLP 和机器人操作的有效桥梁
- 实用导向: 10条演示即可部署的特性使得该方法具有很高的实际应用价值
局限与展望¶
- 任务分解的鲁棒性: 如果 LLM 的分解不准确(如遗漏关键步骤或顺序错误),整个流水线会失败
- 关键点的表达能力: 单个 3D 关键点可能不足以描述复杂操作(如需要双手协调、多点接触的任务)
- VLM 微调数据: 虽然策略学习数据需求低,但 VLM 微调可能仍需可观的标注数据
- 动态环境: 当前方法似乎面向静态或缓变环境,对快速动态场景(如移动物体)的适应性未知
- 长horizon任务: 任务分解产生的子任务序列如果很长,误差累积可能成为问题
- 开放词汇的极限: 虽然对新指令有泛化,但对全新概念类别(训练时完全未见的物体类型)的泛化边界未被充分探索
相关工作与启发¶
- 与 PerAct/RVT 的关系: PerAct 和 RVT 使用体素化3D表征进行操作,但缺乏语言引导的关键点机制。CLAP 的粗到细设计是对这类方法的有效补充。
- 与 SayCan/Code-as-Policies 的关系: 这些方法用 LLM 做任务规划但不涉及底层操作策略的泛化。CLAP 的任务分解类似但更关注执行层面。
- VLM 在机器人中的应用趋势: RT-2、Octo 等工作也在将 VLM 用于机器人,但多为端到端方式。CLAP 的层次化方式(VLM → 关键点 → 局部策略)提供了一种更可控且数据高效的替代方案。
- 3D 关键点的普适性: 关键点作为操作的中间表征具有很好的通用性,未来可以探索更丰富的关键点表示(如带方向的关键点、关键点图等)。
评分¶
- 新颖性: ⭐⭐⭐⭐
- 实验充分度: ⭐⭐⭐⭐
- 写作质量: ⭐⭐⭐⭐
- 价值: ⭐⭐⭐⭐⭐