GAP: Action-Geometry Prediction with 3D Geometric Prior for Bimanual Manipulation¶

会议: CVPR2026
arXiv: 2602.23814
代码: https://github.com/Chongyang-99/GAP.git
领域: 3D视觉
关键词: 双臂操控, 3D几何先验, 扩散策略, 点云预测, 模仿学习

一句话总结¶

GAP利用预训练3D几何基础模型（π³）提取3D特征，融合2D语义和本体感知，通过条件扩散联合预测未来动作序列和未来3D pointmap，在RoboTwin 2.0和真实双臂实验中达到SOTA。

研究背景与动机¶

领域现状：双臂操控（bimanual manipulation）需要策略同时生成两只机械臂的协调动作，涉及精密装配、形变物体操作和杂乱环境交互。当前主流方法包括：基于2D的ACT（action chunking + DETR Transformer）、扩散策略DP，以及引入3D的DP3（点云输入）。

现有痛点： - 2D方法缺乏空间感知：ACT、DP等方法依赖2D特征，无法显式推理3D空间关系、遮挡和接触。在需要精确空间推理的双臂任务中表现不佳 - 3D方法依赖显式点云：DP3等需要深度相机生成点云，但真实世界中高质量点云获取需要精确标定、对噪声和遮挡敏感。2D→3D提升方法（如back-projection）分辨率低、工程开销大 - 缺乏预测性3D推理：现有方法只感知当前3D状态，不预测动作执行后的3D变化，限制了长horizon规划能力

核心矛盾：双臂操控需要3D感知能力来推理空间关系，但显式获取3D信息（点云）在真实场景中不够可靠。同时，仅感知当前状态不足以支持需要预测未来几何变化的复杂操控。

本文目标：能否直接利用3D几何基础模型从RGB图像获取隐式3D特征，绕过显式点云管线？能否通过联合预测未来3D结构来增强策略的空间理解和长horizon规划？

切入角度：最近3D几何基础模型（如DUSt3R、VGGT、π³）能从RGB图像快速、鲁棒地重建稠密3D结构。作者将π³作为感知backbone，其latent特征天然包含丰富的3D几何信息——不需要显式生成点云，直接用latent做策略条件。更进一步，通过预测"未来3D latent"迫使模型学习3D-aware的前瞻推理。

核心 idea：用预训练3D几何基础模型的latent作为3D先验，联合去噪未来动作和未来3D pointmap来实现RGB-only的3D-aware双臂操控策略。

方法详解¶

整体框架¶

输入：5帧历史RGB帧 \(V\)、当前帧 \(I_t\)、当前本体感知 \(p_t \in \mathbb{R}^{14}\)（双臂各6关节角+1 gripper状态）。输出：未来N步双臂动作序列 \(a_{t:t+N} \in \mathbb{R}^{N \times 14}\) 和未来第N步的3D pointmap \(P_{t+N} \in \mathbb{R}^{H \times W \times 4}\)。

Pipeline分四阶段：(1) 三路并行编码器提取特征 → (2) Transformer融合为统一上下文 → (3) 条件扩散解码器联合去噪 → (4) 分别解码为动作和pointmap。

关键设计¶

Geometry 3D Encoder（π³编码器）
- 功能：从时序RGB帧中提取包含3D几何信息的特征
- 核心思路：从历史帧 \(V\) 中均匀采样5帧，与当前帧 \(I_t\) 拼成6帧序列。送入π³编码器（多视图几何模型），每帧被patchify为 \(14 \times 14\) 个patch。提取backbone最后两层特征拼接得到1024维的3D几何特征 \(\mathbf{f}_{3d}\)。注意：只用π³的encoder部分，不经过decoding heads
- 设计动机：π³是预训练的3D几何基础模型，其latent天然编码了多视图/多帧的3D几何关系。与显式点云相比，latent特征更鲁棒（不受标定误差、深度噪声影响），且是feed-forward的
Semantics 2D Encoder（DINOv3编码器）
- 功能：从当前帧提取高层语义特征
- 核心思路：当前帧 \(I_t\) 通过DINOv3编码器，划分为 \(16 \times 16\) 个patch，得到1024维语义特征 \(\mathbf{f}_{2d}\)
- 设计动机：3D几何特征捕捉的是空间结构，但缺乏任务相关的高层语义理解。DINOv3提供物体级别的语义先验（如识别哪个物体需要操作），与几何特征互补
State Encoder（MLP编码器）
- 功能：编码机器人本体感知状态
- 核心思路：简单MLP将 \(p_t \in \mathbb{R}^{14}\) 映射到1024维嵌入 \(\mathbf{f}_p\)
Semantic-Geometric Fusion（语义-几何融合）
- 功能：将三路异构特征融合为统一的上下文表示
- 核心思路：三个1024维特征 \([\mathbf{f}_{3d}, \mathbf{f}_{2d}, \mathbf{f}_p]\) 沿token维度拼接，送入4层DETR encoder做深度融合。输出为统一的Semantic-Geometric Fused Context \(\mathbf{f}_c\)
- 设计动机：DETR encoder的自注意力机制让三种模态的特征充分交互——3D几何特征告诉语义特征"物体在哪里"，语义特征告诉几何特征"哪个物体重要"，本体感知约束"当前机器人能做什么"
Joint Diffusion Decoder（联合扩散解码器）
- 功能：以 \(\mathbf{f}_c\) 为条件，联合去噪生成未来动作序列和未来3D latent
- 核心思路：采用DETR decoder结构实现条件扩散。训练时，前向过程给clean target \(x_0 = \{a_{t:t+N}, \mathbf{f}_{t+N}, P_{t+N}\}\) 加高斯噪声得到 \(x_k\)；反向过程中decoder预测clean target \(\hat{x}_0\)。损失函数为L1损失： \(\mathcal{L} = \mathbb{E}_{k, x_0, \epsilon}\left[\|{\hat{a}_{t:t+N}} - a_{t:t+N}\|_1 + \lambda\|\hat{\mathbf{f}}_{t+N} - \mathbf{f}_{t+N}\|_1 + \gamma\|\hat{P}_{t+N} - P_{t+N}\|_1\right]\)
- 两种预测目标：
  - Future Action Chunk: \(\mathbb{R}^{N \times 14}\)，N步双臂动作（6-DoF关节+1-DoF gripper × 2臂）
  - Future 3D Pointmap Latent: \(\mathbf{f}_{t+N} \in \mathbb{R}^{H/14 \times W/14 \times 1024}\)，由π³的dense head解码为 \(P_{t+N} \in \mathbb{R}^{H \times W \times 4}\)（x,y,z + confidence）
- 设计动机：联合预测未来3D结构迫使模型学会"如果执行这些动作，3D场景会变成什么样"——这是一种隐式的world model。只监督horizon \(N\) 处的最终状态（而非逐步预测），强制模型推理整个动作序列的累积效果，增强长horizon规划
Pseudo-GT生成策略
- 功能：为3D latent目标生成稳定的监督信号
- 核心思路：不能简单地对单帧调用π³（噪声大、不稳定）。对数据集中每帧 \(s\)，均匀采样 \(n\) 个历史帧组成时序窗口 \(\{V, I_s\}\) 送入π³ encoder，只保留 \(I_s\) 对应的latent \(\mathbf{f}_s\)。训练时target设为 \(\mathbf{f}_{t+N}\)
- 设计动机：时序窗口的联合处理大幅稳定了3D latent特征质量

损失函数 / 训练策略¶

训练采用标准扩散框架，按ACT风格的action chunking策略
2D方法（含本文）训练200-600 epochs，3D方法3000 epochs，batch size 32
100条专家demo（仿真）或50条teleoperation demo（真实）
推理时从高斯噪声出发，迭代 \(K\) 步去噪，3D pointmap解码可选择性跳过以提高效率

实验关键数据¶

主实验 - RoboTwin 2.0 仿真（三类任务平均成功率%）¶

方法	Dominant-select (16任务)	Sync-bimanual (8任务)	Seq-coordinate (8任务)
ACT (2D)	34.1	32.4	29.4
DP (2D)	44.4	37.1	33.6
DP3 (3D点云)	61.2	42.0	42.0
G3Flow (3D+语义)	54.3	43.2	40.5
RDT (1.2B参数)	49.5	44.6	41.2
Xu et al. (2D+预测)	55.1	47.5	44.9
GAP (Ours)	63.2	51.3	50.4

消融实验（4任务平均成功率%）¶

2D Semantic	3D Geometric	Geometric Imagination	成功率 Avg.
✓	✓	✓	25.1
✗	✓	✓	24.4
✓	✓	✗	23.6
✓	✗	✗	21.0

真实世界实验（成功率%，20 trials/task）¶

任务	ACT	DP	Xu et al.	Ours
Place Empty Cup	70	70	75	80
Place Dual Shoes	0	10	15	20
Hanging Mug	0	0	5	20
Scan Object	25	20	35	40
平均	23.8	25	32.5	40

关键发现¶

3D几何感知极其重要：去掉3D Geometric Module + Geometric Imagination后成功率从25.1%降到21.0%（-16.3%相对下降），是三个模块中影响最大的
Geometric Imagination（预测未来3D）是核心创新：单独去掉它使成功率从25.1%降到23.6%（-6.0%），说明预测未来3D结构确实帮助策略学到更好的3D理解
仅用RGB输入超越显式点云方法：GAP（RGB only）在Dominant-select任务上超越DP3（63.2% vs 61.2%），证明预训练3D基础模型的latent可以替代显式点云
同步双臂任务优势明显：在Place Dual Shoes上GAP达43.3%，DP3仅17.7%，说明GAP对双臂协调推理更好
数据效率优异：低数据量（10-20 demo）时，GAP利用预训练特征已有明显学习信号，而DP完全失败（0%成功率）
真实世界Hanging Mug：ACT和DP完全失败（0%），GAP达20%——该任务需要精确3D几何推理来定位杯耳和挂钩的空间关系

亮点与洞察¶

将3D基础模型的latent直接作为策略条件是一个优雅的范式：绕过了点云获取的工程复杂性，π³的latent本身就编码了丰富的3D几何，这一思路可以推广到任何需要3D感知的机器人任务
联合预测动作和未来3D结构是隐式的world model：不需要单独训练world model，通过扩散过程中的联合去噪自然地将3D预测能力注入策略网络。只预测horizon末尾的3D状态而非逐步预测，巧妙地降低了计算和监督复杂度
语义-几何融合用DETR encoder：简单但有效，让不同模态（3D几何、2D语义、本体感知）通过自注意力充分交互，避免了手工设计融合方式
Pseudo-GT生成策略（时序窗口稳定π³输出）可以迁移到任何使用3D基础模型做监督的下游任务

局限与展望¶

单步预测horizon：只预测horizon \(N\) 处的3D状态，缺乏multi-step 3D trajectory的预测。对超长horizon任务可能不足——可扩展为预测多个未来时间步的3D结构
缺乏持久3D记忆：无法跨episode积累3D知识，每次推理独立处理当前窗口。可引入persistent 3D memory（借鉴Wang et al.的continuous 3D perception model）
真实世界成功率仍较低：Hanging Mug最高也只有20%，说明复杂精密操控仍有很大进步空间。可能需要更多demo数据或更好的sim-to-real transfer
推理效率：π³和DINOv3两个大型backbone + 扩散迭代去噪，计算开销较大。论文未报告推理时间，实际部署可能需要蒸馏或加速
泛化到未见任务/物体：实验仅在RoboTwin benchmark已知任务上评估，未测试zero-shot泛化

评分¶

新颖性: ⭐⭐⭐⭐ 首次将3D几何基础模型的latent作为操控策略的核心感知先验+联合预测未来3D结构
实验充分度: ⭐⭐⭐⭐⭐ 仿真32个任务三类别、6个baseline、消融实验、数据效率分析、真实世界4任务验证
写作质量: ⭐⭐⭐⭐ 动机清晰、框架图直观，但某些实验细节需对照补充材料
价值: ⭐⭐⭐⭐ 在双臂操控中引入3D基础模型是重要方向，联合3D预测的paradigm有广泛影响力