Lift3D Foundation Policy: Lifting 2D Large-Scale Pretrained Models for Robust 3D Robotic Manipulation¶
会议: CVPR 2025
arXiv: 2411.18623
代码: https://lift3d-web.github.io
领域: 3D视觉/机器人操控
关键词: 3D机器人操控, 2D基础模型, 点云编码, 位置嵌入提升, 隐式3D表示
一句话总结¶
Lift3D提出了一个两阶段框架,先通过任务感知MAE重建深度信息增强2D基础模型的隐式3D感知能力,再通过将3D点云投影到虚拟平面建立与2D位置嵌入的映射关系来直接让2D模型编码点云数据,在MetaWorld上平均成功率达83.9%(超越前SOTA DP3的65.3%达18.6个百分点)。
研究背景与动机¶
领域现状:视觉机器人操控策略需要理解3D场景才能完成复杂操控任务。目前方法分两类:一类直接编码点云数据(PointNet++、PointNext等),但缺乏大规模机器人3D数据和基础模型,泛化能力受限;另一类做模态转换——将3D点云投影为多视图图像输入2D模型,或将2D特征提升到3D空间,但模态转换不可避免地丢失空间信息。
现有痛点:直接训练3D策略模型面临数据不足和计算成本高的问题;而模态转换方法在3D→2D或2D→3D的过程中会丢失空间几何信息,影响机器人对3D空间关系的理解。现有2D基础模型(CLIP、DINOV2)虽然有强大的预训练知识,但不具备3D空间感知能力。
核心矛盾:大规模预训练知识存在于2D模型中,而机器人操控需要3D空间理解——如何在不丢失空间信息的前提下将2D预训练知识用于3D操控?
本文目标 (1) 如何增强2D基础模型的3D空间感知能力;(2) 如何让2D模型直接编码3D点云数据而不做模态转换;(3) 构建一个利用大规模预训练知识的鲁棒3D操控策略。
切入角度:作者观察到Transformer的位置嵌入(PE)是连接2D和3D的关键桥梁——如果能建立3D点与2D PE之间的映射关系,就能让2D模型直接理解3D输入。先用MAE重建深度赋予模型隐式3D感知,再用PE映射实现显式3D编码。
核心 idea:通过将3D点投影到多个虚拟平面获取预训练2D位置嵌入的映射,让2D基础模型无需模态转换即可直接编码点云数据进行操控策略学习。
方法详解¶
整体框架¶
两阶段训练框架。Stage 1(隐式3D表示):使用任务感知MAE对2D基础模型进行自监督微调。利用CLIP提取任务文本描述的注意力图指导masking策略,遮挡任务相关区域后让模型重建深度信息,同时通过蒸馏损失保留预训练知识。Stage 2(显式3D表示):将点云通过轻量3D tokenizer编码为128个token,投影到6个虚拟平面建立与原始2D PE的映射,平均多个平面的PE得到统一3D位置指示器(PE_3D),加在3D token上送入2D基础模型编码,最后通过3层MLP策略头预测7-DoF末端执行器位姿。
关键设计¶
-
任务感知MAE (Task-aware Masked Autoencoder):
- 功能:增强2D基础模型的隐式3D空间感知能力
- 核心思路:利用CLIP根据任务文本描述(如"Robot arm take the red bowl")生成图像注意力图,用阈值 \(\theta=0.5\) 过滤出任务相关的affordance区域进行重点遮挡(保持75%总遮挡率)。重建目标是深度信息而非RGB,因为消融实验证明深度重建比RGB重建对操控任务更有价值(+6 vs +1)。同时添加蒸馏损失约束可见token输出与原始预训练模型保持一致,防止灾难性遗忘
- 设计动机:传统MAE随机遮挡可能大量遮盖无关背景,效率低;聚焦任务affordance区域可以更高效地学习操控相关的几何信息
-
2D模型提升策略 (2D Model-Lifting Strategy):
- 功能:让2D基础模型直接编码3D点云数据
- 核心思路:将输入点云通过轻量3D tokenizer(FPS下采样+KNN局部聚合+线性层)编码为128个3D token。然后将每个3D token的坐标投影到6个虚拟平面(立方体投影),得到对应的6个2D坐标。通过这些坐标查找原始预训练2D PE,取平均得到统一的3D位置嵌入:\(PE_{3D} = \frac{1}{n}\sum_{j=1}^{n} PE_{2D}(C_{2D}^{ij})\)。这样投影过程仅用于建立位置映射,不用于构造模型输入,避免了模态转换
- 设计动机:引入全新的3D PE会与预训练2D模型产生语义不匹配;复用原始预训练PE能最大限度保留大规模预训练知识
-
蒸馏+冻结训练策略:
- 功能:在微调过程中保留2D基础模型的预训练知识
- 核心思路:Stage 1用L1蒸馏损失约束微调后模型的可见token输出与原始模型一致。Stage 2冻结2D基础模型参数,只更新3D tokenizer、注入的adapter和策略头。消融显示蒸馏带来+8%成功率提升
- 设计动机:避免在小规模机器人数据上微调时灾难性遗忘大规模预训练知识
损失函数 / 训练策略¶
Stage 1:\(\mathcal{L}_{\text{implicit}} = \|2D_e(x_{\text{vis}}) - 2D_e^{\text{pre}}(x_{\text{vis}})\|_1 + \|2D_d(\cdot) - D_{\text{target}}\|_1\)(蒸馏+深度重建)。Stage 2:\(\mathcal{L}_{\text{explicit}} = \text{MSE}(T) + (1 - \cos(R)) + \text{BCE}(G)\)(平移MSE+旋转余弦+夹爪二分类)。Stage 1在100万样本上自监督训练,Stage 2在25-100 demo上进行模仿学习。
实验关键数据¶
主实验¶
| 方法 | 类型 | 输入 | MetaWorld Mean S.R. | Adroit Mean S.R. |
|---|---|---|---|---|
| CLIP | 2D Rep. | RGB | 65.3 | 84.0 |
| R3M | 2D Rep. | RGB | 75.1 | 85.3 |
| PointNet++ | 3D Rep. | PC | 61.6 | 76.0 |
| SPA | 3D Rep. | RGB | 69.5 | 81.3 |
| DP3 | 3D Policy | PC | 65.3 | 66.7 |
| Lift3D (CLIP) | Ours | PC | 83.9 | 88.0 |
消融实验¶
| 配置 | Mean Accuracy | Gain |
|---|---|---|
| Baseline (无MAE无Lifting) | 62 | +0 |
| + Depth reconstruction | 68 | +6 |
| + Affordance masking + Depth | 72 | +10 |
| + Visual distillation | 80 | +18 |
| + 2D Model-Lifting (our PE) | 96 | +34 |
| + Learnable PE (替代our PE) | 90 | +28 |
关键发现¶
- 2D Model-Lifting是最关键的组件(从80→96,+16),证明直接用2D预训练PE编码3D数据比引入新PE有效6个百分点
- 深度重建比RGB重建更重要(+6 vs +1),说明几何信息对操控任务至关重要
- Affordance masking比随机masking多带来4%提升,验证了聚焦任务相关区域的价值
- 蒸馏防止灾难性遗忘带来+8%提升
- 真实世界30个demo即可学到新操控技能,泛化到不同物体/背景/光照
亮点与洞察¶
- "投影只为建映射,不做模态转换"的设计极为精巧——将点云投影到虚拟平面仅用于查找对应的2D PE,实际输入仍然是3D token,完全避免了信息丢失。这种设计可迁移到任何需要将预训练2D模型用于3D数据的场景
- 两阶段渐进增强策略清晰有效——先隐式(MAE+深度重建)提升3D感知,再显式(PE映射+点云编码)实现3D输入,每个阶段都有明确的目标和验证
- 任务感知masking引入了CLIP的语义先验来指导几何学习,跨模态的信息融合思路值得借鉴
局限与展望¶
- 仅使用简单MLP作为策略头,未探索扩散策略等更强的action decoder
- 需要单视角RGBD输入,在纯RGB或多视角设置下的表现未知
- Stage 1的MAE训练需要100万样本的大规模数据集,数据准备成本不低
- 虚拟平面数量和位置对性能有影响,但论文中未给出充分的敏感性分析
- 可以探索与VLA模型结合,利用语言指令实现更灵活的任务泛化
相关工作与启发¶
- vs DP3 (3D Diffusion Policy): DP3直接在点云上用扩散模型生成动作,但从头训练3D编码器缺乏预训练知识;Lift3D利用2D预训练知识在MetaWorld上超越DP3 18.6个百分点
- vs RVT-2: RVT-2将点云投影为多视图图像送入2D模型,模态转换丢失空间信息;Lift3D通过PE映射避免了模态转换
- vs Act3D/ChainedDiffuser: 这些方法将2D特征提升到3D空间进行多尺度表示,需要复杂的3D特征构建;Lift3D更简洁地复用了2D模型本身
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 首次提出通过PE映射让2D模型直接编码3D点云的思路,MAE设计也有创新
- 实验充分度: ⭐⭐⭐⭐⭐ 三个仿真benchmark+真实场景+30+任务+详细消融+泛化测试+扩展性分析
- 写作质量: ⭐⭐⭐⭐ 方法动机推导清晰,两阶段框架描述完整
- 价值: ⭐⭐⭐⭐⭐ 解决了3D操控中利用2D预训练知识的核心问题,具有很强的实际意义