IGen: Scalable Data Generation for Robot Learning from Open-World Images¶

会议: CVPR 2026
arXiv: 2512.01773
代码: https://chenghaogu.github.io/IGen/
领域: 机器人
关键词: 机器人学习, 数据生成, 开放世界图像, 视觉运动策略, 3D重建

一句话总结¶

IGen 从单张开放世界图像出发，通过3D场景重建→VLM任务规划→SE(3)动作生成→点云合成→帧渲染，自动生成大规模视觉-动作训练数据，仅用生成数据训练的策略即可完成真实世界操作。

三阶段pipeline：（1）场景重建：将输入图像转化为可操作的机器人工作空间（3D点云+空间关键点）；（2）动作规划：VLM推理任务指令生成高层计划和低层控制；（3）观测合成：基于SE(3)轨迹合成动态点云序列并逐帧渲染。

从像素到结构化3D表示:
- 功能：将非结构化2D图像转化为机器人可理解的3D表示
- 核心思路：用单目几何基础模型估计深度→VLM识别任务相关物体→SAM分割物体掩码→DINOv2提取特征+K-means聚类得到空间关键点。对操作目标物体用3D生成重建完整形状，背景用图像修复+深度反投影生成点云。
- 设计动机：机器人操作需要3D空间理解，直接在2D图像上规划无法提供物理接地的动作。
基于VLM的空间规划:
- 功能：从任务指令生成可执行的机器人动作序列
- 核心思路：VLM将场景理解和任务描述转化为高层计划（如"抓取→移动→放置"），再映射为低层SE(3)末端执行器位姿序列。利用空间关键点作为动作的空间锚点。
- 设计动机：VLM具有强大的场景理解和推理能力，可以将自然语言指令接地到3D空间中的具体操作。
无仿真的点云合成:
- 功能：生成动作一致的视觉观测序列
- 核心思路：用SE(3)轨迹对场景点云进行刚体运动变换，生成操作过程中的动态点云序列。然后逐帧渲染为RGB观测。避免了传统方法需要构建完整物理仿真环境的开销。
- 设计动机：基于点云的刚体合成比物理仿真器轻量级得多，且对渲染质量的要求更宽松。

使用生成的视觉-动作数据训练标准模仿学习策略（如ACT、DP3等），标准行为克隆损失。

评估维度	指标	IGen	TesserAct	Cosmos	说明
视觉保真度	一致性评分	高	中	低	更接近真实
动作质量	指令遵循+物理对齐	最优	次优	差	生成动作更合理
策略迁移	真实任务成功率	可比/优于真实数据	-	-	纯生成数据有效