IGen: Scalable Data Generation for Robot Learning from Open-World Images¶
会议: CVPR 2026
arXiv: 2512.01773
代码: https://chenghaogu.github.io/IGen/
领域: 机器人
关键词: 机器人学习, 数据生成, 开放世界图像, 视觉运动策略, 3D重建
一句话总结¶
IGen 从单张开放世界图像出发,通过3D场景重建→VLM任务规划→SE(3)动作生成→点云合成→帧渲染,自动生成大规模视觉-动作训练数据,仅用生成数据训练的策略即可完成真实世界操作。
研究背景与动机¶
- 领域现状:通用机器人策略需要大规模视觉-动作配对数据,但真实数据采集昂贵且局限于特定环境。
- 现有痛点:Real-to-Sim方法需要对物理工作空间进行显式重建;视频生成方法无法提供显式动作且对复杂长任务表现差。
- 核心矛盾:开放世界图像极其丰富多样但缺乏机器人相关的动作信息,无法直接用于策略学习。
- 本文目标:从非结构化的开放世界图像中自动生成接地的视觉-动作数据。
- 切入角度:将2D像素转化为结构化3D表示,然后利用VLM进行任务规划和动作生成。
- 核心idea:图像→3D点云+关键点→VLM高层规划+低层控制→SE(3)轨迹→点云序列合成→帧渲染。
方法详解¶
整体框架¶
三阶段pipeline:(1)场景重建:将输入图像转化为可操作的机器人工作空间(3D点云+空间关键点);(2)动作规划:VLM推理任务指令生成高层计划和低层控制;(3)观测合成:基于SE(3)轨迹合成动态点云序列并逐帧渲染。
关键设计¶
-
从像素到结构化3D表示:
- 功能:将非结构化2D图像转化为机器人可理解的3D表示
- 核心思路:用单目几何基础模型估计深度→VLM识别任务相关物体→SAM分割物体掩码→DINOv2提取特征+K-means聚类得到空间关键点。对操作目标物体用3D生成重建完整形状,背景用图像修复+深度反投影生成点云。
- 设计动机:机器人操作需要3D空间理解,直接在2D图像上规划无法提供物理接地的动作。
-
基于VLM的空间规划:
- 功能:从任务指令生成可执行的机器人动作序列
- 核心思路:VLM将场景理解和任务描述转化为高层计划(如"抓取→移动→放置"),再映射为低层SE(3)末端执行器位姿序列。利用空间关键点作为动作的空间锚点。
- 设计动机:VLM具有强大的场景理解和推理能力,可以将自然语言指令接地到3D空间中的具体操作。
-
无仿真的点云合成:
- 功能:生成动作一致的视觉观测序列
- 核心思路:用SE(3)轨迹对场景点云进行刚体运动变换,生成操作过程中的动态点云序列。然后逐帧渲染为RGB观测。避免了传统方法需要构建完整物理仿真环境的开销。
- 设计动机:基于点云的刚体合成比物理仿真器轻量级得多,且对渲染质量的要求更宽松。
损失函数 / 训练策略¶
使用生成的视觉-动作数据训练标准模仿学习策略(如ACT、DP3等),标准行为克隆损失。
实验关键数据¶
主实验¶
| 评估维度 | 指标 | IGen | TesserAct | Cosmos | 说明 |
|---|---|---|---|---|---|
| 视觉保真度 | 一致性评分 | 高 | 中 | 低 | 更接近真实 |
| 动作质量 | 指令遵循+物理对齐 | 最优 | 次优 | 差 | 生成动作更合理 |
| 策略迁移 | 真实任务成功率 | 可比/优于真实数据 | - | - | 纯生成数据有效 |
消融实验¶
| 配置 | 关键指标 | 说明 |
|---|---|---|
| Full IGen | 最优 | 完整pipeline |
| w/o 3D重建 | 显著下降 | 3D理解是基础 |
| w/o 空间关键点 | 下降 | 关键点提供空间锚定 |
| 2D生成替代 | 下降 | 2D方法缺乏物理接地 |
关键发现¶
- 仅用IGen生成的数据训练的策略能在真实世界中成功执行操作任务,无需任何真实采集数据。
- 在某些场景下,IGen生成数据训练的策略甚至超越了真实数据训练的策略,可能因为场景多样性更高。
- 与视频生成方法相比,IGen生成的动作更物理一致且指令遵循度更高。
亮点与洞察¶
- "图像即数据源"的理念极具吸引力:互联网图像是最丰富的视觉资源。
- 无仿真的点云合成避免了传统Real-to-Sim pipeline中最耗时的仿真环境构建步骤。
- 3D表示 + VLM规划的组合在保持轻量级的同时提供了物理接地。
局限与展望¶
- 依赖单目深度估计,精度受限于估计模型。
- 刚体运动假设限制了对软体/流体操作的建模。
- 对复杂物理交互(如接触力反馈)的建模不足。
相关工作与启发¶
- vs RoLA: RoLA也从开放图像生成数据,但依赖物理属性估计且限于简单交互。IGen通过VLM规划支持更复杂的任务。
- vs TesserAct/Cosmos: 基于视频生成的方法缺乏显式动作,IGen提供完整的视觉-动作对。
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 从开放世界图像到机器人数据的完整pipeline是新颖贡献
- 实验充分度: ⭐⭐⭐⭐ 三维度评估+真实世界验证
- 写作质量: ⭐⭐⭐⭐ pipeline描述清晰,对比充分
- 价值: ⭐⭐⭐⭐⭐ 有潜力根本性改变机器人数据获取方式