Robotic Manipulation by Imitating Generated Videos Without Physical Demonstrations¶
会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=tv0Sz8A9Tc
论文: 项目页 rigvid-robot.github.io
代码: 见项目页
领域: 机器人 / 具身智能
关键词: 机器人操作, 视频生成, 模仿学习, 6D 位姿追踪, 零示范
一句话总结¶
RIGVid 让机器人仅靠"AI 生成的视频"完成倒水、扫垃圾等操作任务——给定语言指令和场景图,用视频扩散模型生成示范视频、用 VLM 过滤失败生成、再从视频里追踪物体的 6D 位姿轨迹并重定向到机械臂执行,全程不需要任何真实示范或机器人训练数据,效果与真人示范视频持平。
研究背景与动机¶
领域现状:用视频监督机器人操作主要有两条路——一是从大规模真实视频数据集里学 affordance(接触点、运动轨迹),二是模仿在受控条件下采集的、与执行环境高度对齐的特定示范视频。
现有痛点:大规模数据集存在 domain gap,且要针对具体机器人本体和任务做适配;而专门采集示范视频则需要繁琐的数据收集,必须保证视角、形态、交互方式都和目标任务严格匹配。两条路都依赖"真实数据"这个瓶颈,难以大规模部署。
核心矛盾:视频生成模型(SORA、Kling)已经能从语言+图像生成逼真视频,理论上可以"按需生成"恰好匹配当前场景和任务的示范——但生成视频常有几何畸变、物理不合理的交互、不真实的场景动态,使得"生成的视频能不能真的当监督用"始终没被令人信服地证明。先前把视频生成引入机器人的工作也都还依赖额外监督(任务特定训练、或在离线机器人轨迹上微调)。
本文目标:能否让单个生成视频——生成时就精确匹配输入环境和任务描述——成为机器人操作的唯一监督来源,不需要任何额外监督或任务特定训练?
切入角度:作者观察到生成视频的不可靠是可以"事后筛掉"的——VLM 能高精度判断一段生成视频是否成功执行了指令;同时,与其去预测稀疏的高层抽象(如关键点约束),不如保留视频的稠密像素信息,再用强 6D 位姿追踪把物体运动精确抽出来。
核心 idea:生成视频 → VLM 过滤 → 追踪物体 6D 位姿轨迹 → 以"物体为中心、与本体无关"的方式重定向到机械臂,把"生成视频"直接变成"可执行轨迹"。
方法详解¶
整体框架¶
RIGVid(Robots Imitating Generated Videos)输入是初始场景的 RGB 图、对应深度图、一条自由形式的语言指令(如"pour water on the plant"),输出是机器人末端执行器的 6DoF 轨迹。整条流水线把"语言+图像"逐级转化为"可执行轨迹":先用视频扩散模型生成候选示范视频并用 VLM 把不跟随指令的生成筛掉;再对通过的视频逐帧估计深度、定位被操作物体、用 6D 位姿追踪器抽出物体的位姿轨迹;最后把物体轨迹重定向成末端执行器轨迹,抓取物体后闭环执行——执行过程中实时追踪物体位姿、遇到扰动会回退重试。
%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
A["输入:场景 RGB-D<br/>+ 语言指令"] --> B["视频生成 + VLM 过滤<br/>Kling v1.6 生成,GPT-4o 判成败"]
B -->|失败则重生成<br/>最多 5 次| B
B --> C["6D 物体位姿轨迹提取<br/>深度对齐 + active object + FoundationPose"]
C --> D["物体→机器人重定向<br/>固定末端-物体变换,与本体无关"]
D --> E["闭环执行<br/>实时追踪,偏差超阈值回退"]
E --> F["完成操作任务"]
关键设计¶
1. 视频生成 + VLM 自动过滤:把"不可靠的生成"变成"可用的监督"
直接拿生成视频当监督的最大障碍是:生成视频经常不跟随指令(物体没动、水从壶顶而非壶嘴倒出、甚至换了物体或视角)。作者的解法是用 GPT-4o 做自动过滤——把视频里均匀采样的 4 帧竖直拼成一张"视频摘要图"喂给 VLM,让它判断指令描述的动作是否被一只可见的手成功执行;若判为失败就重新生成,最多重试 5 次,全失败则用最后一次。这个过滤之所以关键,是因为它把"生成质量不稳定"这个根本问题转化成了"事后筛选",而 VLM 的错误几乎都是 false negative(偶尔丢掉本可用的视频),几乎从不把错误视频放行。作者还验证了用 GPT o1 查询与人工判断的 Pearson 相关系数高达 \(0.84\)(平均),远超 VBench++ 里的 video-text consistency(\(0.34\))和 I2V subject consistency(\(0.37\))这类自动指标,说明现成的视频质量度量不适合做过滤、必须用 VLM 的语义判断。生成器本身选 Kling v1.6(指令跟随和物理合理性最好),Sora 因频繁改变布局/物体而几乎不可用。
2. 6D 物体位姿轨迹提取:用稠密追踪而非稀疏抽象保住执行所需的细节
通过过滤的视频要被转成精确的物体运动。这一步先用 Ke et al. 的单目深度估计器逐帧预测深度,但预测深度只有 scale-shift 意义下的相对值(存在尺度-偏移歧义),作者用首帧预测深度与真实深度图在活动物体附近对齐,求一个仿射 scale-and-shift 变换,再施加到整段视频上,把深度锚定到真实世界单位。接着定位 active object:用 GPT-4o 从初始图+指令里推断最可能被操作的物体类别,用 Grounding DINO 框出来、再用 SAM-2 细化成分割掩码。有了掩码和带尺度的深度,就用 FoundationPose 追踪器在整段视频上追物体的 6D 位姿(追踪器需要物体网格,用 BundleSDF 从一段绕物体旋转拍摄的 RGBD 短视频预先重建;附录也验证了 mesh-free 方案可行但当前推理速度无法实时)。之所以坚持抽 6D 位姿而非更紧凑的表示,是因为后文实验证明:相比 VLM 预测关键点约束、或稀疏点追踪/光流这类抽象,稠密追踪出的结构化 6D 轨迹在物体旋转、遮挡、深度剧变时鲁棒得多。
3. 物体→机器人重定向:抓住"物体-末端固定变换"实现跨本体迁移
拿到物体轨迹后先抓取——用现成的 AnyGrasp 在物体掩码附近选最高分抓取并执行。抓住后做重定向:因为物体被牢牢抓住,可假设末端执行器与物体之间是固定刚体变换。这个变换由两个刚体变换复合得到——抓取瞬间物体相对夹爪的位姿、以及夹爪相对末端执行器的偏移。把这个固定的"末端→物体"变换施加到物体轨迹的每个位姿上,就得到末端执行器轨迹,保证机器人末端跟随物体运动同时维持稳定抓取。这个设计的妙处在于它天然 robot-agnostic:换一台机器人或夹爪,只需更新"末端→物体"这一个变换来反映新的末端配置,物体轨迹本身完全不用动,因而方法可以轻松跨平台迁移。
4. 闭环执行:实时追踪 + 偏差回退保证抗扰动
把轨迹一次性开环执行很脆弱。RIGVid 在部署时用 FoundationPose 持续实时追踪物体 6D 位姿来更新末端轨迹:若物体因外部扰动(人推机器人、抓取后滑动)偏离了预计算轨迹,系统通过比较当前物体位姿与预计算轨迹检测出偏差;一旦偏差超过位置 \(3\text{cm}\) 或姿态 \(20°\) 的阈值,机器人就回退到上一个成功执行的轨迹点、从那里重新执行。这个恢复机制让方法在扰动下仍能重新对齐并完成任务,是把"静态生成轨迹"用到真实物理世界里的关键补丁。
实验关键数据¶
在 xArm7 机械臂 + Orbbec Femto Bolt 相机上,评测四个日常操作任务:倒水、掀锅盖、放锅铲、扫垃圾(涵盖深度变化、细长/部分遮挡物体等多样挑战)。
主实验¶
| 对比维度 | 配置 | 平均成功率 | 说明 |
|---|---|---|---|
| vs VLM 抽象 | RIGVid | 85% | 四任务平均 |
| vs VLM 抽象 | ReKep(VLM 关键点约束) | 50% | 关键点预测不准导致失败 |
| 轨迹提取方式 | RIGVid(6D 物体位姿) | 85.0% | 本文 |
| 轨迹提取方式 | Gen2Act(生成目标+点追踪) | 67.5% | 大遮挡/旋转时追踪点丢失 |
| 轨迹提取方式 | 4D-DPM(特征场) | 35.0% | 追踪不稳定 |
| 轨迹提取方式 | AVDC(光流) | 32.5% | 光流误差跨帧累积 |
| 轨迹提取方式 | Track2Act(点追踪) | 7.5% | 追踪网络泛化差 |
消融实验¶
| 配置 | 关键发现 | 说明 |
|---|---|---|
| 过滤前→过滤后(Kling v1.6) | 倒水 80→100,掀盖 60→80,放铲 50→90,扫垃圾 20→70 | VLM 过滤大幅提升可靠性 |
| 生成质量递增 | Sora 0% → Kling v1.5 → Kling v1.6 最高 | 视频质量与成功率正相关 |
| 过滤后 Kling v1.6 vs 真人视频 | 基本持平 | 生成视频已可替代真实示范 |
| 过滤指标对比 | GPT o1 相关 0.84 > video-text 0.34 / I2V 0.37 | 只有 VLM 语义判断可靠 |
关键发现¶
- 过滤是性能放大器:未过滤时 Sora 视频导致 0% 成功率;用 GPT-4o 过滤后 Kling v1.6 在最难的扫垃圾任务上从 20% 跃升到 70%,说明"生成+过滤"比单纯提升生成质量更划算。
- 6D 位姿追踪是鲁棒性来源:任务越难(细长物体、严重遮挡、深度剧变),RIGVid 相对其他轨迹提取方法的优势越大——放铲和扫垃圾上比次优 baseline 高 20–25%;稠密 6D 轨迹比稀疏点/光流在遮挡下更稳。
- 失败几乎都来自深度估计:用过滤后 Kling v1.6 时,除一次物体滑出夹爪外,所有失败都归因于深度估计误差导致的轨迹不准——而真人视频也有同样问题,说明瓶颈在深度模型本身而非生成视频。
亮点与洞察¶
- "生成不可靠"被转化为"事后可筛":核心洞察是不去强求生成视频每次都对,而是承认它不可靠、用 VLM 高精度过滤,把问题从"提升生成质量"解耦成"筛选 + 追踪",工程上立刻可落地。
- 保留稠密信息 vs 压缩成抽象:作者反直觉地论证"生成完整视频像素"不是浪费——VLM 生成的紧凑抽象(关键点/约束)缺少执行所需的丰富细节,宁可付出更高计算代价换更可靠监督。
- 物体为中心 + 固定变换 = 跨本体:把轨迹定义在物体上、机器人只需一个"末端→物体"变换,这个解耦让方法换机器人零成本迁移,是可复用到其他从视频学操作工作的设计。
- 生成模型进步直接转化为操作能力:成功率随生成质量单调上升,意味着上游视频生成的每次进步都会自动提升机器人能力,是一个很有吸引力的"搭便车"趋势。
局限与展望¶
- 计算开销大:视频生成本身计算成本高,是该范式最主要的缺点。
- 依赖预重建网格:FoundationPose 需要预先用 BundleSDF 重建物体网格(要绕物体拍一段视频),限制在能预计算网格的场景;mesh-free 方案虽可行但当前推理速度无法实时。
- 受限于深度模型:主要失败来自单目深度估计误差,方法精度被深度模型的天花板锁死。
- 任务/场景规模有限:仅在四个桌面任务、固定初始配置下评测,更复杂的长程任务、多物体交互尚未验证。
相关工作与启发¶
- vs ReKep(VLM 关键点约束): 它用 VLM 生成关系关键点约束再解 6D 轨迹,本文直接生成完整视频再抽 6D 位姿;区别在于稠密视频保留了执行所需细节,85% vs 50% 说明压缩成稀疏抽象会丢关键信息。
- vs Gen2Act(生成目标+点追踪): 同样用生成视频,但它靠稀疏点追踪、遮挡/大旋转时点丢失导致追踪失败;本文用 6D 物体位姿追踪,在难任务上高 17.5%。
- vs Liang et al.(追踪末端工具): 最相近的工作靠追踪机器人末端工具执行,但需要 1822 条真人采集的机器人示范、且只能做工具类任务;本文追踪物体、无需任何机器人数据,任务范围更广。
- vs 大规模视频 affordance 学习(Bahl et al.): 它们从互联网视频学接触图/轨迹路点但有 domain gap;本文不预测 affordance,而是按需生成任务+场景特定的视频做模仿,绕开了 domain gap。
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 首次证明纯生成视频可作为机器人操作的唯一监督,范式清晰。
- 实验充分度: ⭐⭐⭐⭐ 真机四任务 + 多 baseline 横评充分,但任务数偏少、缺长程任务。
- 写作质量: ⭐⭐⭐⭐⭐ 动机、流水线、对比逻辑清楚,失败分析诚实。
- 价值: ⭐⭐⭐⭐⭐ 把"视频生成进步"直接接到"机器人能力",无需数据收集,实用价值高。