Robotic Manipulation by Imitating Generated Videos Without Physical Demonstrations¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=tv0Sz8A9Tc
论文: 项目页 rigvid-robot.github.io
代码: 见项目页
领域: 机器人 / 具身智能
关键词: 机器人操作, 视频生成, 模仿学习, 6D 位姿追踪, 零示范

一句话总结¶

RIGVid 让机器人仅靠"AI 生成的视频"完成倒水、扫垃圾等操作任务——给定语言指令和场景图，用视频扩散模型生成示范视频、用 VLM 过滤失败生成、再从视频里追踪物体的 6D 位姿轨迹并重定向到机械臂执行，全程不需要任何真实示范或机器人训练数据，效果与真人示范视频持平。

研究背景与动机¶

领域现状：用视频监督机器人操作主要有两条路——一是从大规模真实视频数据集里学 affordance（接触点、运动轨迹），二是模仿在受控条件下采集的、与执行环境高度对齐的特定示范视频。

现有痛点：大规模数据集存在 domain gap，且要针对具体机器人本体和任务做适配；而专门采集示范视频则需要繁琐的数据收集，必须保证视角、形态、交互方式都和目标任务严格匹配。两条路都依赖"真实数据"这个瓶颈，难以大规模部署。

核心矛盾：视频生成模型（SORA、Kling）已经能从语言+图像生成逼真视频，理论上可以"按需生成"恰好匹配当前场景和任务的示范——但生成视频常有几何畸变、物理不合理的交互、不真实的场景动态，使得"生成的视频能不能真的当监督用"始终没被令人信服地证明。先前把视频生成引入机器人的工作也都还依赖额外监督（任务特定训练、或在离线机器人轨迹上微调）。

本文目标：能否让单个生成视频——生成时就精确匹配输入环境和任务描述——成为机器人操作的唯一监督来源，不需要任何额外监督或任务特定训练？

切入角度：作者观察到生成视频的不可靠是可以"事后筛掉"的——VLM 能高精度判断一段生成视频是否成功执行了指令；同时，与其去预测稀疏的高层抽象（如关键点约束），不如保留视频的稠密像素信息，再用强 6D 位姿追踪把物体运动精确抽出来。

核心 idea：生成视频 → VLM 过滤 → 追踪物体 6D 位姿轨迹 → 以"物体为中心、与本体无关"的方式重定向到机械臂，把"生成视频"直接变成"可执行轨迹"。

方法详解¶

整体框架¶

RIGVid（Robots Imitating Generated Videos）输入是初始场景的 RGB 图、对应深度图、一条自由形式的语言指令（如"pour water on the plant"），输出是机器人末端执行器的 6DoF 轨迹。整条流水线把"语言+图像"逐级转化为"可执行轨迹"：先用视频扩散模型生成候选示范视频并用 VLM 把不跟随指令的生成筛掉；再对通过的视频逐帧估计深度、定位被操作物体、用 6D 位姿追踪器抽出物体的位姿轨迹；最后把物体轨迹重定向成末端执行器轨迹，抓取物体后闭环执行——执行过程中实时追踪物体位姿、遇到扰动会回退重试。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["输入：场景 RGB-D<br/>+ 语言指令"] --> B["视频生成 + VLM 过滤<br/>Kling v1.6 生成，GPT-4o 判成败"]
    B -->|失败则重生成<br/>最多 5 次| B
    B --> C["6D 物体位姿轨迹提取<br/>深度对齐 + active object + FoundationPose"]
    C --> D["物体→机器人重定向<br/>固定末端-物体变换，与本体无关"]
    D --> E["闭环执行<br/>实时追踪，偏差超阈值回退"]
    E --> F["完成操作任务"]

关键设计¶

1. 视频生成 + VLM 自动过滤：把"不可靠的生成"变成"可用的监督"

直接拿生成视频当监督的最大障碍是：生成视频经常不跟随指令（物体没动、水从壶顶而非壶嘴倒出、甚至换了物体或视角）。作者的解法是用 GPT-4o 做自动过滤——把视频里均匀采样的 4 帧竖直拼成一张"视频摘要图"喂给 VLM，让它判断指令描述的动作是否被一只可见的手成功执行；若判为失败就重新生成，最多重试 5 次，全失败则用最后一次。这个过滤之所以关键，是因为它把"生成质量不稳定"这个根本问题转化成了"事后筛选"，而 VLM 的错误几乎都是 false negative（偶尔丢掉本可用的视频），几乎从不把错误视频放行。作者还验证了用 GPT o1 查询与人工判断的 Pearson 相关系数高达 \(0.84\)（平均），远超 VBench++ 里的 video-text consistency（\(0.34\)）和 I2V subject consistency（\(0.37\)）这类自动指标，说明现成的视频质量度量不适合做过滤、必须用 VLM 的语义判断。生成器本身选 Kling v1.6（指令跟随和物理合理性最好），Sora 因频繁改变布局/物体而几乎不可用。

2. 6D 物体位姿轨迹提取：用稠密追踪而非稀疏抽象保住执行所需的细节

通过过滤的视频要被转成精确的物体运动。这一步先用 Ke et al. 的单目深度估计器逐帧预测深度，但预测深度只有 scale-shift 意义下的相对值（存在尺度-偏移歧义），作者用首帧预测深度与真实深度图在活动物体附近对齐，求一个仿射 scale-and-shift 变换，再施加到整段视频上，把深度锚定到真实世界单位。接着定位 active object：用 GPT-4o 从初始图+指令里推断最可能被操作的物体类别，用 Grounding DINO 框出来、再用 SAM-2 细化成分割掩码。有了掩码和带尺度的深度，就用 FoundationPose 追踪器在整段视频上追物体的 6D 位姿（追踪器需要物体网格，用 BundleSDF 从一段绕物体旋转拍摄的 RGBD 短视频预先重建；附录也验证了 mesh-free 方案可行但当前推理速度无法实时）。之所以坚持抽 6D 位姿而非更紧凑的表示，是因为后文实验证明：相比 VLM 预测关键点约束、或稀疏点追踪/光流这类抽象，稠密追踪出的结构化 6D 轨迹在物体旋转、遮挡、深度剧变时鲁棒得多。

3. 物体→机器人重定向：抓住"物体-末端固定变换"实现跨本体迁移

拿到物体轨迹后先抓取——用现成的 AnyGrasp 在物体掩码附近选最高分抓取并执行。抓住后做重定向：因为物体被牢牢抓住，可假设末端执行器与物体之间是固定刚体变换。这个变换由两个刚体变换复合得到——抓取瞬间物体相对夹爪的位姿、以及夹爪相对末端执行器的偏移。把这个固定的"末端→物体"变换施加到物体轨迹的每个位姿上，就得到末端执行器轨迹，保证机器人末端跟随物体运动同时维持稳定抓取。这个设计的妙处在于它天然 robot-agnostic：换一台机器人或夹爪，只需更新"末端→物体"这一个变换来反映新的末端配置，物体轨迹本身完全不用动，因而方法可以轻松跨平台迁移。

4. 闭环执行：实时追踪 + 偏差回退保证抗扰动

把轨迹一次性开环执行很脆弱。RIGVid 在部署时用 FoundationPose 持续实时追踪物体 6D 位姿来更新末端轨迹：若物体因外部扰动（人推机器人、抓取后滑动）偏离了预计算轨迹，系统通过比较当前物体位姿与预计算轨迹检测出偏差；一旦偏差超过位置 \(3\text{cm}\) 或姿态 \(20°\) 的阈值，机器人就回退到上一个成功执行的轨迹点、从那里重新执行。这个恢复机制让方法在扰动下仍能重新对齐并完成任务，是把"静态生成轨迹"用到真实物理世界里的关键补丁。

实验关键数据¶

在 xArm7 机械臂 + Orbbec Femto Bolt 相机上，评测四个日常操作任务：倒水、掀锅盖、放锅铲、扫垃圾（涵盖深度变化、细长/部分遮挡物体等多样挑战）。

主实验¶

对比维度	配置	平均成功率	说明
vs VLM 抽象	RIGVid	85%	四任务平均
vs VLM 抽象	ReKep（VLM 关键点约束）	50%	关键点预测不准导致失败
轨迹提取方式	RIGVid（6D 物体位姿）	85.0%	本文
轨迹提取方式	Gen2Act（生成目标+点追踪）	67.5%	大遮挡/旋转时追踪点丢失
轨迹提取方式	4D-DPM（特征场）	35.0%	追踪不稳定
轨迹提取方式	AVDC（光流）	32.5%	光流误差跨帧累积
轨迹提取方式	Track2Act（点追踪）	7.5%	追踪网络泛化差

消融实验¶

配置	关键发现	说明
过滤前→过滤后（Kling v1.6）	倒水 80→100，掀盖 60→80，放铲 50→90，扫垃圾 20→70	VLM 过滤大幅提升可靠性
生成质量递增	Sora 0% → Kling v1.5 → Kling v1.6 最高	视频质量与成功率正相关
过滤后 Kling v1.6 vs 真人视频	基本持平	生成视频已可替代真实示范
过滤指标对比	GPT o1 相关 0.84 > video-text 0.34 / I2V 0.37	只有 VLM 语义判断可靠

关键发现¶

过滤是性能放大器：未过滤时 Sora 视频导致 0% 成功率；用 GPT-4o 过滤后 Kling v1.6 在最难的扫垃圾任务上从 20% 跃升到 70%，说明"生成+过滤"比单纯提升生成质量更划算。
6D 位姿追踪是鲁棒性来源：任务越难（细长物体、严重遮挡、深度剧变），RIGVid 相对其他轨迹提取方法的优势越大——放铲和扫垃圾上比次优 baseline 高 20–25%；稠密 6D 轨迹比稀疏点/光流在遮挡下更稳。
失败几乎都来自深度估计：用过滤后 Kling v1.6 时，除一次物体滑出夹爪外，所有失败都归因于深度估计误差导致的轨迹不准——而真人视频也有同样问题，说明瓶颈在深度模型本身而非生成视频。

亮点与洞察¶

"生成不可靠"被转化为"事后可筛"：核心洞察是不去强求生成视频每次都对，而是承认它不可靠、用 VLM 高精度过滤，把问题从"提升生成质量"解耦成"筛选 + 追踪"，工程上立刻可落地。
保留稠密信息 vs 压缩成抽象：作者反直觉地论证"生成完整视频像素"不是浪费——VLM 生成的紧凑抽象（关键点/约束）缺少执行所需的丰富细节，宁可付出更高计算代价换更可靠监督。
物体为中心 + 固定变换 = 跨本体：把轨迹定义在物体上、机器人只需一个"末端→物体"变换，这个解耦让方法换机器人零成本迁移，是可复用到其他从视频学操作工作的设计。
生成模型进步直接转化为操作能力：成功率随生成质量单调上升，意味着上游视频生成的每次进步都会自动提升机器人能力，是一个很有吸引力的"搭便车"趋势。

局限与展望¶

计算开销大：视频生成本身计算成本高，是该范式最主要的缺点。
依赖预重建网格：FoundationPose 需要预先用 BundleSDF 重建物体网格（要绕物体拍一段视频），限制在能预计算网格的场景；mesh-free 方案虽可行但当前推理速度无法实时。
受限于深度模型：主要失败来自单目深度估计误差，方法精度被深度模型的天花板锁死。
任务/场景规模有限：仅在四个桌面任务、固定初始配置下评测，更复杂的长程任务、多物体交互尚未验证。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次证明纯生成视频可作为机器人操作的唯一监督，范式清晰。
实验充分度: ⭐⭐⭐⭐ 真机四任务 + 多 baseline 横评充分，但任务数偏少、缺长程任务。
写作质量: ⭐⭐⭐⭐⭐ 动机、流水线、对比逻辑清楚，失败分析诚实。
价值: ⭐⭐⭐⭐⭐ 把"视频生成进步"直接接到"机器人能力"，无需数据收集，实用价值高。