Video2Robo: 3DGS-based Synthetic Data from One Video Enables Scalable Robot Learning¶

会议: CVPR 2026
论文: CVF Open Access
代码: 项目页 Video2Robo（论文未给出明确仓库链接）
领域: 机器人 / 具身智能
关键词: 机器人数据生成, 3D高斯泼溅, 单目视频, 模仿学习, Real2Sim2Real

一句话总结¶

Video2Robo 只用一段手机拍的单目人类演示视频，靠 3DGS 把任务相关物体重建出来、跟踪它们的 6D 运动轨迹、解析出操作技能，再用一只虚拟 Franka 机械臂"接管"这些轨迹并叠加多维度场景增强，批量合成出既照片级真实又运动学合理的机器人训练数据，训练出的策略能零标定迁移到真实机械臂上。

研究背景与动机¶

领域现状：机器人模仿学习的上限被"高质量、多样化的具身数据有多贵"卡死。和训练 LLM/VLM 用的海量数据相比，机器人数据集小得可怜，根源在遥操作采集太费人力时间。于是"用数据生成来扩规模"成了刚需，已有四类做法：物体中心的轨迹变换（MimicGen 系）、仿真数据增强（CyberDemo、RoboSplat）、人替换成机器人（Phantom、RwoR）、人类视频动作模仿（R2R2R、YOTO）。

现有痛点：这些方法几乎都要么依赖难获取的硬件（真机、遥操作设备、深度相机），要么依赖仿真器（需要大量调参、还会穿模/打滑出物理错误），要么需要大量人工。更要命的是生成数据的多样性有限——大多只增强物体位姿，外观、光照、视角都不变，迁到真实世界的各种场景变化就崩。

核心矛盾：想要"低门槛输入"（普通人用手机就能拍）和"高质量+高多样性输出"（照片级真实、运动学合理、能覆盖各种场景），这两者在已有范式里是对立的——靠仿真能拿到位姿多样性但视觉假，靠真机能拿到真实感但采集贵且场景固定。

本文目标：拆成两个子问题——(I) 怎么从只有 2D RGB 的单目视频里把操作信息抽出来？(II) 怎么生成既照片级真实、动作又运动学合理的数据？

切入角度：作者抓住一个关键观察——大部分操作任务的核心技能，都可以表示成任务相关物体之间的相对运动（倒水 = 杯子相对碗的运动，扫地 = 刷子相对桌面的运动）。所以不必去恢复人手的精细动作，只要重建并跟踪这些物体的 6D 轨迹就够了。而 3DGS 恰好同时给了"照片级渲染"和"显式 3D 编辑"两种能力，正好能解决子问题 II。

核心 idea：用 3DGS 把"重建物体 → 跟踪 6D 轨迹 → 解析技能 → 虚拟机器人复现轨迹 → 编辑高斯做多维增强 → 渲染成训练数据"串成一条只吃单目视频的全自动流水线，绕开真机、仿真器和深度相机。

方法详解¶

整体框架¶

Video2Robo 输入是一段单目人类演示视频，输出是一批可直接训练视觉运动策略的图像-动作数据，整条流水线分三个模块串行：

场景与技能解析（Scene and Skill Parsing，做 Real2Sim）：从视频里抽出任务相关物体的 3D 模型，跟踪它们逐帧的 6D 位姿，再把轨迹切成"抓取技能"和"任务技能"两类片段，记录关键的相对位姿。
可扩展数据生成（Scalable Data Generation）：把上一步的相对位姿轨迹"交给"一只虚拟 3DGS Franka 机械臂去复现，通过机器人-物体耦合运动生成运动学一致的动态高斯场，同时叠加物体重排、外观/背景/光照随机化、虚拟相机扰动等多维增强，渲染出海量多样化数据。
机器人学习与部署（Robot Learning and Deployment，做 Sim2Real）：用生成的图像-动作数据训练 Diffusion Policy，在自建仿真 benchmark 和真实 Franka 机械臂上评测。

下面这张图展示从单段视频到合成数据的主干（前两个模块，是本文真正贡献所在）：

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["单目人类<br/>演示视频"] --> B["跨帧实例分割<br/>+ 像素追踪<br/>Entityv2 / CoTracker3"]
    B --> C["3DGS 可微渲染<br/>下的 6D 位姿估计<br/>TRELLIS + DE + Track loss"]
    C --> D["技能解析<br/>抓取技能 / 任务技能<br/>记录相对位姿 Trel"]
    D --> E["机器人-物体<br/>耦合运动<br/>虚拟 Franka 复现轨迹"]
    E --> F["多维场景增强<br/>外观 / 光照 / 虚拟相机"]
    F --> G["渲染输出<br/>图像-动作训练数据"]
    G --> H["训练 Diffusion Policy<br/>→ 仿真 / 真机部署"]

关键设计¶

1. 跨帧一致的实例分割 + 像素追踪：从只有 2D RGB 的视频里锁定"哪些物体在动"

子问题 I 的第一关：单目视频没有深度、没有具身标注，连"哪几个物体是任务相关的、它们逐帧在哪"都不知道。Video2Robo 的做法是先在 2D 层面把物体身份和轨迹钉死。具体流程：对每帧用实例分割模型 Entityv2 拿到实例掩码，再用 TAP 模型给每个掩码生成文字描述、用 SBERT 编码成特征，靠开放词表查询识别出任务相关物体 \(\{obj_i\}\) 及其首帧掩码 \(m^0_{obj_i}\)；然后用像素追踪模型 CoTracker3 把首帧掩码内均匀采样的像素 \(\{p^t_{obj_i}\}\) 在整段序列里追踪，逐帧把落在同一物体内的追踪像素聚合，建立跨帧关联掩码 \(\{m^t_{obj_i}\}\)。针对分割不一致，还会把"同一物体被过度切碎"的掩码按追踪像素分布合并、把"一个掩码盖了多个物体"的拆开。这一步的价值在于它不靠任何 3D 传感器，纯用现成的 2D 基础模型就把"任务相关物体的逐帧 2D 轨迹"准备好，为下一步抬升到 6D 打底。

2. 3DGS 可微渲染下的 6D 物体位姿估计：把 2D 掩码轨迹抬升成时序一致的 6D 模型轨迹

光有 2D 掩码还原不出真实的三维操作。这一步要把 2D 追踪抬到 6D。先用 AIGC 模型 TRELLIS 从单视角分割结果 \(C^0[m^t_{obj_i}]\) 生成物体的 3DGS 模型 \(\{G_{obj_i}\}\)，但这些模型没有绝对尺度，所以额外用 VGGT 估计逐帧深度 \(D=\{D_t\}\) 来对齐尺度。位姿估计分两段：初始帧把每个物体的 3DGS 初始化在深度点云质心，优化参数同时包含 6D 位姿和对齐深度的尺度因子，因为可能存在大平移大旋转，用 Differential Evolution（差分进化）逐个物体优化，目标是渲染图与观测的 RGB / 深度 / 掩码三项差异最小：

\[\mathcal{L}_{RGB,obj_i}=\left|\mathbf{\hat{C}}^0_{obj_i}-\mathbf{C}^0_{obj_i}\right|\cdot\left(\hat{m}_{obj_i}\cup m_{obj_i}\right)\]

深度损失 \(\mathcal{L}_{depth}\)、掩码损失 \(\mathcal{L}_{mask}\) 形式类似。后续帧固定尺度因子、用上一帧结果初始化，利用 3DGS 渲染可微把 6D 位姿当作可学习参数、所有物体联合优化以捕捉物体间交互。但仅靠 RGB/深度/掩码三项对对称物体很容易丢时序一致性，于是引入 Track loss：把首帧追踪像素投到物体 3D 模型上，后续帧测量这些 3D 点的 2D 投影 \(\hat{p}^t_{obj_i}\) 与 CoTracker3 追踪像素 \(p^t_{obj_i}\) 的差异

\[\mathcal{L}^t_{track}=\sum_i\left|\hat{p}^t_{obj_i}-p^t_{obj_i}\right|\]

正是这个 Track loss 把"渲染对齐"和"像素追踪"两套信号绑在一起，才让对称物体也能拿到时序一致的轨迹——这是它在 6D 定位上能超过 MegaPose、F.P.-O 的关键。

3. 技能解析：把连续轨迹切成可复用的抓取/任务技能片段

有了完整 6D 轨迹后，还要回答"这段视频到底在做什么动作"。Video2Robo 把任务建模成物体间的相对运动，从轨迹里切出两类技能片段：抓取相关技能主要是夹爪开合，从物体的运动与停止模式识别；任务相关技能则看物体间距离——当两个物体的距离低于预设阈值（实验里 3 cm）时，该片段就被判为任务动作，并记录段内物体间的相对位姿 \(T_{rel}\) 作为后续数据生成的依据。这一步的意义是把"人怎么操作"压缩成机器人能直接复用的相对位姿序列，从而和人手的具体形态彻底解耦。

4. 机器人-物体耦合运动 + 多维数据增强：让虚拟机械臂运动学合理地复现轨迹，并把多样性拉满

子问题 II：怎么让生成数据既动作合理又足够多样。机器人侧用 [62] 重建并按关节分割的 Franka 3DGS 模型，桌面用 xy 平面的矩形 3DGS 表示。新场景下物体随机重排（位置+旋转，类似 MimicGen 的 D1 设置），任务物体分 source/target，初始位姿记为 \(T_s\)、\(T_t\)；考虑到人手和夹爪抓法不同，用视觉引导的手动设置拿到相对 source 物体的抓取位姿 \(T_{grasp}\)、按几何算出闭合距离 \(D_{grasp}\)。然后用一套机器人-物体耦合运动走完整任务：①Transit——末端从默认位姿规划到预抓取位姿 \(T_sT_{grasp}\)，物体静止；②Grasp——夹爪闭合到 \(D_{grasp}\)；③Transfer——末端移到技能段初始位姿 \(T_tT_{rel}[0]T_{grasp}\)，source 物体刚性跟随、保持相对位姿 \(T^{-1}_{grasp}\)；④Task Execution——把技能段离散成 \(\Delta t\) 间隔（按任务连续性取 5~20），迭代把末端移到目标位姿 \(T_tT_{rel}[n\Delta t]T_{grasp}\)；单技能任务终止，多阶段任务则开夹爪重复①~④。整个过程生成运动学一致的动态 3DGS 场，同时记录关节位置和末端位姿——这正是它对比仿真器不穿模、不打滑、数据生成成功率 100% 的原因。在此之上叠三种增强：外观随机化（桌面贴随机纹理图、背景用 2D 纹理图或预建 3D 高斯场景）、光照增强（对所有高斯椭球的漫反射颜色做缩放/平移/加噪）、虚拟相机扰动（自由设相机内外参、加位置/角度/焦距随机扰动）。这些增强逐帧施加以最大化多样性——靠的就是 3DGS 显式可编辑这一特性，传统采集范式根本做不到逐帧改外观光照视角。

损失函数 / 训练策略¶

位姿估计阶段的优化目标即上面的 \(\mathcal{L}_{RGB}+\mathcal{L}_{depth}+\mathcal{L}_{mask}\)（初始帧用 Differential Evolution）加 \(\mathcal{L}_{track}\)（后续帧用 Adam 可微优化）。下游策略训练采用 Diffusion Policy，动作表示为绝对关节位置，输入用前视和侧视两路相机图像。仿真环境基于 Robosuite 搭建以保证可复现，支持物体摆放/桌面背景纹理/光照/视角的随机重置与自动成功判定；真机在 Franka 机械臂上做，相机和桌面大致对齐合成数据布局，不做任何标定或微调。整条流水线在单张 NVIDIA L40 上自动顺序执行。

实验关键数据¶

主实验¶

六个自采任务（Attach / Drum / Place / Pour / Stack / Sweep），用 Azure Kinect DK 录制第一人称视频（仅用 RGB，深度只用来取 GT 定位）。

6D 单目物体定位（BOP Average Recall，越高越好）：

方法	Mean AR	说明
F.P.-O（单目深度版 FoundationPose）	55.36	缺 GT 深度时明显退化
MegaPose	68.13	对复杂非对称物体跟踪难、对称物体时序不一致
Video2Robo	78.41	渲染对齐 + CoTracker3 像素追踪，定位与时序一致性最佳

数据生成效率与成功率（生成 100 条新演示）：

方法	平均生成耗时 (s)↓	生成成功率 (%)↑
MimicGen	17.23	97.40
SkillGen	8.88	96.98
Video2Robo	5.23	100.00

MimicGen 因为要重建完整遥操作轨迹最慢，SkillGen 分段处理省了点，但两者都会偶发物理仿真错误（穿模、滑动）导致失败；Video2Robo 靠耦合运动天然运动学一致，六个任务全部 100% 成功。

消融实验¶

策略在仿真中的成功率（%），分"只改物体位姿"和"多种变化（纹理+视角等）"两档：

配置	只改位姿 Mean	多种变化 Mean	说明
MimicGen	93.00	11.67	位姿单变化好，多变化崩
SkillGen	91.67	19.67	同上
MimicGen-O（加场景变化采集）	25.67	29.67	加了变化但绝对水平低
SkillGen-O	38.67	44.67	轨迹连续性更好
Video2Robo	66.67	63.83	多变化场景下断层领先且性能最稳

真实机械臂成功率（%），额外加了"20 条真机遥操作采集"作 baseline：

配置	只改位姿 Mean	多种变化 Mean
MimicGen-O	18.33	02.50
SkillGen-O	32.50	05.83
Real Collected（真机采集）	46.67	27.50
Video2Robo	62.50	58.33

关键发现¶

多样性才是真迁移的胜负手：MimicGen/SkillGen 在"只改位姿"时和别人打平甚至更好，但一进多变化场景就从 ~90% 暴跌到 ~10~20%，暴露了"只增强位姿"的范式天花板；Video2Robo 在多变化档几乎不掉（仿真 66.67→63.83、真机 62.50→58.33），逐帧外观/光照/视角增强是它泛化的根。
域差也能扛：训练用的是 3DGS 渲染环境，评测却在仿真器里，存在明显域差，Video2Robo 仍能稳健迁移，说明帧级增强带来的多样性足以覆盖这种 gap。
真机零标定优于真机采集：Video2Robo 合成数据（62.50/58.33）甚至超过直接用真机采集的数据（46.67/27.50），后者因训练集多样性不足在多变化场景明显欠拟合——这点最反直觉也最有说服力。
Track loss 是对称物体定位的关键：仅靠 RGB/深度/掩码三项对对称物体会丢时序一致性，加 Track loss 后才稳，直接体现在 6D 定位 Mean AR 领先 MegaPose 约 10 个点。

亮点与洞察¶

"物体相对运动 = 任务技能"这个抽象很省力：它绕开了"人手→机械臂"的高自由度映射难题，只需跟踪物体 6D 轨迹，从而能纯靠现成 2D/3D 基础模型（Entityv2、CoTracker3、TRELLIS、VGGT）拼出全自动流水线，这套"用相对位姿解耦形态"的思路可迁移到任何"物体中心"的操作任务。
3DGS 同时吃下"真实感"和"可编辑"两个需求：传统范式里照片级真实（真机）和显式编辑（仿真）是对立的，3DGS 的显式椭球表示让"逐帧改漫反射颜色做光照、贴纹理改外观、改相机内外参换视角"都变成廉价操作，这是它能把数据多样性拉满的底层原因。
机器人-物体耦合运动把"物理合理"做成了确定性而非概率性：靠刚性跟随 \(T^{-1}_{grasp}\) + 离散插值复现 \(T_{rel}\)，直接保证运动学一致，从源头消灭了仿真器的穿模/打滑，所以数据生成成功率能做到 100%——这是一个"用几何约束替代物理仿真"的巧妙取舍。
零标定零微调迁真机还能反超真机采集数据，是对"数据多样性 > 数据真实度"这一观点的有力实证。

局限与展望¶

只支持刚体：作者承认目前不能处理可变形/柔性物体，因为那需要从视频里直接学准确的动态模型；耦合运动的刚性跟随假设也只对刚体成立。
抓取位姿仍需人工标注：\(T_{grasp}\) 靠视觉引导的手动设置拿到，缺乏从人手到机械臂的自动个性化映射，限制了"全自动"的成色。
依赖一长串现成模型：整条流水线挂在 Entityv2 / TAP / SBERT / CoTracker3 / TRELLIS / VGGT / FoundationPose 等多个模型上，任一环（如 TRELLIS 单视角重建质量、VGGT 深度精度）出错都会向下游传播，论文未充分分析这种误差累积。
任务技能阈值（3 cm）等超参偏经验：技能切分依赖预设距离阈值、离散间隔 \(\Delta t\)（5~20）按任务手调，跨任务的鲁棒性和自动化程度存疑。
改进方向：作者提出未来支持铰接/可变形物体与双臂操作；可补的还有自动抓取映射、误差累积分析、以及更系统的各增强维度消融（正文消融多放在补充材料）。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首个纯单目视频→真机部署的机器人数据生成框架，3DGS 可微渲染做时序一致 6D 跟踪 + 显式编辑做多维增强的组合很新。
实验充分度: ⭐⭐⭐⭐ 六任务覆盖 6D 定位/生成效率/仿真/真机四类评测，对比与 baseline 设计扎实；但消融多放补充材料、误差累积未分析、单一机械臂略显单薄。
写作质量: ⭐⭐⭐⭐ 动机清晰、Tab.1 能力对比一目了然、流程交代完整；公式与部分阈值的来由稍简。
价值: ⭐⭐⭐⭐⭐ 把具身数据采集门槛压到"一部手机一段视频"，且零标定迁真机反超真机采集，对低成本规模化机器人学习有很强实用价值。