ORV: 4D Occupancy-centric Robot Video Generation¶

会议: CVPR 2026
论文: CVF Open Access
代码: 论文称接受后公开（Code, models, and data will be released upon acceptance）
领域: 机器人 / 具身世界模型
关键词: 机器人视频生成、4D语义占据、世界模型、动作条件扩散、仿真到真实

一句话总结¶

ORV 在预训练视频扩散模型（CogVideoX-2B）上，用「分块 7-DoF 动作条件」加「4D 语义占据渲染出的软视觉先验」共同驱动机器人操作视频生成，把稀疏控制信号和稠密像素之间的鸿沟补上，从而做到高保真、可控、跨视角一致、还能仿真到真实迁移的机器人世界模型，FVD 比 SOTA 低 18.8%，并能给视觉规划和策略学习当数据引擎。

研究背景与动机¶

领域现状：具身智能严重缺数据，而传统物理仿真器（ManiSkill、MuJoCo）虽然能安全训策略、低成本采数据，却缺乏视觉真实感。于是「可控视频生成」被当作有希望的数据引擎——给一个动作序列，让生成式世界模型预测未来的 RGB 观测，等价于一个会渲染逼真画面的神经仿真器。

现有痛点：现有动作条件视频生成（IRASim、HMA、AVID 等，多用 7-DoF 末端执行器位姿作控制）仍有三个硬伤：(p1) 视觉保真度和时序一致性不够；(p2) 未来预测会漂移、和真实操作控制对不齐；(p3) 只能单视角，没有多视角一致性约束。

核心矛盾：作者把 p2、p3 归因于一个根本性的「表征鸿沟」——输入是稀疏的低维控制（7 个自由度的位姿轨迹），输出却是稠密的高维像素动态，中间缺一个能把几何/语义信息显式传给生成器的桥梁。只靠动作或语言这类抽象条件，模型很难把控制忠实地翻译成像素变化。

切入角度：作者观察到 4D 语义占据（occupancy） 正好能当这个桥：它是坐标系下的体素表示，对几何噪声鲁棒（真实重建表面再脏、仿真参数化表面再干净，占据场都能稳定描述，见论文 Fig. 2），因此天然适合在仿真与真实之间迁移；同时它携带几何 + 语义，比光流/掩码/骨架等细粒度线索更完整。

核心 idea：用「占据派生的视觉先验」去补「动作先验」的不足——把 4D 语义占据渲染成 2D 图作为软引导注入扩散过程，再配上分块动作条件，在一个预训练视频基础模型上做两阶段微调，就得到既忠实又通用的机器人视频生成框架 ORV。

方法详解¶

整体框架¶

ORV 的任务被形式化为一个机器人操作世界模型：给定上下文 \((S, O, \phi, \rho)\)，模型 \(M\) 要预测未来状态 \(s_{t:t+\Delta T}\) 和对应观测 \(o_{t:t+\Delta t}\)。传统文生视频条件是 \(\rho_1:=\mathrm{Embed}(\text{text})\)，动作条件视频生成进化到 \(\rho_2:=\mathrm{Embed}(a_{t:t+\Delta t})\)，而 ORV 进一步引入 \(\rho_3:=\mathrm{Embed}(c_{t:t+\Delta t}\sim\pi'(s_{1:t}),\, a_{t:t+\Delta t}\sim\pi(s_{1:t}))\)，其中 \(a\) 是智能体动作、\(c\) 是占据场，\(\pi/\pi'\) 是非交互式（离线一次性采集）的先验提取过程，既可在真实环境（人遥操作）也可在仿真器里建立。

为了避开昂贵的大规模预训练、降低训练成本，ORV 直接构建在开源预训练视频模型 CogVideoX-2B（DiT 架构、双向扩散）之上，做两阶段监督微调（SFT）：第一阶段注入动作条件、第二阶段注入占据派生的视觉条件。整条流水线是：从真实/仿真场景离线提取占据 \(\mathcal{C}\) 与动作 \(\mathcal{A}\)（由 ORV-Data 数据管线构建）→ 把动作经 Action Expert AdaLN 分块注入每个 DiT 块、把占据渲染成 2D 软图注入初始噪声 → DiT 去噪生成视频；在此基础上派生出单视角、多视角（ORV-MV）、仿真到真实（ORV-S2R）三种模式，最终服务视觉规划与策略学习等下游任务。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["真实/仿真场景<br/>Bridge · DROID · ManiSkill · MuJoCo"] --> B["ORV-Data 数据构建<br/>4D 语义占据 + 7-DoF 动作"]
    B --> C["分块动作条件<br/>Action Expert AdaLN"]
    B --> D["占据派生视觉条件<br/>Occ2GS 软引导注入噪声"]
    C --> E["CogVideoX-2B DiT 主干<br/>两阶段 SFT 去噪"]
    D --> E
    E -->|单视角| F["机器人操作视频"]
    E -->|跨视角/跨域| G["多视角与仿真到真实扩展<br/>ORV-MV / ORV-S2R"]
    F --> H["下游：视觉规划 / 策略学习"]
    G --> H

关键设计¶

1. ORV-Data 数据构建：先造出机器人场景的 4D 语义占据，方法才有先验可用

ORV 的整套思路依赖占据先验，但具身场景几乎没有现成的占据数据，所以作者先设计了一条四步数据管线，从现有机器人数据集（BridgeData V2、DROID、RT-1）里「凭空」造出 4D 语义占据。第一步语义空间构建：用 VLM 对关键帧做 caption，对约 15 万条标签做 K-means 聚类，得到一个约 50 类的数据集级语义标签集（table、countertop、towel、spoon、pan…）；再用 Grounding DINO + SAM2 在帧间提取时序一致的实例并映射到语义。第二步占据构建：用 MonST3R 重建稀疏 4D 点（有深度通道的视频则跳过重建），用 NKSR 致密化以补洞、抗噪，体素化到规范坐标系，每个体素内对投影进来的语义标签做多数投票赋语义。第三步语义赋予完成「占据 + 语义」的绑定。第四步在实际使用时做 bullet-time 占据→高斯渲染。最后用 RAFT 过滤帧间一致性差的渲染数据。正是这条管线把广度足够的机器人数据「升维」成可作条件的几何/语义先验，是后面所有设计能落地的前提。

2. 分块动作条件：用 Action Expert AdaLN 把 7-DoF 控制对齐进视频隐变量

7-DoF 末端执行器位姿序列 \(A\in\mathbb{R}^{T\times D_a}\)（\(D_a=7\)）是高层控制信号，难点在于它的时间分辨率和视频隐变量对不齐、且直接逐帧注入开销大。ORV 借鉴 IRASim 的做法，用自适应层归一化（Action Expert AdaLN）在每个 DiT 块内直接调制视频隐变量，但加了一个分块（chunk）机制做时序对齐：先按 3D VAE 的时间压缩，给参考帧补零动作占位，再用一个浅层 MLP（\(\varepsilon_{action}\)）把连续 \(r\) 个动作压成一个 token：\(A\in\mathbb{R}^{T\times D_a}\to \mathrm{MLP}(\mathrm{Pad}(A))\in\mathbb{R}^{(\frac{T}{r}+1)\times D}\)，\(r\) 为 chunk 大小、\(D\) 为特征维。更省的是，Action Expert AdaLN 复用预训练 Vision Expert AdaLN 的参数，因为每个 AdaLN 约占总参数的 1/3，复用能省下大量冗余计算。消融显示去掉分块（直接编码离散动作）PSNR 掉 3.2%、成功率掉 5.5%，把动作硬塞进 Text/Vision Expert 则性能崩坏（成功率从 74.7 掉到 52.9），证明这套专用、对齐、复用参数的注入方式是必要的。

3. 占据派生视觉条件：把占据渲染成软的 2D 图注入噪声，而不是逐层硬控制

把抽象的 3D 动作翻成 2D 像素很难，所以作者引入像素级的软视觉条件来补位。但直接把体素投影到 2D 平面会让相邻帧/视角的像素发生突变，于是 ORV 给每个体素格赋一个非可学习的高斯泼溅（Gaussian Splatting），再从指定视角渲染（即 Occ2GS），既提升条件质量又省显存。为解决渲染时的透视畸变，作者提出自适应缩放规则：高斯尺度 \(\sigma = k_2\cdot \hat{z}^{\,k_1}\)，其中 \(\hat{z}\in[1,2)\) 是规范空间归一化深度，指数项 \(k_1\) 和基准尺度 \(k_2\) 分别控制近/远平面的缩放行为。注入方式上，用一个编码 MLP（\(\varepsilon_{visual}\)）加上输入图，再经零初始化投影器把视觉条件加到输入噪声：\(z_{in}=\text{Zero-MLP}(z_{in}+\mathrm{MLP}(\mathcal{C}))+z_{in}\)。关键区别在于：以往 ControlNet 式的逐层控制注入计算开销大，且当条件是「软的」（不与真值像素级对齐）时反而会污染视频隐变量；ORV 把软条件只加到初始噪声、当成引导而非硬约束，既便宜又稳。消融里 ControlNet 注入的 FVD 是 20.069，而 ORV 注入到噪声做到 16.525。

4. 多视角与仿真到真实扩展：同一套占据先验复用出 ORV-MV 与 ORV-S2R

占据是 4D、视角无关、对几何噪声鲁棒的，这让同一框架可以低成本派生两种能力。ORV-MV 在单视角时序注意力（singleview module，处理 \(F_P\in\mathbb{R}^{B_P\times S_P\times D}\)，\(S_P=THW\)，跨时间的 token）之前加了一层视角注意力（multiview module，处理 \(F_V\in\mathbb{R}^{B_V\times S_V\times D}\)，\(S_V=VHW\)，跨视角的 token），两者都继承预训练模型的 3D(2D+1D) 注意力；并且做差异化条件——单视角模块吃文本/动作/占据图，多视角模块剔除动作先验，只专注视角对应关系，从而生成跨视角一致的视频，弥补以往方法只捕捉单一表面、在切换视角时出现空洞/伪影的缺陷。ORV-S2R 则利用占据派生先验（如深度图）外观无关的特性：仿真器能廉价给出这类先验，配合一个额外的图像生成器（ControlNet）先造多样初始帧、再扩成逼真视频，从而在显著的域差距下完成仿真到真实迁移。两者本质都是「同一占据先验 + 不同条件/注意力布置」的复用，所以放在一个设计点里讲。

损失函数 / 训练策略¶

训练沿用扩散去噪损失（denoising loss），在 CogVideoX-2B 上做两阶段 SFT：动作条件基模型约 30K 步，占据图引导微调与多视角生成额外约 20K 步。消融显示「从 CogVideoX2B 微调」远好于「从零训练」（FVD 17.682 vs 84.831），说明站在预训练视频基础模型肩膀上对保真度（FID/FVD）至关重要。

实验关键数据¶

主实验¶

条件视频生成在 BridgeV2 / DROID / RT-1 三个真实数据集上评测，给一帧观测预测后续 15 帧。下表摘自论文 Table 1（BridgeV2 与 RT-1 的 FVD 等核心列）：

数据集	设置	方法	PSNR↑	SSIM↑	FID↓	FVD↓
BridgeV2	动作条件	IRASim	25.276	0.833	10.510	20.910
BridgeV2	动作条件	ORV	25.631	0.873	3.821	17.682
BridgeV2	占据+动作	IRASim†	27.352	0.862	9.413	22.503
BridgeV2	占据+动作	ORV	28.258	0.899	3.418	16.525
RT-1	动作条件	IRASim	26.048	0.833	5.600	25.580
RT-1	动作条件	ORV	27.086	0.863	4.210	20.031

ORV 在多数指标上领先；论文宣称的「FVD 比 SOTA 低 18.8%」对应 BridgeV2 动作条件下 IRASim 20.910 → ORV 17.682（约 −15.4%，⚠️ 18.8% 的口径以原文为准，可能对应不同基线/数据集组合）。把同样的占据+动作条件也加给 IRASim†，ORV 依然更优，说明优势来自框架设计而不仅是多了占据信息。

下游两项任务：视觉规划在 VP2 基准（论文 Table 2），ORV 平均成功率 66.0（按仿真器归一化后 74.7），优于 iVideoGPT 的 63.9（72.2），对应约 +3.5% 的提升口径；策略学习在 SimplerEnv-WidowX（论文 Table 3，作为数据引擎增广约 25% 合成数据）：

策略模型	Spoon on Towel	Carrot on Plate	Stack Cube	Eggplant in Basket	平均成功率
RoboVLM +Finetune	27.6%	26.7%	12.1%	52.8%	29.8%
RoboVLM +ORV	32.2%	29.6%	15.7%	57.9%	33.9%
SpatialVLA +Finetune	12.8%	26.1%	26.5%	79.3%	36.2%
SpatialVLA +ORV	14.7%	28.4%	27.8%	83.0%	38.5%

RoboVLM 平均 +4.1（相对 ~13.7%），SpatialVLA 平均 +2.3（相对 ~6.5%）。⚠️ 摘要/teaser 里的「+6.4% 策略学习」应是 SpatialVLA 的相对增益口径（≈6.5%），不是绝对百分点，以原文为准。

消融实验¶

动作条件与占据条件注入方式（论文 Table 4，BridgeV2）：

配置	PSNR↑	SSIM↑	FID↓	FVD↓	Success↑
CogVideoX（纯文本基线）	19.432	0.752	7.509	83.561	-
动作塞进 Text Expert	20.424	0.772	4.104	23.586	52.9
不分块（直接编码离散动作）	24.813	0.850	3.793	19.944	70.6
Ours（动作条件 base）	25.631	0.873	3.821	17.682	74.7
占据用 ControlNet 注入	26.974	0.865	3.613	20.069	-
Ours（占据 full，注入噪声）	28.258	0.899	3.418	16.525	-

条件资源与训练策略（论文 Table 5，Fine=像素级精条件，Coarse=占据渲染粗条件）：

配置	来源	PSNR↑	FID↓	FVD↓
无条件（base）	-	25.631	3.821	17.682
加深度	Fine	30.288	3.061	14.321
加深度	Coarse	28.031	4.522	18.548
全条件	Fine	30.431	2.998	14.301
全条件	Coarse	28.258	3.418	16.525
从零训练	-	23.518	19.357	84.831
从 CogVideoX2B 微调	-	25.631	3.821	17.682

关键发现¶

占据视觉先验贡献巨大：加全条件相对 base 提升 PSNR 18.72%（25.621→30.431，Fine）和 10.24%（→28.258，Coarse）；粗条件已逼近精条件，意味着不必苛求像素级对齐就能拿到大部分收益。
注入位置 > 注入信息：同样是占据条件，注入初始噪声（ORV）比 ControlNet 式逐层注入 FVD 更低（16.525 vs 20.069），印证软条件逐层硬注入会污染隐变量的判断。
鲁棒性是核心卖点（论文 Table 7 零样本跨粒度）：用粗条件训练的模型在精/粗条件上都稳（Coarse→Fine 仅 −1.423 PSNR）；而用精条件训练的模型一旦遇到粗输入就崩（Fine→Coarse PSNR −11.240、FVD +109.792）。这正好说明依赖像素级精条件的 Cosmos-Transfer / RoboTransfer 类方法对条件不准很敏感，而 ORV 的占据软条件不敏感——这是它能仿真到真实迁移的根。
多视角（论文 Table 6，3 视角、view0 为锚）：加视觉先验改善了 view1/view2 的跨视角生成（如 view1 FVD 16.36→13.67）。⚠️ 表中「with / without」标注顺序与部分数值方向看似不一致，具体口径以原文为准。

亮点与洞察¶

把「占据」从自动驾驶搬到机器人操作做视觉先验：作者点破了动作→像素的表征鸿沟，并用对几何噪声鲁棒、视角无关、带语义的 4D 占据当桥，一招同时缓解了对齐漂移（p2）、单视角（p3）和仿真到真实三个问题，思路统一且优雅。
软条件就该软着注入：发现 ControlNet 式逐层硬注入会在条件不精时污染隐变量，转而把占据渲染图只加到初始噪声当引导，既省算力又更稳——这条「条件质量决定注入方式」的经验可迁移到其他可控生成任务。
参数复用的小巧思：Action Expert AdaLN 直接复用 Vision Expert AdaLN 参数，省掉约 1/3 的冗余 AdaLN 计算，是工程上很实在的省钱设计。
用粗条件训练换泛化：Table 7 揭示「训得越精、迁移越脆」，主动用粗占据条件训练反而获得跨粒度鲁棒，这个反直觉发现对想做 sim-to-real 的人很有价值。

局限与展望¶

依赖一条重型数据管线：ORV-Data 串了 MonST3R、NKSR、Grounding DINO、SAM2、VLM、RAFT 等多个大模型，占据质量受这些组件误差累积影响；论文也用 RAFT 过滤一致性差的数据，说明管线产物并非全可用。
重建质量是上限：从单/多目视频重建 4D 占据本身有噪声，对透明/反光/快速形变物体可能失效，⚠️ 论文未充分量化这类极端情形。
基座绑定 CogVideoX-2B：保真度高度依赖预训练视频基础模型（从零训 FVD 84.831），更大基座/更新世界模型上的收益是否保持未验证。
下游增益偏温和：策略学习绝对提升约 +2.3~+4.1 个百分点，作为数据引擎有效但非颠覆性；多视角仍存在原始数据光照不一致等问题。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 把 4D 语义占据作为视觉先验引入机器人视频生成，统一解决保真/对齐/多视角/sim-to-real，角度新且自洽
实验充分度: ⭐⭐⭐⭐⭐ 覆盖三大数据集 + 视觉规划 + 策略学习三类任务，消融细致（注入方式/条件粒度/预训练/鲁棒性）
写作质量: ⭐⭐⭐⭐ 问题动机清晰、图表完整，但部分数值口径（18.8%、+6.4%、Table 6 标注）需对照原文才能厘清
价值: ⭐⭐⭐⭐⭐ 提供可控、可迁移的机器人神经仿真器与配套占据数据集，对具身数据稀缺问题有直接工程价值