WorldReel: 4D Video Generation with Consistent Geometry and Motion Modeling¶

会议: CVPR 2026
论文: CVF Open Access
代码: 无（仅有项目页 https://bshfang.github.io/worldreel/ ）
领域: 视频生成 / 4D 生成 / 世界模型
关键词: 4D 视频生成, 几何-运动隐空间, 场景流, 视频扩散, DPT 多任务

一句话总结¶

WorldReel 把视频扩散模型的隐空间用「深度+光流」增广，并让模型在生成 RGB 的同时直接吐出逐帧点云、相机轨迹、3D 场景流和动态掩码，用合成数据的精确 4D 标签加正则项把静态几何和动态运动解耦监督，从而生成在大幅相机/非刚性运动下仍然 3D 一致的视频，深度误差从 0.353 降到 0.287。

研究背景与动机¶

领域现状：当前主流视频生成器（CogVideoX、Sora 类 DiT）画质和时间平滑性都很惊艳，能在多样 prompt 下生成逼真视频。

现有痛点：这些模型并不维护一个「随时间演化的单一稳定 3D 场景」。表现出来就是视角漂移（view-time drift）、几何闪烁（geometric flicker）、相机运动和物体运动纠缠在一起；一旦需要外推视角或编辑内容（世界模型场景），这些问题就被放大。

核心矛盾：要做 4D 生成，已有两条路都不通——① 优化式（SDS 蒸馏显式 4D 表示）计算极重、通常只能处理单个动态物体；② 后处理式（先生成可控 2D 视频，再事后 lift 成 3D）从根上继承了 2D 视频先验的几何不一致，且难以泛化到 in-the-wild 动态。没有任何方法把真正的 4D 结构原生地嵌进生成先验里。

核心矛盾的另一面是数据：精确的 4D 标签（深度/相机/场景流）几乎只能从合成数据拿到，但合成数据规模小、外观分布和真实世界差距大；真实视频有多样性却没有干净标签。如何既吃到合成数据的精确监督、又不丢真实感，是个 trade-off。

本文目标：训练一个原生时空一致的 4D 视频生成器，在生成视频的同时输出一套完整的显式 4D 场景表示（点云、相机轨迹、稠密流），用这个显式表示强制「一个贯穿时间和视角的底层场景」。

切入角度：作者的关键观察是——深度图和光流和 RGB 帧天然对齐、是稠密的 image-like 模态，可以直接复用预训练 3D VAE 编码；而且它们「3D-focused、过滤掉外观纹理」，让合成/真实数据的分布差距变小。于是可以把它们当作隐空间的额外通道，注入 4D 归纳偏置。

核心 idea：用一个「外观无关的几何-运动增广隐空间」喂给视频 DiT，再用共享的 temporal DPT 解码头把这个隐空间映射成统一的 4D 输出并显式监督，让几何/运动梯度反传回隐空间，逼模型学出一个 3D 一致的内部场景。

方法详解¶

整体框架¶

WorldReel 建立在预训练的视频隐扩散模型（CogVideoX-5B-I2V）之上，整条管线分两侧：输入侧把 RGB 隐变量和「深度+光流」编码出的几何-运动隐变量在通道维拼接，得到增广隐空间送进 DiT；输出侧用一个共享的 temporal DPT 解码器从隐变量里预测统一的 4D 表示（逐帧点云/深度、标定相机、3D 场景流、动态掩码），并对这些输出加显式监督和正则。训练用「合成（精确标签）+真实（伪标签）」混合数据，分两阶段：先各自训 DiT 和 DPT 头，再端到端联合训练并加上解耦静/动的正则项。推理时只需文本 prompt + 单张图，不需要额外输入。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400, 'subGraphTitleMargin': {'top': 8, 'bottom': 16}}}%%
flowchart TD
    A["输入：文本 + 单张图像"] --> B["几何-运动增广隐空间<br/>RGB隐 ⊕ 深度+光流隐"]
    B --> C["视频扩散 DiT<br/>仅改输入输出投影<br/>零初始化新通道"]
    C --> D["统一 4D 输出<br/>共享 temporal DPT + 多任务头"]
    D --> E1["深度 / 点云"]
    D --> E2["相机轨迹"]
    D --> E3["3D 场景流"]
    D --> E4["动态掩码"]
    subgraph S["静动解耦的两阶段联合训练"]
        direction TB
        F["静态背景几何一致正则"]
        G["前景运动平滑正则"]
    end
    E1 --> S
    E3 --> S
    H["混合数据与场景流伪标签构建"] -.监督.-> D

关键设计¶

1. 几何-运动增广隐空间：把 4D 先验塞进视频隐空间的入口

视频 DiT 原本只在 RGB 隐空间里建模，缺乏 3D 几何和运动的归纳偏置，所以生成的视频在 3D 上漂移。WorldReel 的做法是：取逐帧深度 \(D_i \in \mathbb{R}^{H\times W\times 1}\) 和前向 2D 光流 \(F^{2d}_i \in \mathbb{R}^{H\times W\times 2}\)，先归一化到和 RGB 同样的值域 \(\tilde D_i = 2\cdot\frac{D_i - d_{\min}}{d_{\max}-d_{\min}} - 1\)、\(\tilde F^{2d}_i = \frac{F^{2d}_i}{|F^{2d}|_{\max}}\)，再用预训练的 3D VAE 把它们编码成几何-运动隐变量 \(z^{gm}_0 = E([\tilde D; \tilde F^{2d}])\)，最后和原始视频隐变量在通道维拼接 \(z_0 = [z^{rgb}_0; z^{gm}_0]\) 喂给 DiT。

选深度+光流而不是别的表示，是因为它们和 RGB 一样是稠密 image-like、能直接被现成 3D VAE 编解码、能从基础模型大规模拿到，而且「3D-focused」地把外观纹理过滤掉，缩小了合成与真实的分布 gap——这正是后面能放心用合成数据精确标签的前提。

2. 用最小改动适配预训练 DiT + 零初始化：保住生成能力不崩

隐空间通道翻倍后，如果大改架构会丢掉预训练权重。作者只改 DiT 的输入/输出投影层以适配双倍通道，中间所有 block 原封不动；并对输入投影层用零初始化：对应原始视频隐 \(z^{rgb}\) 的权重从预训练模型加载，新扩展出来、对应几何-运动隐 \(z^{gm}\) 的参数初始化为 0。这样训练一开始模型行为和原视频扩散模型完全一致，几何-运动信号是「逐渐长出来」的，避免训练初期被新通道带崩，显著提升稳定性。

3. 统一 4D 表示输出 + 共享 DPT 多任务头：让几何梯度反传回隐空间

光靠输入侧的深度/光流（2.5D）不足以恢复 3D 结构，尤其相机运动和物体运动在 2.5D 下纠缠、无法解耦。所以 WorldReel 在输出侧直接预测细粒度 4D 表示 \((D_i, P_i, C_i, F^{3d}_i, M_i)\)：相机内外参 \(C_i\in\mathbb{R}^9\)、点云 \(P_i\)、3D 场景流 \(F^{3d}_i\)、动态掩码 \(M_i\)，其中相机/点云/场景流都表示在第一帧规范坐标系里，保证跨帧描述同一个场景。

实现上用一个定制的 temporal DPT 解码器：从隐变量抽多尺度稠密特征，经带时间 transformer 的 DPT 融合骨干聚合，只有最后一层才分出多个轻量任务头分别预测各任务。共享骨干一方面省参数，另一方面起到强正则作用——逼模型为所有任务学一个统一、几何一致的表示。对这些 4D 输出的显式监督会把几何相关梯度反传回隐空间，从而帮助解耦相机运动和物体运动，把 3D 动态压进更好的隐空间里。其中场景流 \(F^{3d}\) 直接编码 3D 动态，比 2D 光流/关键点追踪更干净地把相机运动和物体运动分开，并工作在物理意义明确的演化 3D 坐标系里。

4. 静动解耦的两阶段联合训练与正则：分别守住静态几何一致和动态运动平滑

训练分两阶段。第一阶段单独训：先 finetune 几何-运动增广 DiT（标准扩散损失 \(\mathcal{L}_{diff} = \mathcal{L}^{rgb}_{diff} + \mathcal{L}^{gm}_{diff}\)），再从头训 temporal DPT 头，用多任务损失

\[\mathcal{L}_{dpt} = \mathcal{L}_{depth} + \mathcal{L}_{pc} + \mathcal{L}_{cam} + \mathcal{L}_{mask} + \lambda_{flow}\mathcal{L}_{flow}\]

（深度/点云用带 valid 掩码的 L1、相机用 Huber、掩码用 BCE，flow 按动态掩码逐像素重加权聚焦前景运动）。第二阶段端到端联合训练，并加入按背景/前景掩码区分的正则：对静态背景用深度一致正则 \(\mathcal{L}^{depth}_{reg} = \sum_i\sum_j \|\hat M^{bg}_i \odot (D_j - \text{Proj}(D_i, T_{i\to j}))\|_2\)（把第 \(i\) 帧深度按相机相对位姿 \(T_{i\to j}\) 投到第 \(j\) 帧，要求和 \(D_j\) 一致），对动态前景用场景流空间梯度平滑正则 \(\mathcal{L}^{flow}_{reg} = \sum_i (\|\hat M^{fg}_i \odot \nabla_x F^{3d}_i\|_2 + \|\hat M^{fg}_i \odot \nabla_y F^{3d}_i\|_2)\)。联合目标为 \(\mathcal{L} = \mathcal{L}_{diff} + \lambda_{dpt}\mathcal{L}_{dpt} + \lambda_{reg}\mathcal{L}_{reg}\)。

这套「静态守几何一致、动态守运动平滑」的分而治之是关键：实验显示对比 GeoVideo 那种只盯静态几何的正则，会逼模型偏好静态内容来维持一致性、牺牲动态；WorldReel 通过显式分别监督静/动两部分，绕开了这个 trade-off。

5. 混合数据与场景流伪标签构建：用真实数据补多样性，自造 3D 场景流标签

精确 4D 标签几乎只有合成数据有（PointOdyssey、BEDLAM、Dynamic Replica、Omniworld-Game），但合成数据规模和复杂度不够。作者补充从 Panda-70M 经 SpatialVid 筛出的高质量真实视频，用 SOTA 基础模型重标注：深度用 GeometryCrafter 拿时间平滑序列，相机/深度/前景掩码用 ViPE，点云由深度反投影得到（统一到第一帧规范坐标）。

最难的是场景流——真值几乎拿不到。作者借鉴 zero-MSF，从光流+几何标签自造稠密 3D 场景流伪标签：用 SEA-RAFT 算前/后向光流及逐像素不确定度，对帧 \(i\) 中像素 \(\mathbf{u}\) 定义前向映射 \(\mathbf{q}(\mathbf{u}) = \mathbf{u} + F^{2d}_{i\to i+1}(\mathbf{u})\)，则

\[\hat F^{3d}_i(\mathbf{u}) = \begin{cases} P_{i+1}(\mathbf{q}(\mathbf{u})) - P_i(\mathbf{u}), & \text{if } \hat M_i(\mathbf{u}) = 1 \\ \mathbf{0}, & \text{otherwise} \end{cases}\]

即在相邻点云间按光流找对应、做差得 3D 位移。这类标签噪声大，于是再叠一个有效性掩码 \(M^{flow}_i\)，只保留通过前景/实例、不确定度、前后向一致性检查的像素，训练 \(\mathcal{L}_{flow}\) 和 \(\mathcal{L}^{flow}_{reg}\) 时才计入。

损失函数 / 训练策略¶

基模型 CogVideoX-5B-I2V，生成 480×720、49 帧视频，4D 表示在同分辨率下降采样到 13 帧。两阶段：先 finetune 几何-运动增广 DiT 20K 步、单独训 DPT 头 100K 步；再端到端联合训 10K 步。8×H200，batch 8，AdamW，学习率 2e-5；\(\lambda_{flow}=5.0\)、\(\lambda_{dpt}=0.1\)、\(\lambda_{reg}=0.5\)。

实验关键数据¶

主实验¶

评测基于 SpatialVid 验证集构建两个 benchmark：general motion（500 随机视频）和 complex motion（500 个 3D 运动幅度最大的视频）。指标用 VBench 的 5 项（动态度 d.d.、运动平滑 m.s.、i2v-subject/background、subject consistency）+ FVD/FID。

数据集	指标	WorldReel	GeoVideo	4DNeX	说明
General	d.d. ↑	0.73	0.54	0.03	动态度远超基线
General	FVD ↓	336.1	371.3	712.5	比同数据训练的 GeoVideo -9.5%
General	FID ↓	36.58	46.78	44.97	画质最好
Complex	d.d. ↑	1.00	0.79	0.19	complex 集满分动态度
Complex	FVD ↓	394.2	409.9	632.8	-3.8%

4DNeX 虽然 subject consistency 高（0.983），但动态度仅 0.03、FVD 712.5，说明它塌缩成近乎静态视频——一致性是靠「不动」换来的。

4D 场景几何质量（Table 2，用 ViPE 伪真值，深度报 log-RMSE/δ，相机报 ATE/RTE/RRE）：

指标	WorldReel	GeoVideo	4DNeX
深度 log-rmse ↓	0.287	0.353	0.479
深度 δ1.25 ↑	71.1	63.4	39.9
ATE ↓	0.005	0.011	0.006
RTE ↓	0.007	0.012	0.017
RRE ↓	0.317	0.443	0.378

WorldReel 深度和相机位姿全面最优；4DNeX 虽 ATE 低，但轨迹长度/旋转近零，说明相机几乎没动。

消融实验¶

配置	General FVD ↓	Complex FVD ↓	Complex d.d. ↑	说明
base finetuned	383.4	437.0	0.98	仅 finetune 基模型
w/o g.m.	359.2	452.8	0.93	去几何-运动隐，complex FVD 反升（452.8 比 base 还差）
w/o joint	354.5	411.8	0.96	去联合训练/正则
freeze dpt	336.0	382.3	0.98	冻 DPT 头，FVD 最低
full	336.1	394.2	1.00	FID 最低、complex 动态度满分

几何模块的消融（Table 2）：w/o geomotion 深度 δ 升到 67.2 但 RRE/轨迹变差；w/o joint 深度 log-rmse 退到 0.399、相机 RRE 升到 0.410，证实联合训练对 4D 一致性关键。

关键发现¶

几何-运动隐对复杂动态最关键：在 RGB-only 模型上直接加联合训练+正则（w/o g.m.），complex 集 FVD（452.8）甚至比简单 finetune（437.0）还差——说明正则必须建立在几何-运动隐之上才有意义。
静态几何正则会反噬动态：GeoVideo 只盯静态几何一致，逼模型偏好静态内容；WorldReel 显式分别监督静/动两部分，把动态度从 0.54 拉到 0.73（general）、0.79→1.0（complex）。
freeze dpt 拿到最低 FVD 但 full 拿到最低 FID + 满分动态度：作者选 full 作为主模型，体现 FVD 与动态度/画质间的取舍。

亮点与洞察¶

「输入注入 + 输出监督」双管齐下：输入侧加 2.5D 先验（深度+光流）给归纳偏置，输出侧预测完整 4D 并把几何梯度反传回隐空间。单靠输入是 2.5D、解不开相机/物体运动，单靠输出监督又缺先验，两者合起来才把 4D 压进隐空间。
零初始化扩通道：复用预训练 DiT 时把新通道权重置零，让模型从「等价于原模型」平滑过渡，是适配预训练大模型加新模态的可复用 trick。
场景流伪标签自造：用「相邻点云按光流找对应做差」造稠密 3D 场景流标签，再用多重一致性检查滤噪，绕开了 3D 场景流真值几乎不可得的瓶颈，可迁移到任何需要动态 3D 监督的任务。
共享 DPT 骨干当正则：让所有 4D 任务共享一个解码骨干、只在最后分头，既省参数又逼模型学统一几何表示——多任务密集预测的好范式。

局限与展望¶

训练需要额外 4D 监督（相机/几何/场景流），目前主要来自合成数据；尽管有缓解 domain gap 的策略，gap 仍限制对罕见运动/动态的泛化。
时间窗口有限，在剧烈拓扑变化、严重遮挡、快速运动下会失败。
自己看：4D 标签依赖一串现成基础模型（GeometryCrafter/ViPE/SEA-RAFT），伪标签质量上限受这些模型限制；评测的几何「真值」也来自 ViPE，是自洽但非绝对真值，跨方法比较需注意 caveat。
作者展望：用弱/自监督的 4D 信号减少监督依赖、用流式/因果扩散扩展时间上下文维持持久世界状态、加可控场景分解做长时程交互式 4D 生成。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首个把完整 4D 结构（点云+相机+场景流）原生嵌进视频生成先验、且静动解耦监督的前馈框架
实验充分度: ⭐⭐⭐⭐ 两个 motion 难度集 + 视频质量/几何质量双维度评测 + 完整消融，但缺真实 4D 真值、依赖伪真值
写作质量: ⭐⭐⭐⭐ 动机和方法链条清晰，公式和数据流图配合好
价值: ⭐⭐⭐⭐⭐ 把视频生成推向「可渲染、可编辑、agent-ready」的 4D 一致世界模型，方向价值高