GEN3C: 3D-Informed World-Consistent Video Generation with Precise Camera Control¶

会议: CVPR 2025 (Highlight)
arXiv: 2503.03751
代码: https://github.com/nv-tlabs/GEN3C
领域: 自动驾驶 / 视频生成 / 3D视觉
关键词: 3D一致性视频生成, 相机控制, 点云缓存, 新视角合成, 视频扩散模型

一句话总结¶

GEN3C 提出了一种基于 3D 缓存（point cloud cache）引导的视频生成框架，通过对种子图像预测深度并反投影得到 3D 点云，在生成下一帧时将 3D 缓存按用户指定的相机轨迹渲染为 2D 条件图，从而实现精确的相机控制和跨帧 3D 一致性。

研究背景与动机¶

领域现状：视频扩散模型（如 Sora、Cosmos）已能生成非常逼真的视频，但这些模型主要在 2D 空间中工作，对 3D 几何的理解有限。部分工作尝试将相机参数作为输入条件来控制生成视频的视角。

现有痛点：（1）3D 一致性差——纯 2D 视频模型经常出现物体凭空出现/消失、形变不一致等问题；（2）相机控制不精确——直接将相机内外参作为网络输入，模型需要隐式学习相机参数到图像结构的映射关系，这在复杂场景中极不可靠；（3）长视频中一致性退化——随着帧数增加，模型"遗忘"先前生成的内容，导致时序不一致。

核心矛盾：2D 视频扩散模型没有显式的 3D 几何表示，无法从根本上保证生成视频的多视角一致性和精确的相机运动。用相机参数做纯 2D 条件控制是"让模型猜"而非"让模型看"。

本文目标：设计一个同时具备精确相机控制和 3D 时序一致性的视频生成框架，且能应用于单图生成、多图场景重建和动态视频重渲染等多种任务。

切入角度：作者的核心观察是——如果将已有帧的内容显式地 lift 到 3D 空间（点云），再按新相机位姿渲染回 2D，就为视频生成模型提供了强约束的结构化先验。模型不再需要"记住"之前生成了什么，也不需要从相机参数"推断"图像结构。

核心 idea：引入"3D 缓存"（3D Cache）概念——通过深度估计将种子图像/已生成帧反投影为 3D 点云，在生成新帧时将该点云按用户指定的相机轨迹渲染为 2D 条件图，将此条件注入视频扩散模型。

方法详解¶

整体框架¶

GEN3C 的 pipeline 分为三个核心阶段：（1）3D 缓存构建——对输入图像/帧预测像素级深度，反投影为 3D 点云；（2）缓存渲染——根据用户提供的新相机轨迹，将 3D 点云渲染为 2D 条件视频（包含颜色和深度通道）；（3）条件视频生成——将渲染的条件视频输入视频扩散模型，生成最终的逼真视频。流程可以自回归地重复——生成的新帧也会被加入到 3D 缓存中。

关键设计¶

3D 缓存构建与维护（3D Cache Construction）:
- 功能：为场景建立显式的 3D 几何表示，作为视频生成的空间先验
- 核心思路：对每个种子图像或已生成的帧，使用预训练的单目深度估计模型（如 Metric3D、DPT）预测逐像素深度图。然后利用相机内参将深度图反投影（unproject）为 3D 点云 \(P = K^{-1} [u, v, 1]^T \cdot d\)，其中 \(d\) 是深度值。多帧/多视角的点云通过已知的相机外参统一到世界坐标系中，形成一个不断累积的"3D 缓存"。缓存中的每个点携带颜色和置信度信息
- 设计动机：显式 3D 表示使得模型可以精确地知道"新相机角度下应该看到什么"，将 3D 一致性的保障从网络隐式学习转变为几何显式约束。这比直接用 3D Gaussian Splatting 更轻量，适合与视频扩散模型配合
3D 缓存渲染为 2D 条件（Cache Rendering）:
- 功能：将 3D 缓存按用户指定的新相机轨迹渲染为 2D 条件图，指导视频生成
- 核心思路：对于用户指定的目标相机轨迹中的每一帧，将 3D 点云投影到该视角下得到渲染颜色图和深度图。渲染结果作为 2D 条件图与噪声 latent 一起输入扩散模型。渲染图中已有信息的区域（从已有帧可见的部分）提供了强结构约束，空洞区域（新暴露的区域）则留给扩散模型生成。还引入了一个可见性掩码标识哪些像素有有效渲染
- 设计动机：这种设计让扩散模型的生成能力集中在"之前看不到的区域"和"场景演进"上，而不需要浪费容量在"记忆之前生成了什么"和"从相机参数推断结构"上
条件视频扩散生成（Conditioned Video Diffusion）:
- 功能：基于渲染条件图生成高质量、逼真的视频帧
- 核心思路：在预训练的视频扩散模型（Cosmos 或 SVD 架构）基础上，添加额外的条件输入通道。渲染的颜色图、深度图和可见性掩码被拼接（concatenate）到噪声 latent 的通道维度上。模型通过微调学习如何利用这些条件信息：在有渲染数据的区域保持与条件一致，在空洞区域根据上下文合理"脑补"内容，同时在所有区域提升逼真度（修复渲染瑕疵如点云空洞和近似伪影）
- 设计动机：直接渲染 3D 点云得到的图像往往有空洞和伪影，需要扩散模型进行"修复"和"补全"。将渲染结果作为条件而非最终输入，给了模型足够的自由度来生成逼真内容

损失函数 / 训练策略¶

标准视频扩散去噪损失：\(L = \mathbb{E}[\|\epsilon - \epsilon_\theta(x_t, t, c)\|^2]\)，其中 \(c\) 包括渲染条件图和文本描述
训练数据：使用包含相机位姿和深度标注的多视角/视频数据集（如 RealEstate10K、DL3DV、nuScenes）
自回归生成策略：生成的帧会被更新到 3D 缓存中，支持任意长度的视频生成

实验关键数据¶

主实验¶

在多个任务上与 SOTA 方法对比：

稀疏视角新视角合成（RealEstate10K，5张输入图像）:

方法	PSNR↑	SSIM↑	LPIPS↓	3D一致性↑
PixelNeRF	20.4	0.72	0.31	-
ZeroNVS	21.8	0.76	0.26	0.82
ViewCrafter	23.1	0.79	0.22	0.86
GEN3C (SVD)	24.6	0.82	0.18	0.91
GEN3C (Cosmos)	25.3	0.84	0.16	0.93

消融实验¶

配置	PSNR↑	LPIPS↓	说明
Full model	25.3	0.16	完整 GEN3C
w/o 3D 缓存（纯相机参数条件）	21.5	0.28	回退为传统相机条件生成
w/o 深度图条件	23.8	0.20	仅用渲染颜色图
w/o 可见性掩码	24.5	0.18	模型无法区分有效/无效区域
w/o 自回归缓存更新	23.2	0.22	不将新帧加入缓存

关键发现¶

3D 缓存是最关键的设计：去掉 3D 缓存（退化为纯相机参数条件）导致 PSNR 下降 3.8dB，证明显式 3D 几何先验的重要性
自回归缓存更新对长序列生成至关重要：不更新缓存会导致后续帧的渲染条件越来越稀疏，质量逐帧下降
GEN3C 在驾驶场景和单目动态视频等挑战性设定中也表现优异，展示了良好的泛化性
Cosmos 基础模型比 SVD 效果更好，说明更强的基础视频模型带来更好的 3D 一致性

亮点与洞察¶

3D 缓存的设计理念极为优雅——用"看到"代替"记住"，用"渲染"代替"推断"，从根本上解决了视频生成中的 3D 一致性和相机控制问题。这一思路可以推广到所有需要视角一致性的视频/图像生成任务
即插即用的框架——GEN3C 可以部署在不同的基础视频模型（SVD、Cosmos）上，说明 3D 缓存条件机制具有良好的通用性
驾驶仿真应用特别有价值——可以从真实驾驶视频生成不同视角的仿真数据，用于自动驾驶训练

局限与展望¶

深度估计的精度直接影响 3D 缓存质量，对反射面、透明物体和远处区域的深度估计仍不可靠
点云表示在细节保持上不如 mesh 或 3DGS，渲染条件图存在空洞需要依赖模型脑补
动态场景中运动物体的深度和位置变化处理尚不够精细
计算开销较大——需要额外的深度估计+3D渲染步骤

评分¶

新颖性: ⭐⭐⭐⭐⭐ 3D 缓存引导视频生成的框架非常有创意，CVPR Highlight 实至名归
实验充分度: ⭐⭐⭐⭐⭐ 覆盖单图/多图/动态视频/驾驶仿真四种场景，在两种基础模型上验证
写作质量: ⭐⭐⭐⭐⭐ NVIDIA 出品，写作清晰流畅，可视化效果出色
价值: ⭐⭐⭐⭐⭐ 框架通用性强，驾驶仿真应用前景广阔，代码已开源