DrivingSphere: Building a High-fidelity 4D World for Closed-loop Simulation¶

会议: CVPR 2025
arXiv: 2411.11252
代码: https://yanty123.github.io/DrivingSphere/
领域: 自动驾驶
关键词: 闭环仿真、4D世界模型、占用网格扩散、视频生成、自动驾驶

一句话总结¶

构建基于 4D 占用网格的高保真闭环驾驶仿真框架——用 OccDreamer 从 BEV 生成静态场景占用、用 Actor Bank 组合动态物体、用 VideoDreamer 从占用条件生成多视角视频，FVD 降低 44%，物体检测 mAP 提升 33%。

领域现状：自动驾驶仿真需要高保真的视觉渲染来测试规划算法。现有方法（MagicDrive、DriveArena）使用 2D 布局或 3D BBox 作为场景条件，几何精度不够。

现有痛点：(1) 2D 布局条件无法准确表达3D几何关系（遮挡、距离）。(2) 背景场景（建筑、植被）生成质量差。(3) 动态物体（车辆、行人）的时序/视角一致性不足。(4) 无法支持文本引导的场景编辑。

核心矛盾：闭环仿真需要像素级准确的多视角视频，但现有条件控制（2D/3D BBox）信息量不足以约束高保真生成。

本文目标 用 4D 占用网格作为中间表示，提供比 BBox 更丰富的几何条件，驱动高保真多视角视频生成。

切入角度：将仿真分为两步——先生成 4D 占用网格（静态背景 + 动态物体组合），再从占用网格条件化生成多视角视频。

核心 idea：OccDreamer 生成静态场景占用 + Actor Bank 插入动态物体 → VideoDreamer 从 4D 占用条件生成时空一致的多视角视频。

BEV 地图 → OccDreamer（VQVAE + CLIP 条件扩散）生成静态占用 → Actor Bank 提供动态物体占用 → 4D 占用组合 → VideoDreamer（ST-DiT + ControlNet）生成多视角视频。

OccDreamer（静态场景生成）:
- 功能：从 BEV 地图生成完整的静态场景占用网格
- 核心思路：先用 VQVAE 将占用网格离散化，再用 CLIP 条件 + ControlNet（BEV 作为控制信号）做扩散生成。支持场景扩展——通过重叠区域做外推
- 设计动机：FID 274 vs SemCity 634，证明扩散生成比传统方法质量高得多
VideoDreamer（多视角视频生成）:
- 功能：从 4D 占用条件生成时空一致的多视角视频
- 核心思路：ST-DiT（Spatial-Temporal Diffusion Transformer）+ VSSA（View-aware Spatial Self-Attention）实现多视角一致性。ControlNet-DiT 接入占用渲染的语义图作为空间条件。ID-aware actor encoding 用 Fourier 编码位置/ID + T5 编码描述保证同一车辆跨帧一致
- 设计动机：标准扩散模型无法保证多视角和时序一致性，VSSA+ID 编码解决了这两个问题
自回归时序生成:
- 功能：保证长视频的时序连续性
- 核心思路：每次生成一段视频后，用最后几帧作为下一段的条件继续生成
- 设计动机：单次生成长视频质量下降，分段自回归是目前最可靠的方案

扩散模型标准训练。nuScenes 数据集。支持文本引导的占用生成。

方法	FVD↓	mAP↑	NDS↑	Lanes↑
MagicDrive	218.12	12.92	28.36	21.95
DriveArena	185.32	16.06	30.03	26.14
DrivingSphere	103.42	21.45	34.16	27.99

4D 占用条件 >> 2D/3D BBox 条件：mAP 21.45 vs DriveArena 16.06（+33%），FVD 103 vs 185（-44%）
首次支持文本引导占用生成：可以用文本描述生成不同风格的场景
闭环仿真中优势更大（ADS 0.085 vs 0.051），因为4D几何一致性对连续决策更重要