X-Scene: Large-Scale Driving Scene Generation with High Fidelity and Flexible Controllability¶

会议: NeurIPS 2025
arXiv: 2506.13558
代码: https://x-scene.github.io/
领域: Autonomous Driving / Scene Generation
关键词: 大规模场景生成, 多粒度控制, Occupancy生成, 3DGS重建, 自动驾驶仿真

一句话总结¶

提出 X-Scene，一个统一的大规模驾驶场景生成框架，支持从高层文本提示到底层 BEV 布局的多粒度控制，通过联合生成 3D 语义 occupancy、多视图图像和视频，并利用一致性感知外推实现大规模场景扩展，在生成质量（FID 11.29）和下游任务上全面超越现有方法。

研究背景与动机¶

扩散模型在自动驾驶数据合成和仿真中大放异彩，但现有工作主要聚焦于时间一致性的视频生成（如 MagicDrive、DriveDreamer），而空间一致性的大规模 3D 场景生成仍是未充分探索的方向。

现有方法的核心痛点：

SemCity：可生成城市级 3D occupancy 网格，但缺乏外观细节，无法用于真实仿真

UniScene / InfiniCube：同时生成 occupancy 和图像，但需要手动设计大规模布局作为输入，流程复杂且灵活性差

通用大规模城市生成方法（InfiniCity、CityDreamer）：不针对驾驶场景，缺乏精确的道路布局和动态目标

大规模驾驶场景生成面临三个核心挑战：灵活可控性、高保真几何与外观、大规模一致性。

核心 idea：构建从文本/布局到 occupancy - 图像 - 视频的统一级联生成管线，通过一致性感知外推实现大规模场景扩展，并重建为 3DGS 支持下游应用。

方法详解¶

整体框架¶

X-Scene 由三个核心模块组成：(1) 多粒度可控性——结合高层文本和底层布局条件；(2) 联合 Occupancy-Image-Video 生成——确保跨模态对齐和时序一致性；(3) 大规模场景外推与 3DGS 重建。

关键设计¶

多粒度可控性:
- 功能：支持从粗糙文本提示到精细几何布局的多层次场景控制
- 核心思路：高层路径用 RAG 增强 LLM 生成详细场景描述，构建场景图，用图卷积+条件扩散生成布局；底层路径直接使用 BEV 布局和 3D 框
- 设计动机：高层控制适合快速原型设计，底层控制适合精确仿真，两者互补
联合 Occupancy-Image-Video 生成:
- 功能：按 3D-to-2D 层级顺序生成对齐的占用场、多视图图像和时序视频
- Occupancy 生成：Triplane 表示 + 提出 Triplane 可变形注意力缓解下采样信息损失
- 图像生成：occupancy 体素转 3D 高斯渲染语义/深度图，融合为几何嵌入条件化图像扩散
- 视频生成：前序图像作参考帧，仅微调时序注意力层，自回归流式生成
- 设计动机：3D to 2D 层级生成确保几何-外观一致性
大规模场景外推与 3DGS 重建:
- 功能：从局部扩展到大规模连贯环境
- Occupancy 外推：triplane 分解为三个 2D 平面外推，重叠掩码同步去噪
- 图像外推：微调扩散模型以参考图像和相机嵌入为条件生成新视图
- 设计动机：一致性感知外推保证重叠区域结构一致性

训练策略¶

三个扩散模型分别训练，均采用噪声预测目标。视频扩散仅微调时序注意力层。

实验关键数据¶

主实验¶

Occupancy 生成：

方法	FID3D	F3D	P3D	R3D
UniScene	529.6	0.396	0.382	0.412
X-Scene	258.8	0.778	0.769	0.787

多视图图像生成：

方法	FID	Road mIoU	Veh. mIoU	mAP	NDS
MagicDrive	16.20	61.05	27.01	12.30	23.32
DreamForge	14.61	65.27	28.36	13.01	22.16
X-Scene (224x400)	11.29	66.48	29.76	16.28	26.26
X-Scene (448x800)	12.77	69.06	33.27	27.65	34.48

数据增强效果：

数据	3D mAP	BEV Road mIoU	BEV Veh. mIoU
仅真实	34.5	74.30	36.00
+UniScene	36.5	81.69	41.62
+X-Scene	39.9	83.37	43.05

消融实验¶

配置	IoU	mIoU	FID3D	F3D	说明
完整	85.6	92.4	258.8	0.778	-
w/o Deform Attn (50x50)	64.7	74.2	462.4	0.510	下采样损失严重
w/ Deform Attn (50x50)	66.6	76.6	436.1	0.522	可变形注意力+2.4%
w/o Layout Cond	85.6	92.4	1584	0.237	FID 暴涨 6x

关键发现¶

Triplane-VAE 重建 mIoU 92.4%，大幅超越 UniScene 73.7%
FID3D 减少 51.2%（258.8 vs 529.6）
数据增强后 3D 检测 mAP 提升 5.4（34.5 to 39.9）
7 帧训练优于 16 帧基线（FVD 179.7 vs 217.9），验证自回归时序建模高效性

亮点与洞察¶

首个全链路驾驶场景生成框架：文本 - 场景图 - 布局 - occupancy - 图像 - 视频 - 3DGS
多粒度控制双路径设计极具实用性
Triplane 可变形注意力在保持编码效率的同时大幅提升重建精度
一致性感知外推优雅地将局部生成扩展到大规模场景

局限与展望¶

渐进式外推在超大规模场景中可能累积误差
场景图到布局的扩散生成依赖训练数据多样性
未探索动态目标的时空一致性生成

评分¶

新颖性: ⭐⭐⭐⭐
实验充分度: ⭐⭐⭐⭐⭐
写作质量: ⭐⭐⭐⭐
价值: ⭐⭐⭐⭐⭐