X-Scene: Large-Scale Driving Scene Generation with High Fidelity and Flexible Controllability¶
会议: NeurIPS 2025
arXiv: 2506.13558
代码: https://x-scene.github.io/
领域: Autonomous Driving / Scene Generation
关键词: 大规模场景生成, 多粒度控制, Occupancy生成, 3DGS重建, 自动驾驶仿真
一句话总结¶
提出 X-Scene,一个统一的大规模驾驶场景生成框架,支持从高层文本提示到底层 BEV 布局的多粒度控制,通过联合生成 3D 语义 occupancy、多视图图像和视频,并利用一致性感知外推实现大规模场景扩展,在生成质量(FID 11.29)和下游任务上全面超越现有方法。
研究背景与动机¶
扩散模型在自动驾驶数据合成和仿真中大放异彩,但现有工作主要聚焦于时间一致性的视频生成(如 MagicDrive、DriveDreamer),而空间一致性的大规模 3D 场景生成仍是未充分探索的方向。
现有方法的核心痛点:
SemCity:可生成城市级 3D occupancy 网格,但缺乏外观细节,无法用于真实仿真
UniScene / InfiniCube:同时生成 occupancy 和图像,但需要手动设计大规模布局作为输入,流程复杂且灵活性差
通用大规模城市生成方法(InfiniCity、CityDreamer):不针对驾驶场景,缺乏精确的道路布局和动态目标
大规模驾驶场景生成面临三个核心挑战:灵活可控性、高保真几何与外观、大规模一致性。
核心 idea:构建从文本/布局到 occupancy - 图像 - 视频的统一级联生成管线,通过一致性感知外推实现大规模场景扩展,并重建为 3DGS 支持下游应用。
方法详解¶
整体框架¶
X-Scene 由三个核心模块组成:(1) 多粒度可控性——结合高层文本和底层布局条件;(2) 联合 Occupancy-Image-Video 生成——确保跨模态对齐和时序一致性;(3) 大规模场景外推与 3DGS 重建。
关键设计¶
-
多粒度可控性:
- 功能:支持从粗糙文本提示到精细几何布局的多层次场景控制
- 核心思路:高层路径用 RAG 增强 LLM 生成详细场景描述,构建场景图,用图卷积+条件扩散生成布局;底层路径直接使用 BEV 布局和 3D 框
- 设计动机:高层控制适合快速原型设计,底层控制适合精确仿真,两者互补
-
联合 Occupancy-Image-Video 生成:
- 功能:按 3D-to-2D 层级顺序生成对齐的占用场、多视图图像和时序视频
- Occupancy 生成:Triplane 表示 + 提出 Triplane 可变形注意力缓解下采样信息损失
- 图像生成:occupancy 体素转 3D 高斯渲染语义/深度图,融合为几何嵌入条件化图像扩散
- 视频生成:前序图像作参考帧,仅微调时序注意力层,自回归流式生成
- 设计动机:3D to 2D 层级生成确保几何-外观一致性
-
大规模场景外推与 3DGS 重建:
- 功能:从局部扩展到大规模连贯环境
- Occupancy 外推:triplane 分解为三个 2D 平面外推,重叠掩码同步去噪
- 图像外推:微调扩散模型以参考图像和相机嵌入为条件生成新视图
- 设计动机:一致性感知外推保证重叠区域结构一致性
训练策略¶
三个扩散模型分别训练,均采用噪声预测目标。视频扩散仅微调时序注意力层。
实验关键数据¶
主实验¶
Occupancy 生成:
| 方法 | FID3D | F3D | P3D | R3D |
|---|---|---|---|---|
| UniScene | 529.6 | 0.396 | 0.382 | 0.412 |
| X-Scene | 258.8 | 0.778 | 0.769 | 0.787 |
多视图图像生成:
| 方法 | FID | Road mIoU | Veh. mIoU | mAP | NDS |
|---|---|---|---|---|---|
| MagicDrive | 16.20 | 61.05 | 27.01 | 12.30 | 23.32 |
| DreamForge | 14.61 | 65.27 | 28.36 | 13.01 | 22.16 |
| X-Scene (224x400) | 11.29 | 66.48 | 29.76 | 16.28 | 26.26 |
| X-Scene (448x800) | 12.77 | 69.06 | 33.27 | 27.65 | 34.48 |
数据增强效果:
| 数据 | 3D mAP | BEV Road mIoU | BEV Veh. mIoU |
|---|---|---|---|
| 仅真实 | 34.5 | 74.30 | 36.00 |
| +UniScene | 36.5 | 81.69 | 41.62 |
| +X-Scene | 39.9 | 83.37 | 43.05 |
消融实验¶
| 配置 | IoU | mIoU | FID3D | F3D | 说明 |
|---|---|---|---|---|---|
| 完整 | 85.6 | 92.4 | 258.8 | 0.778 | - |
| w/o Deform Attn (50x50) | 64.7 | 74.2 | 462.4 | 0.510 | 下采样损失严重 |
| w/ Deform Attn (50x50) | 66.6 | 76.6 | 436.1 | 0.522 | 可变形注意力+2.4% |
| w/o Layout Cond | 85.6 | 92.4 | 1584 | 0.237 | FID 暴涨 6x |
关键发现¶
- Triplane-VAE 重建 mIoU 92.4%,大幅超越 UniScene 73.7%
- FID3D 减少 51.2%(258.8 vs 529.6)
- 数据增强后 3D 检测 mAP 提升 5.4(34.5 to 39.9)
- 7 帧训练优于 16 帧基线(FVD 179.7 vs 217.9),验证自回归时序建模高效性
亮点与洞察¶
- 首个全链路驾驶场景生成框架:文本 - 场景图 - 布局 - occupancy - 图像 - 视频 - 3DGS
- 多粒度控制双路径设计极具实用性
- Triplane 可变形注意力在保持编码效率的同时大幅提升重建精度
- 一致性感知外推优雅地将局部生成扩展到大规模场景
局限与展望¶
- 渐进式外推在超大规模场景中可能累积误差
- 场景图到布局的扩散生成依赖训练数据多样性
- 未探索动态目标的时空一致性生成
相关工作与启发¶
- 与 MagicDrive、UniScene 互补:X-Scene 侧重空间扩展性和可控性
- Text-to-Layout 的 RAG+场景图+扩散管线可迁移到室内场景等领域
- Occupancy 先行生成思路为 3D 感知数据增强提供新范式
评分¶
- 新颖性: ⭐⭐⭐⭐
- 实验充分度: ⭐⭐⭐⭐⭐
- 写作质量: ⭐⭐⭐⭐
- 价值: ⭐⭐⭐⭐⭐