跳转至

X-Scene: Large-Scale Driving Scene Generation with High Fidelity and Flexible Controllability

会议: NeurIPS 2025
arXiv: 2506.13558
代码: https://x-scene.github.io/
领域: Autonomous Driving / Scene Generation
关键词: 大规模场景生成, 多粒度控制, Occupancy生成, 3DGS重建, 自动驾驶仿真

一句话总结

提出 X-Scene,一个统一的大规模驾驶场景生成框架,支持从高层文本提示到底层 BEV 布局的多粒度控制,通过联合生成 3D 语义 occupancy、多视图图像和视频,并利用一致性感知外推实现大规模场景扩展,在生成质量(FID 11.29)和下游任务上全面超越现有方法。

研究背景与动机

扩散模型在自动驾驶数据合成和仿真中大放异彩,但现有工作主要聚焦于时间一致性的视频生成(如 MagicDrive、DriveDreamer),而空间一致性的大规模 3D 场景生成仍是未充分探索的方向。

现有方法的核心痛点:

SemCity:可生成城市级 3D occupancy 网格,但缺乏外观细节,无法用于真实仿真

UniScene / InfiniCube:同时生成 occupancy 和图像,但需要手动设计大规模布局作为输入,流程复杂且灵活性差

通用大规模城市生成方法(InfiniCity、CityDreamer):不针对驾驶场景,缺乏精确的道路布局和动态目标

大规模驾驶场景生成面临三个核心挑战:灵活可控性、高保真几何与外观、大规模一致性。

核心 idea:构建从文本/布局到 occupancy - 图像 - 视频的统一级联生成管线,通过一致性感知外推实现大规模场景扩展,并重建为 3DGS 支持下游应用。

方法详解

整体框架

X-Scene 由三个核心模块组成:(1) 多粒度可控性——结合高层文本和底层布局条件;(2) 联合 Occupancy-Image-Video 生成——确保跨模态对齐和时序一致性;(3) 大规模场景外推与 3DGS 重建。

关键设计

  1. 多粒度可控性:

    • 功能:支持从粗糙文本提示到精细几何布局的多层次场景控制
    • 核心思路:高层路径用 RAG 增强 LLM 生成详细场景描述,构建场景图,用图卷积+条件扩散生成布局;底层路径直接使用 BEV 布局和 3D 框
    • 设计动机:高层控制适合快速原型设计,底层控制适合精确仿真,两者互补
  2. 联合 Occupancy-Image-Video 生成:

    • 功能:按 3D-to-2D 层级顺序生成对齐的占用场、多视图图像和时序视频
    • Occupancy 生成:Triplane 表示 + 提出 Triplane 可变形注意力缓解下采样信息损失
    • 图像生成:occupancy 体素转 3D 高斯渲染语义/深度图,融合为几何嵌入条件化图像扩散
    • 视频生成:前序图像作参考帧,仅微调时序注意力层,自回归流式生成
    • 设计动机:3D to 2D 层级生成确保几何-外观一致性
  3. 大规模场景外推与 3DGS 重建:

    • 功能:从局部扩展到大规模连贯环境
    • Occupancy 外推:triplane 分解为三个 2D 平面外推,重叠掩码同步去噪
    • 图像外推:微调扩散模型以参考图像和相机嵌入为条件生成新视图
    • 设计动机:一致性感知外推保证重叠区域结构一致性

训练策略

三个扩散模型分别训练,均采用噪声预测目标。视频扩散仅微调时序注意力层。

实验关键数据

主实验

Occupancy 生成:

方法 FID3D F3D P3D R3D
UniScene 529.6 0.396 0.382 0.412
X-Scene 258.8 0.778 0.769 0.787

多视图图像生成:

方法 FID Road mIoU Veh. mIoU mAP NDS
MagicDrive 16.20 61.05 27.01 12.30 23.32
DreamForge 14.61 65.27 28.36 13.01 22.16
X-Scene (224x400) 11.29 66.48 29.76 16.28 26.26
X-Scene (448x800) 12.77 69.06 33.27 27.65 34.48

数据增强效果:

数据 3D mAP BEV Road mIoU BEV Veh. mIoU
仅真实 34.5 74.30 36.00
+UniScene 36.5 81.69 41.62
+X-Scene 39.9 83.37 43.05

消融实验

配置 IoU mIoU FID3D F3D 说明
完整 85.6 92.4 258.8 0.778 -
w/o Deform Attn (50x50) 64.7 74.2 462.4 0.510 下采样损失严重
w/ Deform Attn (50x50) 66.6 76.6 436.1 0.522 可变形注意力+2.4%
w/o Layout Cond 85.6 92.4 1584 0.237 FID 暴涨 6x

关键发现

  • Triplane-VAE 重建 mIoU 92.4%,大幅超越 UniScene 73.7%
  • FID3D 减少 51.2%(258.8 vs 529.6)
  • 数据增强后 3D 检测 mAP 提升 5.4(34.5 to 39.9)
  • 7 帧训练优于 16 帧基线(FVD 179.7 vs 217.9),验证自回归时序建模高效性

亮点与洞察

  • 首个全链路驾驶场景生成框架:文本 - 场景图 - 布局 - occupancy - 图像 - 视频 - 3DGS
  • 多粒度控制双路径设计极具实用性
  • Triplane 可变形注意力在保持编码效率的同时大幅提升重建精度
  • 一致性感知外推优雅地将局部生成扩展到大规模场景

局限与展望

  • 渐进式外推在超大规模场景中可能累积误差
  • 场景图到布局的扩散生成依赖训练数据多样性
  • 未探索动态目标的时空一致性生成

相关工作与启发

  • 与 MagicDrive、UniScene 互补:X-Scene 侧重空间扩展性和可控性
  • Text-to-Layout 的 RAG+场景图+扩散管线可迁移到室内场景等领域
  • Occupancy 先行生成思路为 3D 感知数据增强提供新范式

评分

  • 新颖性: ⭐⭐⭐⭐
  • 实验充分度: ⭐⭐⭐⭐⭐
  • 写作质量: ⭐⭐⭐⭐
  • 价值: ⭐⭐⭐⭐⭐