跳转至

Towards Foundational LiDAR World Models with Efficient Latent Flow Matching

会议: NeurIPS 2025
arXiv: 2506.23434
代码: 待确认
领域: 自动驾驶
关键词: LiDAR世界模型, 流匹配, 4D语义占据预测, 域迁移, VAE压缩, 基础模型

一句话总结

本文提出首个可迁移的 LiDAR 世界模型,通过 Swin Transformer VAE 实现 192× 高压缩比(SOTA 重建精度)、条件流匹配(CFM)替代扩散模型实现 SOTA 语义占据预测(仅需前人 4.38% FLOPs),并在三种域迁移任务中以 5% 标注数据超越 OccWorld 全量训练。

背景与动机

  1. RGB 世界模型的几何缺陷:基于 RGB 的世界模型(GAIA-1/2、Cosmos)虽然生成能力强,但缺乏显式的深度和语义结构信息,无法直接用于自动驾驶的规划与控制。
  2. LiDAR 世界模型的域限制:现有 LiDAR 世界模型(Copilot4D、BEVWorld)仅在特定数据集/传感器配置下训练和评估,缺乏跨域迁移能力——换个传感器或环境就失效。
  3. 语义标注成本高昂:4D 语义占据预测任务(OccWorld、DOME 等)严重依赖昂贵的人工语义标注,限制了模型的可扩展性。
  4. 压缩效率不足:现有方法直接沿用 SD3 的编解码架构处理 LiDAR 数据,压缩比低(16×-64×),导致动力学模型参数冗余、训练慢。
  5. 扩散模型训练效率低:DDPM 训练 + DDIM 采样的范式在 LiDAR 预测中需要数千 epoch 才能收敛,计算成本极高,阻碍了迁移性研究。
  6. 动态知识的可迁移性未被探索:物体运动的因果规律(动力学先验)在不同环境间应是共享的,但此前无人系统性研究 LiDAR 世界模型的预训练-微调范式。

方法详解

整体框架:预训练-微调 LiDAR 世界模型

  • 功能:在大规模无标注 LiDAR 数据上预训练一个通用世界模型,然后微调到不同下游任务(不同波束数、室内场景、语义占据预测)。
  • 为什么:动态知识(物体如何运动)是跨域共享的,预训练可以学到通用的三维动力学先验,减少下游标注需求。
  • 怎么做
  • 使用 nuScenes 无标注 LiDAR 数据训练 VAE + CFM 模型。
  • 对三种下游任务分别微调:(i) 稀疏→稠密波束适配(KITTI360);(ii) 室外→室内(自采 Jackal 数据);(iii) 无语义→有语义(nuScenes Occ3D)。
  • 通过表征对齐(VAE 微调 + 余弦相似度损失)确保微调时潜在空间不偏移。

关键设计 1:Swin Transformer VAE 高效压缩

  • 功能:设计面向 LiDAR 的 VAE 架构,实现远超前人的压缩比(192×)且保持 SOTA 重建精度。
  • 为什么:前人直接复用图像 VAE(SD3 架构),LiDAR BEV 的稀疏特性未被充分利用;低压缩比(16×-64×)导致潜在表示维度过高,大幅增加动力学模型参数量。
  • 怎么做
  • 编码:高度嵌入 + 类别嵌入→2D BEV 特征图→Swin Transformer 编码器(用卷积层替代 Patch Merging 下采样)→轻量 Neck 压缩至 16 通道→重参数化采样。
  • 解码:对称 2D 结构(去除 3D 块,实验证明 3D 块反而有害)→可微分射线渲染恢复点云或通过类嵌入相似度恢复占据图。
  • 连续编码:放弃离散码本(避免 codebook collapse 和低压缩效率),采用连续高斯潜在变量。

关键设计 2:条件流匹配(CFM)预测模型

  • 功能:用 Rectified Flow 替代 DDPM/DDIM 作为生成式预测框架。
  • 为什么:扩散模型需要大量采样步数(1000 步 DDPM / 50 步 DDIM),而流匹配沿直线路径回归速度场,仅需少量步数即可生成高质量样本,FLOPs 仅为前人 4.38%-28.91%。
  • 怎么做
  • 线性插值加噪\(\mathbf{x}_t = (1-t)\epsilon + t\sigma \mathbf{z}_{s}^{t_1:t_2}\),从标准高斯到目标分布的直线路径。
  • 时空 DiT 架构改进:空间 DiT 之后插入 3D 卷积层增大时序感受野(解决逐帧潜在表示时序依赖弱的问题),并采用 UNet 式多尺度结构替代单步长 DiT 骨干。
  • 训练目标:Rectified Flow 损失 \(\mathcal{L}(\theta) = \mathbb{E}\|\mu_t^\theta(\mathbf{z}) - (\mathbf{z}_s - \mathbf{x}_0)\|^2\),时间步从 \(\text{sigmoid}(\mathcal{N}(0,1))\) 采样。
  • 条件输入:历史潜在帧 + 噪声未来帧沿时间维拼接,可选条件加入未来轨迹。

关键设计 3:表征对齐微调策略

  • 功能:微调时保持新域潜在空间与预训练域对齐。
  • 为什么:直接使用预训练 VAE 或从头训练新 VAE 都会导致特征空间不匹配,使预训练 CFM 无法有效利用。
  • 怎么做
  • 对波束适配和室内任务:直接微调 VAE 全部参数。
  • 对语义占据预测(嵌入层维度不同):在语义 VAE 训练损失中加入余弦相似度对齐项 \(\kappa \mathcal{L}_{\cos}(\mathbf{z}_s, \mathbf{d}_s)\),引导语义潜在空间靠近稠密占据的潜在空间。

实验关键数据

表1:nuScenes 语义占据预测 SOTA 比较

方法 1s mIoU 2s mIoU 3s mIoU Avg mIoU GFLOPs/帧 FPS
OccWorld 25.75 15.14 10.51 17.13 1347.09 16.97
DynamicCity 26.18 16.94 774.44 19.30
Ours 33.17 21.09 15.64 23.33 389.46 22.22
DOME† 29.39 20.98 16.17 22.18 8891.98 5.48
Ours† 36.42 27.39 21.66 28.49 389.46 21.43

表2:VAE 重建精度 vs 压缩比

方法 压缩比 mIoU IoU
UniScenes 32× 92.1 87.0
DOME 64× 83.1 77.3
Ours 32× 99.2 97.9
Ours 192× 92.8 85.8
Ours 768× 80.0 69.3

关键发现

  • 在无未来轨迹条件下,1s mIoU 达 33.17%,超越 RenderWorld(28.69%)4.48 个绝对百分点。
  • 使用未来轨迹条件时,超越 DOME 至少 5.5% mIoU,且 FLOPs 仅为 DOME 的 4.38%、FPS 快 3.9 倍。
  • 域迁移实验中,仅用 5% 标注数据(即 OccWorld 所用标注量的 5%)即超越 OccWorld 全量训练结果,相对 mIoU 提升 82.6%/80.7%/69.7%(1s/2s/3s)。
  • 30/36 个比较点中,预训练模型优于从头训练,最高获得 11.17% 绝对性能提升。
  • FVD 时序一致性得分 7.68,显著优于 OccWorld(18.68)和 DOME(9.79)。

亮点

  1. 首个 LiDAR 基础世界模型迁移性研究,系统性验证了三种域迁移场景(波束适配、室内外、非语义→语义)。
  2. 192× 压缩比 + SOTA 重建的 Swin Transformer VAE 是该领域的重大工程贡献。
  3. 5% 标注数据超越全量训练极大地降低了语义占据预测的标注成本,具有重要实用价值。
  4. 表征对齐的深入分析(CKA/CKNNA 指标)揭示了微调成功的关键是潜在空间结构保持而非重建精度。

局限与展望

  1. 预训练数据单一:仅用 nuScenes 的 27K 帧作为预训练数据,规模远小于 RGB 基础模型;纳入更多数据集(Waymo、ONCE 等)可能进一步提升迁移能力。
  2. 室内迁移效果有限:数据充足时(>25%)从头训练反超预训练模型,说明室外→室内的域间距较大,需要在预训练阶段加入室内数据。
  3. 仅限地面车辆:未验证对无人机、水下机器人等非地面平台的迁移性。
  4. 语义类别数受限:受限于 Occ3D 的 16 类标注,未探索更细粒度的开放词汇语义预测。
  5. 非确定性评估指标不完善:mIoU/IoU 无法充分评估随机模型的多样性,虽然报告了 NLL/FID/KID/FVD,但缺乏对多样性和覆盖率的系统评估。

与相关工作的对比

vs Copilot4D (Zhang et al., 2023)

Copilot4D 使用 MaskGiT 潜在扩散模型实现 LiDAR 预测 SOTA,但完全在 nuScenes 单域训练,无任何迁移性研究。本文在非语义占据预测上超越 Copilot4D(IoU Avg 30.91 vs 21.09),且通过预训练-微调范式首次展示了跨域迁移的有效性。

vs OccWorld (Zheng et al., 2024) / DOME (Gu et al., 2024)

OccWorld 使用自回归 Transformer 进行语义占据预测(mIoU 17.13),DOME 引入条件轨迹达 22.18 mIoU 但需 444M 参数和 8892 GFLOPs/帧。本文以 30M 参数、389 GFLOPs/帧(DOME 的 1/23)实现 23.33/28.49 mIoU(无/有轨迹),在精度和效率上均大幅领先。更重要的是,本文仅用 5% 标注数据即超越 OccWorld。

vs Cosmos (Agarwal et al., 2025)

Cosmos 是 RGB 基础世界模型,目标涵盖室内外场景,但无法提供显式几何信息。本文是 LiDAR 模态下首个类似 foundation model 的尝试,为自动驾驶提供直接可用的 3D 语义预测。

评分

  • 新颖性: ⭐⭐⭐⭐ (首个LiDAR世界模型迁移性研究+CFM替代扩散+VAE设计,组合创新显著)
  • 实验充分度: ⭐⭐⭐⭐⭐ (三大迁移任务、多种数据比例、消融实验、FVD/FID/KID/NLL全面评估)
  • 写作质量: ⭐⭐⭐⭐ (结构清晰,实验详实;部分公式符号较多需反复对照)
  • 价值: ⭐⭐⭐⭐⭐ (大幅降低语义标注依赖,效率提升一个量级,对自动驾驶实际部署有直接推动)