Towards Foundational LiDAR World Models with Efficient Latent Flow Matching¶
会议: NeurIPS 2025
arXiv: 2506.23434
代码: 待确认
领域: 自动驾驶
关键词: LiDAR世界模型, 流匹配, 4D语义占据预测, 域迁移, VAE压缩, 基础模型
一句话总结¶
本文提出首个可迁移的 LiDAR 世界模型,通过 Swin Transformer VAE 实现 192× 高压缩比(SOTA 重建精度)、条件流匹配(CFM)替代扩散模型实现 SOTA 语义占据预测(仅需前人 4.38% FLOPs),并在三种域迁移任务中以 5% 标注数据超越 OccWorld 全量训练。
背景与动机¶
- RGB 世界模型的几何缺陷:基于 RGB 的世界模型(GAIA-1/2、Cosmos)虽然生成能力强,但缺乏显式的深度和语义结构信息,无法直接用于自动驾驶的规划与控制。
- LiDAR 世界模型的域限制:现有 LiDAR 世界模型(Copilot4D、BEVWorld)仅在特定数据集/传感器配置下训练和评估,缺乏跨域迁移能力——换个传感器或环境就失效。
- 语义标注成本高昂:4D 语义占据预测任务(OccWorld、DOME 等)严重依赖昂贵的人工语义标注,限制了模型的可扩展性。
- 压缩效率不足:现有方法直接沿用 SD3 的编解码架构处理 LiDAR 数据,压缩比低(16×-64×),导致动力学模型参数冗余、训练慢。
- 扩散模型训练效率低:DDPM 训练 + DDIM 采样的范式在 LiDAR 预测中需要数千 epoch 才能收敛,计算成本极高,阻碍了迁移性研究。
- 动态知识的可迁移性未被探索:物体运动的因果规律(动力学先验)在不同环境间应是共享的,但此前无人系统性研究 LiDAR 世界模型的预训练-微调范式。
方法详解¶
整体框架:预训练-微调 LiDAR 世界模型¶
- 功能:在大规模无标注 LiDAR 数据上预训练一个通用世界模型,然后微调到不同下游任务(不同波束数、室内场景、语义占据预测)。
- 为什么:动态知识(物体如何运动)是跨域共享的,预训练可以学到通用的三维动力学先验,减少下游标注需求。
- 怎么做:
- 使用 nuScenes 无标注 LiDAR 数据训练 VAE + CFM 模型。
- 对三种下游任务分别微调:(i) 稀疏→稠密波束适配(KITTI360);(ii) 室外→室内(自采 Jackal 数据);(iii) 无语义→有语义(nuScenes Occ3D)。
- 通过表征对齐(VAE 微调 + 余弦相似度损失)确保微调时潜在空间不偏移。
关键设计 1:Swin Transformer VAE 高效压缩¶
- 功能:设计面向 LiDAR 的 VAE 架构,实现远超前人的压缩比(192×)且保持 SOTA 重建精度。
- 为什么:前人直接复用图像 VAE(SD3 架构),LiDAR BEV 的稀疏特性未被充分利用;低压缩比(16×-64×)导致潜在表示维度过高,大幅增加动力学模型参数量。
- 怎么做:
- 编码:高度嵌入 + 类别嵌入→2D BEV 特征图→Swin Transformer 编码器(用卷积层替代 Patch Merging 下采样)→轻量 Neck 压缩至 16 通道→重参数化采样。
- 解码:对称 2D 结构(去除 3D 块,实验证明 3D 块反而有害)→可微分射线渲染恢复点云或通过类嵌入相似度恢复占据图。
- 连续编码:放弃离散码本(避免 codebook collapse 和低压缩效率),采用连续高斯潜在变量。
关键设计 2:条件流匹配(CFM)预测模型¶
- 功能:用 Rectified Flow 替代 DDPM/DDIM 作为生成式预测框架。
- 为什么:扩散模型需要大量采样步数(1000 步 DDPM / 50 步 DDIM),而流匹配沿直线路径回归速度场,仅需少量步数即可生成高质量样本,FLOPs 仅为前人 4.38%-28.91%。
- 怎么做:
- 线性插值加噪:\(\mathbf{x}_t = (1-t)\epsilon + t\sigma \mathbf{z}_{s}^{t_1:t_2}\),从标准高斯到目标分布的直线路径。
- 时空 DiT 架构改进:空间 DiT 之后插入 3D 卷积层增大时序感受野(解决逐帧潜在表示时序依赖弱的问题),并采用 UNet 式多尺度结构替代单步长 DiT 骨干。
- 训练目标:Rectified Flow 损失 \(\mathcal{L}(\theta) = \mathbb{E}\|\mu_t^\theta(\mathbf{z}) - (\mathbf{z}_s - \mathbf{x}_0)\|^2\),时间步从 \(\text{sigmoid}(\mathcal{N}(0,1))\) 采样。
- 条件输入:历史潜在帧 + 噪声未来帧沿时间维拼接,可选条件加入未来轨迹。
关键设计 3:表征对齐微调策略¶
- 功能:微调时保持新域潜在空间与预训练域对齐。
- 为什么:直接使用预训练 VAE 或从头训练新 VAE 都会导致特征空间不匹配,使预训练 CFM 无法有效利用。
- 怎么做:
- 对波束适配和室内任务:直接微调 VAE 全部参数。
- 对语义占据预测(嵌入层维度不同):在语义 VAE 训练损失中加入余弦相似度对齐项 \(\kappa \mathcal{L}_{\cos}(\mathbf{z}_s, \mathbf{d}_s)\),引导语义潜在空间靠近稠密占据的潜在空间。
实验关键数据¶
表1:nuScenes 语义占据预测 SOTA 比较¶
| 方法 | 1s mIoU | 2s mIoU | 3s mIoU | Avg mIoU | GFLOPs/帧 | FPS |
|---|---|---|---|---|---|---|
| OccWorld | 25.75 | 15.14 | 10.51 | 17.13 | 1347.09 | 16.97 |
| DynamicCity | 26.18 | 16.94 | — | — | 774.44 | 19.30 |
| Ours | 33.17 | 21.09 | 15.64 | 23.33 | 389.46 | 22.22 |
| DOME† | 29.39 | 20.98 | 16.17 | 22.18 | 8891.98 | 5.48 |
| Ours† | 36.42 | 27.39 | 21.66 | 28.49 | 389.46 | 21.43 |
表2:VAE 重建精度 vs 压缩比¶
| 方法 | 压缩比 | mIoU | IoU |
|---|---|---|---|
| UniScenes | 32× | 92.1 | 87.0 |
| DOME | 64× | 83.1 | 77.3 |
| Ours | 32× | 99.2 | 97.9 |
| Ours | 192× | 92.8 | 85.8 |
| Ours | 768× | 80.0 | 69.3 |
关键发现:
- 在无未来轨迹条件下,1s mIoU 达 33.17%,超越 RenderWorld(28.69%)4.48 个绝对百分点。
- 使用未来轨迹条件时,超越 DOME 至少 5.5% mIoU,且 FLOPs 仅为 DOME 的 4.38%、FPS 快 3.9 倍。
- 域迁移实验中,仅用 5% 标注数据(即 OccWorld 所用标注量的 5%)即超越 OccWorld 全量训练结果,相对 mIoU 提升 82.6%/80.7%/69.7%(1s/2s/3s)。
- 30/36 个比较点中,预训练模型优于从头训练,最高获得 11.17% 绝对性能提升。
- FVD 时序一致性得分 7.68,显著优于 OccWorld(18.68)和 DOME(9.79)。
亮点¶
- 首个 LiDAR 基础世界模型迁移性研究,系统性验证了三种域迁移场景(波束适配、室内外、非语义→语义)。
- 192× 压缩比 + SOTA 重建的 Swin Transformer VAE 是该领域的重大工程贡献。
- 5% 标注数据超越全量训练极大地降低了语义占据预测的标注成本,具有重要实用价值。
- 表征对齐的深入分析(CKA/CKNNA 指标)揭示了微调成功的关键是潜在空间结构保持而非重建精度。
局限与展望¶
- 预训练数据单一:仅用 nuScenes 的 27K 帧作为预训练数据,规模远小于 RGB 基础模型;纳入更多数据集(Waymo、ONCE 等)可能进一步提升迁移能力。
- 室内迁移效果有限:数据充足时(>25%)从头训练反超预训练模型,说明室外→室内的域间距较大,需要在预训练阶段加入室内数据。
- 仅限地面车辆:未验证对无人机、水下机器人等非地面平台的迁移性。
- 语义类别数受限:受限于 Occ3D 的 16 类标注,未探索更细粒度的开放词汇语义预测。
- 非确定性评估指标不完善:mIoU/IoU 无法充分评估随机模型的多样性,虽然报告了 NLL/FID/KID/FVD,但缺乏对多样性和覆盖率的系统评估。
与相关工作的对比¶
vs Copilot4D (Zhang et al., 2023)¶
Copilot4D 使用 MaskGiT 潜在扩散模型实现 LiDAR 预测 SOTA,但完全在 nuScenes 单域训练,无任何迁移性研究。本文在非语义占据预测上超越 Copilot4D(IoU Avg 30.91 vs 21.09),且通过预训练-微调范式首次展示了跨域迁移的有效性。
vs OccWorld (Zheng et al., 2024) / DOME (Gu et al., 2024)¶
OccWorld 使用自回归 Transformer 进行语义占据预测(mIoU 17.13),DOME 引入条件轨迹达 22.18 mIoU 但需 444M 参数和 8892 GFLOPs/帧。本文以 30M 参数、389 GFLOPs/帧(DOME 的 1/23)实现 23.33/28.49 mIoU(无/有轨迹),在精度和效率上均大幅领先。更重要的是,本文仅用 5% 标注数据即超越 OccWorld。
vs Cosmos (Agarwal et al., 2025)¶
Cosmos 是 RGB 基础世界模型,目标涵盖室内外场景,但无法提供显式几何信息。本文是 LiDAR 模态下首个类似 foundation model 的尝试,为自动驾驶提供直接可用的 3D 语义预测。
评分¶
- 新颖性: ⭐⭐⭐⭐ (首个LiDAR世界模型迁移性研究+CFM替代扩散+VAE设计,组合创新显著)
- 实验充分度: ⭐⭐⭐⭐⭐ (三大迁移任务、多种数据比例、消融实验、FVD/FID/KID/NLL全面评估)
- 写作质量: ⭐⭐⭐⭐ (结构清晰,实验详实;部分公式符号较多需反复对照)
- 价值: ⭐⭐⭐⭐⭐ (大幅降低语义标注依赖,效率提升一个量级,对自动驾驶实际部署有直接推动)