DriveLaW: Unifying Planning and Video Generation in a Latent Driving World¶

会议: CVPR 2026
arXiv: 2512.23421
代码: https://github.com/xiaomi-research/drivelaw
领域: 视频生成
关键词: 世界模型, 自动驾驶规划, 视频生成, 潜在空间, 扩散策略

一句话总结¶

提出 DriveLaW，一个通过共享潜在空间将视频生成与运动规划统一的驾驶世界模型，将视频生成器的中间潜在特征直接注入扩散规划器，在 nuScenes 视频预测和 NAVSIM 规划基准上同时达到 SOTA。

研究背景与动机¶

世界模型通过学习驾驶场景的时序演化来应对真实世界的长尾挑战，但当前方法将世界模型的角色限制在三个间接层面：(1) 数据生成器——合成稀有场景数据或作为闭环仿真环境；(2) 监督信号——预测未来视觉/可达性信号来监督规划；(3) 并行生成——在统一架构中共同生成视频和轨迹但仍是解耦过程。

核心矛盾：即使在"统一"架构中，视频生成器和规划器仍作为独立模块运行——Epona 和 DriveVLA-W0 分别训练视频生成和策略头，未利用生成器内部潜在表示作为规划状态。视频生成器虽然从大规模数据中学到了丰富的场景语义、物体动力学和物理规律，但这些知识被"浪费"在渲染上而未传导给规划器。

核心洞察：视频生成器的内部激活编码了丰富的、时序连贯的场景理解——这正是规划所需的表示。 DriveLaW 将生成器从"渲染器"重新定位为"特征提取器"，将其去噪后的潜在特征直接作为规划器的条件输入。

方法详解¶

整体框架¶

DriveLaW 由两个核心组件链式连接：(1) DriveLaW-Video——时空视频生成器，包含时空 VAE 和 Video DiT（扩散 Transformer），输入历史观测和动作，输出去噪后的视频潜在特征；(2) DriveLaW-Act——轻量级 Action DiT 扩散规划器，以视频潜在特征为条件，通过 flow matching 生成未来轨迹。两者通过三阶段渐进训练策略优化。

关键设计¶

链式生成-规划架构（Chained Design）:
- 功能：将视频生成器的表示直接传导给规划器
- 核心思路：不同于并行设计（视频和轨迹各自独立输出），DriveLaW 将 Video DiT 去噪后的潜在特征 \(z\) 直接注入 Action DiT 作为条件。这些潜在特征从大规模视频预训练中学到了场景语义、智能体动力学和物理规律的紧凑表示。Action DiT 以标准 DiT 架构实现，用 flow matching 目标训练
- 设计动机：相比并行设计，链式设计有三个优势：(a) 充分利用大规模视频预训练学到的表示；(b) 训练时避免视频生成和规划之间的梯度干扰；(c) 级联确保生成的视觉细节和规划轨迹之间的一致性
噪声重注入机制（Noise Reinjection）:
- 功能：平衡激进压缩与视觉保真度
- 核心思路：在时空 VAE 的高压缩比下，去噪早期阶段可能产生结构不一致和模糊（尤其高速场景）。噪声重注入在去噪早期探索并选择最优生成路径——对中间去噪结果重新注入受控噪声，让模型重新探索替代路径
- 设计动机：高保真视频合成和实时稳定规划存在内在张力。高压缩 VAE 对规划效率有利但损害视觉质量，噪声重注入是两者之间的调节器
三阶段渐进训练策略:
- 功能：协调视频生成和规划的优化
- 核心思路：(a) 第一阶段——学习长时运动：训练 Video DiT 生成粗粒度视频，建立时序动力学理解；(b) 第二阶段——精炼空间细节：在更高分辨率或更精细的去噪步骤下微调视频质量；(c) 第三阶段——链式规划：冻结 Video DiT，将其潜在特征链接到 Action DiT，训练规划器
- 设计动机：直接端到端训练会导致视频生成和规划目标冲突。渐进策略让每个组件在其最佳学习窗口内优化

损失函数 / 训练策略¶

Video DiT 使用标准扩散损失（去噪目标），Action DiT 使用 flow matching 目标生成轨迹。三阶段训练中第三阶段冻结 Video DiT 参数，仅训练 Action DiT。

实验关键数据¶

主实验¶

nuScenes 视频生成

方法	FID↓	FVD↓	说明
之前 SOTA	基线	基线	各类世界模型和视频生成器
DriveLaW-Video	-33.3%	-1.8%	大幅领先

NAVSIM 规划基准（PDMS）

方法	PDMS	说明
之前 SOTA（世界模型方法）	基线	各种世界模型+规划方法
DriveLaW-Act	新纪录	无需后训练(RL)或后处理(scorers)

消融实验¶

配置	FID	PDMS	说明
仅 BEV 特征→规划	更高	更低	传统 BEV 表示
仅 VLM 特征→规划	中等	中等	视觉-语言模型特征
视频潜在特征→规划	最低	最高	视频生成器的表示最优
并行设计	中等	中等	生成和规划独立输出
链式设计	最低	最高	潜在特征传导给规划器

关键发现¶

视频生成器的潜在表示优于 BEV 和 VLM 特征作为规划输入——证明从大规模视频预训练中学到的表示有独特价值
链式设计相比并行设计在两个任务上都更优，验证了表示传导优于独立输出
噪声重注入机制在高速场景下显著减少模糊和结构不一致
无需 RL 后训练或评分器后处理即达到 NAVSIM SOTA，说明视频先验已足够强

亮点与洞察¶

"视频生成器即特征提取器" 是深刻的范式转换：将生成模型从端输出器重新定位为中间表示提供者，跨越了"生成"和"理解"的边界
链式 vs 并行的对比令人信服：即使在"统一"架构中，信息流的方向和耦合方式至关重要
三阶段训练巧妙避免了多目标冲突——先分别优化再级联微调的策略具有通用性

局限与展望¶

链式设计意味着规划延迟受视频生成速度限制，实时性可能不足
当前仅单视图视频生成，多视图一致性未涉及
仅在 nuScenes 和 NAVSIM 上验证，真实闭环驾驶部署的鲁棒性待测试
视频生成器的错误会直接传播到规划器（误差级联）

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次将视频生成器的中间潜在表示作为规划状态，链式设计有原创性
实验充分度: ⭐⭐⭐⭐⭐ 双任务 SOTA + 表示对比消融 + 架构设计消融
写作质量: ⭐⭐⭐⭐ 结构清晰，但三阶段训练细节可更详尽
价值: ⭐⭐⭐⭐⭐ 为自动驾驶世界模型提供了新范式，来自小米 EV 有实际应用背景