跳转至

Epona: Autoregressive Diffusion World Model for Autonomous Driving

会议: ICCV 2025
arXiv: 2506.24113
代码: https://github.com/Kevin-thu/Epona/
领域: 自动驾驶
关键词: 世界模型, autoregressive diffusion, trajectory planning, 视频生成, 自动驾驶

一句话总结

提出 Epona,一种自回归扩散世界模型,通过解耦时空建模和异步多模态生成,实现高分辨率长时程驾驶视频生成与实时轨迹规划的统一框架。

研究背景与动机

现有驾驶世界模型主要分两类:1) 扩散式方法(如 Vista)通过联合分布建模固定长度视频帧,视觉质量好但无法灵活生成变长序列,也无法集成轨迹规划;2) GPT 式自回归方法(如 GAIA-1)通过 next-token prediction 支持变长生成,但量化和分词过程严重降低视觉质量和规划精度。两种范式的缺陷互补——扩散模型缺乏时间分解能力,自回归 Transformer 牺牲了连续视觉精度。因此需要一个统一框架来调和这两种方法的优势。

方法详解

整体框架

Epona 将世界建模重新定义为时间域上的逐步未来预测过程。给定历史驾驶观测和轨迹,模型同时预测:1) 未来轨迹规划的策略分布 π;2) 下一帧相机观测的条件分布 p。整体框架由三个核心组件构成:多模态时空 Transformer (MST)、轨迹规划 DiT (TrajDiT) 和下一帧预测 DiT (VisDiT)。模型总参数量 2.5B。

关键设计

  1. 多模态时空 Transformer (MST, 1.3B 参数):编码历史上下文 {O_t, a_t} 为紧凑的潜在表示。采用交错的多模态空间注意力层和因果时间注意力层。先将 visual latent patches Z ∈ R^{B×T×L×C} 和动作序列 a ∈ R^{B×T×3} 投影到嵌入空间,拼接后通过因果时间层(causal mask)和多模态空间层交替处理。最终取最后一帧的嵌入 F ∈ R^{B×(L+3)×D} 作为紧凑历史表示。这种设计显著降低了全序列注意力的内存消耗,并自然支持变长历史上下文。

  2. 轨迹规划扩散 Transformer (TrajDiT, 50M 参数):使用 Dual-Single-Stream 架构的微型扩散 Transformer 预测未来 3 秒轨迹。双流阶段中,历史潜在表示 F 和轨迹数据独立处理,仅通过注意力操作关联;单流阶段拼接后通过后续 Transformer 块融合信息。训练时对目标轨迹 ā ∈ R^{B×N×3} 加噪并用 Rectified Flow 损失优化:L_traj = E[||v_traj(ā_(t), t) - (ā - ε)||²]。

  3. 下一帧预测扩散 Transformer (VisDiT, 1.2B 参数):架构类似 TrajDiT,额外增加了动作控制 a_{T→T+1} 的调制分支。同样使用 Flow Matching 目标:L_vis = E[||v_vis(Z_{T+1(t)}, t) - (Z_{T+1} - ε)||²]。推理时根据 F 和动作(来自 TrajDiT 预测或用户提供)对噪声去噪得到下一帧潜变量,再用 DCAE 解码器生成图像。

损失函数 / 训练策略

  • 总损失:L = L_traj + L_vis,端到端联合训练
  • Chain-of-Forward 训练策略:为缓解自回归漂移问题(训练用 GT、推理用自身预测的域差距),每隔 10 步执行一次多步前向传播——利用模型预测的速度 v_Θ 在一步内估计去噪潜变量 x̂(0) = x(t) + t·v_Θ(x_(t), t),然后用估计结果作为下一步的条件。每次执行 3 次前向传播,模拟推理噪声以增强鲁棒性
  • 时间感知 DCAE 解码器:在 DCAE 解码器前引入时空自注意力层增强帧间一致性,解决逐帧解码的闪烁问题,编码器冻结只微调解码器
  • 训练设置:48 张 A100 GPU 训练约两周,600K 迭代,batch size 96,AdamW 优化器,lr=1e-4,weight decay=5e-2。图像分辨率 512×1024

实验关键数据

主实验

方法 FID ↓ FVD ↓ 最大时长/帧数
DriveGAN 73.4 502.3 N/A
DriveDreamer 52.6 452.0 4s / 48
Drive-WM 15.8 122.7 8s / 16
Vista 6.9 89.4 15s / 150
DrivingWorld 7.4 90.9 40s / 400
Epona 7.5 82.8 120s / 600

NAVSIM 规划性能:

方法 NC ↑ DAC ↑ TTC ↑ Comf. ↑ EP ↑ PDMS ↑
UniAD 97.8 91.9 92.9 100 78.8 83.4
DRAMA 98.0 93.1 94.8 100 80.1 85.5
Epona 97.9 95.1 93.8 99.9 80.4 86.2

消融实验

设置 NC ↑ DAC ↑ PDMS ↑
w/o 联合训练(仅轨迹) 94.5 89.7 78.1
完整 Epona 97.9 95.1 86.2

Chain-of-Forward 训练效果:无该策略时视觉质量在 10-20 秒后快速退化;有该策略时可保持分钟级高质量生成。

时间感知 DCAE 解码器:

方法 FVD10 ↓ FVD25 ↓ FVD40 ↓
w/o 时间模块 52.95 76.46 100.11
完整模型 50.77 61.46 74.88

关键发现

  • 共享潜变量联合训练视频和轨迹显著提升规划性能(PDMS 从 78.1 → 86.2)
  • Chain-of-Forward 策略在长时程生成中效果随序列增长愈发显著
  • 条件帧从 2 帧增加到 10 帧,FVD40 从 103.70 降至 74.88
  • 模型仅通过自监督未来预测就能隐式学习交通规则(如红灯停车)

亮点与洞察

  • 范式创新:首次将自回归和扩散模型在时空维度上解耦并统一,既保留扩散模型的视觉质量,又获得自回归模型的时间灵活性
  • 实时规划:通过模块化设计,仅用 MST + TrajDiT 即可实现 20Hz 实时轨迹规划
  • 极长生成:120 秒/600 帧的生成长度大幅超越同期方法(Vista 仅 15s)
  • Chain-of-Forward 是一种通用的自回归漂移缓解策略,可推广到其他领域

局限与展望

  • FID 指标(7.5)略高于 Vista(6.9),单帧质量仍有提升空间
  • 仅使用前视单相机,未扩展到多视角全景生成
  • 训练成本较高(48 张 A100 训练两周),部署门槛高
  • 未评估极端天气和罕见场景下的鲁棒性

相关工作与启发

  • 与 DrivingWorld 等 GPT 式方法相比,Epona 在连续空间而非离散 token 空间进行自回归生成,保留了视觉细节
  • Diffusion Forcing 和 FIFO-Diffusion 也探索了自回归+扩散的结合,但 Epona 重新定义了架构为两阶段端到端框架
  • 模块化设计(MST/TrajDiT/VisDiT 可独立使用)为灵活部署提供了可能

评分

  • 新颖性: ⭐⭐⭐⭐ 自回归扩散统一框架的思路新颖且实用
  • 实验充分度: ⭐⭐⭐⭐ 视频生成和轨迹规划两个维度均有充分评估和消融
  • 写作质量: ⭐⭐⭐⭐ 结构清晰,公式推导完整,图表丰富
  • 价值: ⭐⭐⭐⭐ 对自动驾驶世界模型的发展有显著推动作用