Epona: Autoregressive Diffusion World Model for Autonomous Driving¶

会议: ICCV 2025
arXiv: 2506.24113
代码: https://github.com/Kevin-thu/Epona/
领域: 自动驾驶
关键词: 世界模型, autoregressive diffusion, trajectory planning, 视频生成, 自动驾驶

一句话总结¶

提出 Epona，一种自回归扩散世界模型，通过解耦时空建模和异步多模态生成，实现高分辨率长时程驾驶视频生成与实时轨迹规划的统一框架。

研究背景与动机¶

现有驾驶世界模型主要分两类：1) 扩散式方法（如 Vista）通过联合分布建模固定长度视频帧，视觉质量好但无法灵活生成变长序列，也无法集成轨迹规划；2) GPT 式自回归方法（如 GAIA-1）通过 next-token prediction 支持变长生成，但量化和分词过程严重降低视觉质量和规划精度。两种范式的缺陷互补——扩散模型缺乏时间分解能力，自回归 Transformer 牺牲了连续视觉精度。因此需要一个统一框架来调和这两种方法的优势。

方法详解¶

整体框架¶

Epona 将世界建模重新定义为时间域上的逐步未来预测过程。给定历史驾驶观测和轨迹，模型同时预测：1) 未来轨迹规划的策略分布 π；2) 下一帧相机观测的条件分布 p。整体框架由三个核心组件构成：多模态时空 Transformer (MST)、轨迹规划 DiT (TrajDiT) 和下一帧预测 DiT (VisDiT)。模型总参数量 2.5B。

关键设计¶

多模态时空 Transformer (MST, 1.3B 参数)：编码历史上下文 {O_t, a_t} 为紧凑的潜在表示。采用交错的多模态空间注意力层和因果时间注意力层。先将 visual latent patches Z ∈ R^{B×T×L×C} 和动作序列 a ∈ R^{B×T×3} 投影到嵌入空间，拼接后通过因果时间层（causal mask）和多模态空间层交替处理。最终取最后一帧的嵌入 F ∈ R^{B×(L+3)×D} 作为紧凑历史表示。这种设计显著降低了全序列注意力的内存消耗，并自然支持变长历史上下文。
轨迹规划扩散 Transformer (TrajDiT, 50M 参数)：使用 Dual-Single-Stream 架构的微型扩散 Transformer 预测未来 3 秒轨迹。双流阶段中，历史潜在表示 F 和轨迹数据独立处理，仅通过注意力操作关联；单流阶段拼接后通过后续 Transformer 块融合信息。训练时对目标轨迹 ā ∈ R^{B×N×3} 加噪并用 Rectified Flow 损失优化：L_traj = E[||v_traj(ā_(t), t) - (ā - ε)||²]。
下一帧预测扩散 Transformer (VisDiT, 1.2B 参数)：架构类似 TrajDiT，额外增加了动作控制 a_{T→T+1} 的调制分支。同样使用 Flow Matching 目标：L_vis = E[||v_vis(Z_{T+1(t)}, t) - (Z_{T+1} - ε)||²]。推理时根据 F 和动作（来自 TrajDiT 预测或用户提供）对噪声去噪得到下一帧潜变量，再用 DCAE 解码器生成图像。

损失函数 / 训练策略¶

总损失：L = L_traj + L_vis，端到端联合训练
Chain-of-Forward 训练策略：为缓解自回归漂移问题（训练用 GT、推理用自身预测的域差距），每隔 10 步执行一次多步前向传播——利用模型预测的速度 v_Θ 在一步内估计去噪潜变量 x̂(0) = x(t) + t·v_Θ(x_(t), t)，然后用估计结果作为下一步的条件。每次执行 3 次前向传播，模拟推理噪声以增强鲁棒性
时间感知 DCAE 解码器：在 DCAE 解码器前引入时空自注意力层增强帧间一致性，解决逐帧解码的闪烁问题，编码器冻结只微调解码器
训练设置：48 张 A100 GPU 训练约两周，600K 迭代，batch size 96，AdamW 优化器，lr=1e-4，weight decay=5e-2。图像分辨率 512×1024

实验关键数据¶

主实验¶

方法	FID ↓	FVD ↓	最大时长/帧数
DriveGAN	73.4	502.3	N/A
DriveDreamer	52.6	452.0	4s / 48
Drive-WM	15.8	122.7	8s / 16
Vista	6.9	89.4	15s / 150
DrivingWorld	7.4	90.9	40s / 400
Epona	7.5	82.8	120s / 600

NAVSIM 规划性能：

方法	NC ↑	DAC ↑	TTC ↑	Comf. ↑	EP ↑	PDMS ↑
UniAD	97.8	91.9	92.9	100	78.8	83.4
DRAMA	98.0	93.1	94.8	100	80.1	85.5
Epona	97.9	95.1	93.8	99.9	80.4	86.2

消融实验¶

设置	NC ↑	DAC ↑	PDMS ↑
w/o 联合训练（仅轨迹）	94.5	89.7	78.1
完整 Epona	97.9	95.1	86.2

Chain-of-Forward 训练效果：无该策略时视觉质量在 10-20 秒后快速退化；有该策略时可保持分钟级高质量生成。

时间感知 DCAE 解码器：

方法	FVD10 ↓	FVD25 ↓	FVD40 ↓
w/o 时间模块	52.95	76.46	100.11
完整模型	50.77	61.46	74.88

关键发现¶

共享潜变量联合训练视频和轨迹显著提升规划性能（PDMS 从 78.1 → 86.2）
Chain-of-Forward 策略在长时程生成中效果随序列增长愈发显著
条件帧从 2 帧增加到 10 帧，FVD40 从 103.70 降至 74.88
模型仅通过自监督未来预测就能隐式学习交通规则（如红灯停车）

亮点与洞察¶

范式创新：首次将自回归和扩散模型在时空维度上解耦并统一，既保留扩散模型的视觉质量，又获得自回归模型的时间灵活性
实时规划：通过模块化设计，仅用 MST + TrajDiT 即可实现 20Hz 实时轨迹规划
极长生成：120 秒/600 帧的生成长度大幅超越同期方法（Vista 仅 15s）
Chain-of-Forward 是一种通用的自回归漂移缓解策略，可推广到其他领域

局限与展望¶

FID 指标（7.5）略高于 Vista（6.9），单帧质量仍有提升空间
仅使用前视单相机，未扩展到多视角全景生成
训练成本较高（48 张 A100 训练两周），部署门槛高
未评估极端天气和罕见场景下的鲁棒性

评分¶

新颖性: ⭐⭐⭐⭐ 自回归扩散统一框架的思路新颖且实用
实验充分度: ⭐⭐⭐⭐ 视频生成和轨迹规划两个维度均有充分评估和消融
写作质量: ⭐⭐⭐⭐ 结构清晰，公式推导完整，图表丰富
价值: ⭐⭐⭐⭐ 对自动驾驶世界模型的发展有显著推动作用