RAP: 3D Rasterization Augmented End-to-End Planning¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=a9bOgeqbdB
论文: Project Page
代码: 暂未在缓存中给出
领域: 自动驾驶 / 端到端规划
关键词: 端到端自动驾驶, 3D Rasterization, 数据增强, Raster-to-Real 对齐, 闭环鲁棒性

一句话总结¶

RAP 用轻量 3D rasterization 从真实驾驶日志生成可控的反事实视角和恢复场景，再通过特征空间的 Raster-to-Real 对齐把这些合成样本稳定迁移到真实图像规划器上，从而在 NAVSIM、WOD-E2E 和 Bench2Drive 等闭环/长尾基准上显著提升端到端自动驾驶规划鲁棒性。

研究背景与动机¶

领域现状：端到端自动驾驶规划通常把多视角相机输入、历史 ego 状态和路线信息直接映射到未来轨迹或控制命令。主流训练方式仍然是离线 imitation learning：模型在大规模真实驾驶日志中模仿专家轨迹，在开放环指标上可以取得很强的结果，也避免了传统模块化系统中感知、预测、规划多级误差传播的问题。

现有痛点：离线 imitation learning 的关键短板在于训练分布过窄。模型只看到专家已经走好的轨迹，很少看到“车偏离专家路线之后应该如何恢复”的样本；一旦闭环部署时预测稍微偏了一点，下一帧输入就进入训练集中没有覆盖的状态，小错会不断累积，最终变成碰撞、越界或停滞。这就是自动驾驶规划里典型的 covariate shift 和 recovery data 缺失问题。

核心矛盾：一种自然解法是用模拟器或数字孪生生成更多反事实场景，但照片级神经渲染、3D Gaussian Splatting 或游戏引擎式重建都太慢、太贵，而且为了像素外观付出了大量训练成本。对规划来说，真正关键的往往不是纹理、光照和材质，而是车道几何、交通参与者位置、朝向、相对运动和交通信号。论文抓住的矛盾是：端到端规划训练需要大规模、可控、能覆盖偏离状态的数据，但不一定需要照片级真实的像素。

本文目标：作者希望构建一个可扩展的数据增强框架，让相机端到端规划器不仅能学习真实 ego 轨迹，还能学习反事实恢复轨迹和其他交通参与者视角；同时，合成输入必须能有效迁移到真实图像推理，而不能因为 rasterized 图像和真实图像外观差异太大而变成无用数据。

切入角度：RAP 的切入点是把“渲染真实世界”改成“渲染规划所需语义”。它不追求还原天空、路面纹理或复杂光照，而是把日志中的地图折线、车辆/行人 cuboid、交通灯状态等标注原语投影到相机视角，快速生成带几何和动态信息的 RGB raster 图。然后，它不在像素空间逼近真实图像，而是在特征空间对齐 raster 和 real，让规划器学到可迁移的结构表示。

核心 idea：用可控 3D rasterization 替代昂贵照片级渲染来扩展端到端规划训练分布，并用 Raster-to-Real 特征对齐解决合成视角到真实图像的迁移问题。

方法详解¶

整体框架¶

RAP 是一个围绕自动驾驶规划训练数据构建的增强框架。输入是真实驾驶日志中的多视角相机、ego 轨迹、地图标注和交通参与者 3D 状态；输出不是一个新模拟器的最终闭环控制，而是一批可用于训练端到端规划器的真实/合成样本，以及一个能同时吸收真实图像和 rasterized 图像监督的规划模型。

整体流程可以理解为三步：先把日志标注转成可投影的 3D 场景原语，再用 rasterization 生成两类非平凡增强样本，最后用 R2R alignment 把合成样本的结构监督迁移到真实图像特征空间。这样，模型既保留真实图像中的细粒度感知能力，又能从大规模合成几何场景中学习恢复和长尾交互。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["真实驾驶日志<br/>相机+地图+轨迹"] --> B["3D Rasterization<br/>语义几何投影"]
    B --> C["反事实数据增强<br/>恢复扰动+跨主体视角"]
    C --> D["Raster-to-Real 对齐<br/>空间+全局特征约束"]
    D --> E["端到端规划器<br/>轨迹预测+评分"]
    E --> F["闭环鲁棒性<br/>长尾泛化提升"]

关键设计¶

1. 3D Rasterization：用语义几何替代昂贵照片级渲染

RAP 的第一层设计是重新定义“合成驾驶视角”应该保留什么。神经渲染和引擎渲染试图在像素空间接近真实图像，但端到端规划真正依赖的是路面拓扑、车道线、可行驶区域、交通参与者姿态和相对距离。因此作者从日志标注重建场景：静态地图元素被表示为世界坐标中的折线集合 \(M=\{P_k\}\)，车辆、行人、自行车、路障等动态对象被近似为带位姿 \(T_i \in SE(3)\) 的 oriented cuboid，交通灯则用固定尺寸 cuboid 并按状态着色。

随后，所有 3D 原语通过相机内参 \(K\) 和外参 \(T_{w\to c}\) 投影到图像平面。论文采用标准针孔模型，对世界点 \(p_w\) 做齐次变换与透视除法，得到像素坐标 \((u,v)\)；深度小于近裁剪面的点会被丢弃。rasterization 阶段再用 depth-aware compositing 处理遮挡，并用距离衰减权重 \(\alpha=\max(0,1-d/d_{max})\) 表达远近关系。这个表示看起来不像真实照片，却把规划所需的语义、几何和深度线索保留下来，而且不需要为每个场景训练 NeRF 或 3DGS。

这个选择的关键价值在“可扩展”。一旦场景由标注原语组成，生成新视角和新 ego 偏移几乎只是重新投影，而不是重新优化一个照片级世界模型。论文的 PCA 可视化还显示，冻结 DINOv3 提取到的真实图像特征和 rasterized 图像特征在结构上并非完全割裂，这给后续特征对齐提供了经验依据。

2. 反事实数据增强：把日志从单一路径扩展成恢复和多主体训练分布

仅有 rasterization 还不够，真正让 RAP 对闭环规划有价值的是它能生成 logged trajectory 之外的训练状态。第一类增强是 recovery-oriented perturbation：作者对专家 ego 轨迹 \(\tau^*(t)\) 添加横向偏移、纵向偏移和高斯噪声，构造 \(\tilde{\tau}(t)=\tau^*(t)+\delta_{lat}(t)+\delta_{long}(t)+\epsilon_t\)。然后再从这个扰动后的 ego 轨迹重新渲染相机视角，让模型看到“车已经偏离专家路径时，该如何回到合理轨迹”的样本。

这类样本直接对准 imitation learning 的脆弱点。传统日志里几乎没有专家犯错后的恢复过程，所以模型在闭环中一旦进入偏离状态就缺少训练经验；RAP 用可控扰动制造这些状态，相当于把训练分布往部署时可能遇到的状态扩出去。消融也印证了这一点：加入扰动对 NAVSIM v1 的开放环式指标几乎没有帮助，但对更接近闭环反事实评估的 NAVSIM v2 EPDMS 从 32.5 提升到 36.9。

第二类增强是 cross-agent view synthesis。nuPlan/OpenScene 日志中并不只有 ego 车辆，还包含大量其他交通参与者的轨迹。RAP 把其他 agent 的轨迹替换成新的 ego 轨迹，并保持原有相机参数约定来重新渲染，从而把一个日志场景扩展成多主体视角数据。这样做既增加样本规模，也让模型看到更多交互角色和相对运动模式。论文报告最终得到超过 50 万个 rasterized 训练样本，其中包括 ego raster、其他车辆视角 raster 和扰动样本。

3. Raster-to-Real 对齐：在特征空间桥接合成几何和真实图像

rasterized 图像和真实相机图像的像素差距很大，直接混合训练容易让模型学到域相关捷径，比如黑色背景、简化车体颜色或缺失纹理。RAP 没有把目标设为“让 raster 图像更像照片”，而是在规划器特征空间里让 real 和 raster 学到一致结构。具体来说，给定配对真实样本 \(x_r\) 和 rasterized 样本 \(x_s\)，视觉编码器/投影器输出空间特征 \(F^r=\phi(x_r)\) 与 \(F^s=\phi(x_s)\)，其中 \(F\in\mathbb{R}^{N\times d'}\)。

空间级对齐用 MSE 约束每个 patch 或 feature-map 位置：\(L_{spatial}=\frac{1}{N}\sum_{j=1}^{N}\lVert F^r_j-F^s_j\rVert_2^2\)。论文里 raster features 被 detach，当作由高质量标注产生的结构性教师信号；真实分支被推动去对齐这些干净的几何语义特征。这样做的意义不是丢掉真实图像细节，而是让真实图像的中间表示更稳定地编码可规划结构。

全局级对齐进一步处理整体域偏差。作者对特征图平均池化得到全局表示 \(g\)，再用 domain classifier 判别它来自真实图像还是 raster 图像；通过 gradient reversal layer，编码器被训练成混淆两域，而分类器仍试图区分两域。对应损失为 \(L_{global}=-\mathbb{E}_{(g,y)}[y\log D(g)+(1-y)\log(1-D(g))]\)。最终训练目标把规划任务损失和两种对齐损失相加：\(L=L_{task}+\lambda_sL_{spatial}+\lambda_gL_{global}\)。这让 RAP 可以利用大量无配对或弱配对的 rasterized 样本，同时不把模型推离真实图像推理场景。

4. 模型无关接入：把 RAP 当作训练配方而不是单一规划器

RAP 不绑定某一个端到端规划架构。论文最强版本 RAP-DINO 使用冻结 DINOv3-H+ 作为视觉骨干，接一个可学习 MLP projector 和来自 iPad 的 iterative deformable attention decoder；规划头包括多模态轨迹头和基于 PDMS 的轨迹评分头。这个版本参数量约 888M，用于 NAVSIM 和 WOD-E2E 等高性能评测。

同时，作者也把 RAP 接到已有方法上，形成 RAP-iPad 和 RAP-DiffusionDrive，并在 Bench2Drive 上使用约 29M 参数的 RAP-ResNet 以满足闭环推理效率。这个设计说明论文贡献主要不是“又提出一个更大的 planner”，而是提出一种可插拔的数据增强与特征对齐训练范式。若同样的 rasterization 和 R2R alignment 能让不同 planner 都受益，说明增益来自训练分布扩展和域对齐，而不只是模型容量。

一个完整示例¶

假设日志中有一个路口场景，真实 ego 车在过去 2 秒内沿车道中心线稳定前进，未来 5 秒专家轨迹是轻微减速后通过路口。传统 imitation learning 只会把这个“正确路径上的相机输入 → 专家未来轨迹”作为训练样本，模型没有机会看到 ego 已经偏到车道右侧或从旁边车辆视角接近路口时应该怎么规划。

RAP 会先把该帧的车道折线、斑马线、交通灯、周围车辆 cuboid 和行人 cuboid 投影成 rasterized 多视角输入。然后，它可以给 ego 轨迹添加一个横向偏移，让模型看到车辆已经偏离中心线的 counterfactual 视角；监督目标仍然鼓励它规划回安全、可行驶的轨迹。与此同时，RAP 还可以把场景中另一辆正在左转的车辆当作新的 ego，重渲染该车辆视角下的相机输入，从同一段日志中得到额外交互样本。

训练时，真实图像样本负责提供照片中的细粒度视觉线索，rasterized 样本负责提供大规模、干净、可控的几何结构。R2R alignment 则把两者的中间特征拉到同一个规划友好的表示空间，使模型在真实相机推理时仍能利用从 raster 增强中学到的恢复策略和交互规律。

损失函数 / 训练策略¶

RAP 的总目标由规划任务损失和 R2R 对齐损失组成。\(L_{task}\) 包括未来轨迹监督和轨迹评分监督：前者训练多模态 trajectory head 预测 5 秒未来轨迹，后者用 PDMS 分数训练 scoring head 选择更安全、合规、舒适的轨迹。对齐部分使用 \(L_{spatial}\) 和 \(L_{global}\)，论文给出的超参为 \(\lambda_{spatial}=0.002\)、\(\lambda_{global}=0.1\)。

训练数据来自 OpenScene/nuPlan。作者抽取 7 秒 clips，用前 2 秒作为输入、后 5 秒作为输出；ego 轨迹按 NAVSIM 的 PDMS filtering 去掉过于简单或专家质量低的片段，其他车辆则用 constant-velocity baseline 的 ADE 和有效性过滤。最终数据包含 85k real-raster 配对样本、8.5k 扰动 raster 样本、272k ego trajectory raster 样本和 200k other-agent raster 样本。主模型在 4 张 H100 上训练，使用 AdamW、初始学习率 \(1e^{-4}\)、cosine decay 和 20 个 epoch 的预训练/微调设置。

实验关键数据¶

主实验¶

论文在四个主要端到端驾驶规划基准上验证 RAP：NAVSIM v1、NAVSIM v2、Waymo Open Dataset Vision-based E2E Driving，以及 Bench2Drive。总体结果显示，RAP 不只是改善离线 ADE，而是在闭环鲁棒性、反事实评估和长尾场景上都取得了领先结果。

基准	模型	关键指标	本文结果	对比强基线	提升 / 结论
NAVSIM v1 navtest	RAP-DINO	PDMS ↑	93.8	Centaur 92.1 / iPad 91.7	相机输入方法中最高，整体规划质量领先
NAVSIM v1 navtest	RAP-iPad	PDMS ↑	92.5	iPad 91.7	同一架构接入 RAP 后 +0.8
NAVSIM v1 navtest	RAP-DiffusionDrive-Camera Only	PDMS ↑	89.2	DiffusionDrive-Camera Only 86.0	同一相机-only setting 下 +3.2
NAVSIM v2 navhard	RAP-DINO	EPDMS ↑	36.93	LTF 23.12	两阶段反事实评估显著领先
WOD-E2E	RAP-DINO	RFS Overall ↑	8.04	Poutine 7.99	排名第一，同时 ADE@5s 最低 2.65
Bench2Drive	RAP-ResNet	Driving Score ↑	66.42	iPad 65.02 / DriveTransformer 63.46	小模型闭环推理仍取得最高 Driving Score

NAVSIM v1 的细项也能看出 RAP 不是只刷单个指标。RAP-DINO 的 NC 为 99.1、DAC 为 98.9、TTC 为 96.7、EP 为 90.3，说明碰撞、可行驶区域、时间碰撞和前进效率都比较均衡。NAVSIM v2 更重要，因为第二阶段会用 3DGS 合成策略偏离后的反事实视角，更接近闭环错误累积；RAP 在这里的优势更大，说明 recovery-oriented augmentation 确实对闭环鲁棒性有效。

WOD-E2E 强调低频长尾事件，例如施工绕行、行人事故和高速障碍物。RAP-DINO 的 ADE@5s 为 2.65、ADE@3s 为 1.17、RFS Spotlight 为 7.20、RFS Overall 为 8.04，超过了更大规模的视觉-语言-轨迹模型 Poutine。Bench2Drive 则在 CARLA 中跑真实闭环路线，RAP-ResNet 的 Success Rate 达到 37.27%，Driving Score 达到 66.42，说明 raster 增强不是只在 nuPlan 派生基准上有效。

消融实验¶

消融项	配置	指标	结果	说明
Rasterization 外观	colored faces + depth decay + black background	MinADE ↓	0.91	最佳配置，语义颜色、深度衰减和干净背景都有效
Rasterization 外观	transparent faces + depth decay + black background	MinADE ↓	0.98	透明面削弱对象语义，性能下降
Rasterization 外观	colored faces + no depth decay + black background	MinADE ↓	1.05	去掉深度衰减后远近关系表达变弱
Rasterization 外观	colored faces + depth decay + natural background	MinADE ↓	1.33	自然 sky-ground 背景反而引入干扰
Recovery perturbation	无扰动样本	NAVSIM v2 EPDMS ↑	32.5	缺少偏离状态恢复训练
Recovery perturbation	加入 8.5k 扰动样本	NAVSIM v2 EPDMS ↑	36.9	闭环反事实评估显著提升
R2R alignment	无对齐	MinADE ↓	见 Fig. 5	真实/合成域差距更明显
R2R alignment	spatial alignment	MinADE ↓	优于无对齐	局部结构对齐有效
R2R alignment	spatial + global alignment	MinADE ↓	最优	同时约束局部几何和全局域分布

另一个关键消融是 cross-agent view synthesis 的 scaling curve。作者从 85k 真实样本出发，逐步加入 1k、10k、100k、500k、1000k 个其他车辆视角 raster 样本，MinADE 与样本量近似满足 \(y=-0.021\ln(x)+1.2173\)，\(R^2=0.9942\)。这说明从其他 agent 视角生成的数据并非噪声堆量，而是遵循类似数据 scaling law 的持续收益，只是收益随规模增加逐渐递减。

关键发现¶

RAP 的收益在更接近闭环的评估中更明显。扰动增强对 NAVSIM v1 几乎不变，但对 NAVSIM v2 大幅提升，说明它主要解决的是偏离状态恢复，而不是简单的开放环拟合。
rasterization 的“简化”不是随便画线。colored faces、depth decay、black background 都有实证作用：对象语义、距离感和低干扰背景共同构成了适合规划学习的抽象视觉输入。
R2R alignment 是合成数据可迁移的关键。只靠 raster 样本扩充可能会带来域偏差，而空间级和全局级对齐能让真实图像特征吸收 raster 的结构监督，同时保持真实推理能力。
RAP 对不同规划器都有增益。RAP-iPad、RAP-DiffusionDrive 和 RAP-ResNet 的结果表明，这篇论文的主要贡献更像是一套可复用训练配方，而不是只服务于单一大模型的工程堆叠。

亮点与洞察¶

这篇论文最有价值的判断是“规划不需要照片级真实，训练需要语义级可扩展”。很多驾驶仿真工作默认像素越真实越好，但 RAP 把目标改成保留几何、动态和语义，这让数据生成成本从照片级重建降到标注原语投影。
recovery-oriented perturbation 对准了 imitation learning 的根因问题。它不是普通图像增强，而是在状态分布上补齐“模型已经犯小错时如何恢复”的训练经验，因此更符合闭环部署时的失效模式。
Raster-to-Real 对齐的位置选得很巧。论文没有试图把 raster 图像变成照片，也没有让模型完全忽略真实图像，而是在中间特征层把两域拉近，这比像素级 sim-to-real 更符合端到端规划的需求。
cross-agent view synthesis 是一个高性价比扩数据思路。同一段交通日志里本来就有大量非 ego 轨迹，RAP 把它们转成可训练视角，相当于从已有标注中挖出更多交互角色和长尾行为。
对自动驾驶世界模型研究也有启发：如果目标是训练规划策略，未必所有生成模型都要追求视觉逼真；可控、便宜、能覆盖反事实状态的结构化生成可能更直接地服务决策。

局限与展望¶

RAP 仍然停留在 imitation learning 框架内。它能制造偏离状态和恢复样本，但监督目标仍来自日志或过滤后的专家轨迹，因此没有彻底解决 causal confusion、交互式探索和策略自我改进问题。
rasterization 依赖高质量场景标注。如果地图、交通灯、对象 3D box 或 agent 轨迹不准确，生成的合成视角会把错误几何当作干净监督传给模型；这在标注稀疏或传感器覆盖较差的数据集上可能更明显。
简化视觉可能遗漏未标注的关键线索。作者在附录中展示模型仍能利用真实图像识别 “Keep Left” 标志和 LED 箭头，但这些能力来自真实图像训练和多任务目标；如果真实数据比例过低，细粒度视觉 cue 是否仍能保留需要更系统验证。
cross-agent view synthesis 对相机参数和车辆语义有近似假设。把其他交通参与者当作 ego 视角生成样本时，传感器安装位置、可见范围和驾驶意图不一定完全等价，极端情况下可能引入不自然样本。
未来方向可以把 3D rasterization 扩展成真正闭环 simulator，用于 reinforcement learning 或在线数据聚合。这样 RAP 就不只是离线扩增训练集，而可以让策略在可控、便宜的结构化环境中主动探索和修正。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 把轻量 3D rasterization、恢复扰动、跨主体视角和特征级 sim-to-real 对齐组合到端到端规划训练中，问题定义和工程取舍都很清晰。
实验充分度: ⭐⭐⭐⭐⭐ 覆盖 NAVSIM v1/v2、WOD-E2E、Bench2Drive，并有 rasterization 设计、扰动、R2R alignment、cross-agent scaling 等关键消融。
写作质量: ⭐⭐⭐⭐☆ 论文主线非常清楚，动机和结果有说服力；少数实现细节如跨 agent 相机近似和部分 alignment 方向表述还可以更展开。
价值: ⭐⭐⭐⭐⭐ 对端到端自动驾驶训练很实用，核心启发是用便宜、结构化、可控的合成数据替代昂贵照片级渲染来提升闭环鲁棒性。