\(AutoDrive\text{-}P^3\): Unified Chain of Perception-Prediction-Planning Thought via Reinforcement Fine-Tuning¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=CMU8GxwpUL
论文: OpenReview 会议论文
代码: https://github.com/haha-yuki-haha/AutoDrive-P3
领域: 自动驾驶
关键词: 端到端自动驾驶, 视觉语言模型, 感知预测规划, 强化微调, Chain-of-Thought

一句话总结¶

AutoDrive-P3 把自动驾驶 VLM 的感知、预测、规划组织成统一的 \(P^3\) 链式推理，并用覆盖三阶段的 GRPO 奖励做强化微调，在 nuScenes 与 NAVSIM 上同时提升轨迹精度、碰撞率和闭环规划分数。

研究背景与动机¶

领域现状：自动驾驶系统长期在两条路线之间演化。一条是传统模块化管线，先做感知，再做轨迹预测，最后做规划；另一条是端到端模型，把传感器输入直接映射到未来轨迹。近几年 VLM 被引入驾驶任务后，系统获得了更强的语义理解和长尾场景适应能力，可以用自然语言或结构化文本表达驾驶场景中的物体、行为和决策。

现有痛点：现有 VLM 驾驶方法的核心问题不是“能不能输出轨迹”，而是“轨迹从哪里推出来”。一类方法直接从图像和 ego 状态生成规划结果，中间缺少可检查的感知与预测推理，模型很容易把驾驶决策变成黑箱猜测。另一类方法虽然能分别回答感知、预测、规划问题，但这些问题通常是拆开的 QA，感知结果不会自然成为预测依据，预测结果也不会自然约束规划。

核心矛盾：真实驾驶决策需要阶段依赖：先找出会影响自车的关键目标，再判断这些目标接下来怎么动，最后结合自车状态和交通指令生成轨迹。只优化最终规划误差会把前两步当成副产品，导致模型可能用不可靠的中间理解“碰巧”得到轨迹；而只做分散 QA 又缺少端到端规划目标的牵引。

本文目标：本文要解决三个具体问题：第一，构造一种适合 VLM 训练的感知-预测-规划统一 CoT 格式；第二，让模型在冷启动阶段学会驾驶领域输入、输出标签和链式推理格式；第三，在强化微调阶段不只奖励规划，还显式奖励关键目标感知和行为预测，使规划收益建立在正确中间结果上。

切入角度：作者把自动驾驶推理看成一条 \(P^3\) 链：Perception 提供关键目标与位置，Prediction 判断这些目标未来行为，Planning 再生成自车未来轨迹。这个角度的好处是，VLM 的可解释文本输出不再只是附属说明，而是被写进监督数据和强化学习奖励里的中间结构。

核心 idea：用统一的 \(P^3\)-CoT 数据和三阶段 P3-GRPO 奖励，把“会说感知、预测、规划”的 VLM 训练成“按感知→预测→规划顺序协同决策”的端到端驾驶模型。

方法详解¶

整体框架¶

AutoDrive-P3 的输入包括驾驶视频、ego 车辆状态、历史轨迹、导航指令和提示词，输出不是单一轨迹，而是一串结构化的感知、预测、规划 CoT 与对应答案。模型先通过 P3-CoT 数据学会统一输出格式，再用 SFT 做驾驶领域冷启动，最后用 P3-GRPO 对三阶段结果一起做强化微调，并在推理时提供 detailed thinking 与 fast thinking 两种模式。

整体流程可以理解为：先把现有 nuScenes/NAVSIM 样本整理成只关注关键物体的三阶段标签，再借助强 VLM 生成连贯 CoT；随后用这些样本把 Qwen2.5-VL-3B 调成能产出 \(\langle perception,prediction,planning\rangle\) 序列的驾驶模型；最后对每个问题采样多条回答，分别计算格式、感知、预测、规划奖励，并用组内相对优势更新策略。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["驾驶视频 + Ego状态<br/>历史轨迹 + 指令"] --> B["P3-CoT统一链式数据<br/>关键目标→行为→轨迹"]
    B --> C["结构化SFT冷启动<br/>学习三段标签与格式"]
    C --> D["P3-GRPO分层奖励优化<br/>感知/预测/规划共同受奖"]
    D --> E["双思考模式输出<br/>Detailed 或 Fast"]
    E --> F["可解释轨迹规划"]

关键设计¶

1. P3-CoT统一链式数据：把关键目标、未来行为和自车轨迹放进同一条推理链

这篇论文首先补的是数据形态，而不是单纯换一个模型。已有驾驶 VLM 数据常见问题是目标太泛、QA 太碎：一个样本可能问“图里有什么车”，另一个样本问“应该怎么开”，但模型没有被要求把前一个答案当作后一个答案的依据。P3-CoT 因此从每个场景中筛出真正影响驾驶的关键目标，给出二维框作为感知标签，再根据这些目标的未来轨迹生成 stop、straight、left、right 等预测标签，最后用自车未来 waypoints 作为规划标签。

更重要的是，作者要求合成 CoT 时保持阶段依赖：预测阶段只能基于感知阶段已经识别出的关键目标，规划阶段则必须同时利用感知与预测结果。这样得到的训练样本不只是“带解释的答案”，而是一种可被模型模仿的驾驶认知过程。数据规模也不小：nuScenes 部分包含 25,303 帧、850 个场景，NAVSIM 部分包含 115,434 帧、1,382 个场景，足够支撑 SFT 与后续 GRPO 采样。

2. 结构化SFT冷启动：先让 VLM 学会驾驶域的三段输出语法

直接对通用 VLM 做强化学习很容易不稳定，因为模型一开始既不熟悉驾驶坐标、历史轨迹、ego 指令，也未必会稳定输出可解析的三阶段标签。AutoDrive-P3 因此先用 P3-CoT 做监督微调，把输入组织成 \(x=[x_{ego};x_{video};x_{cmd};x_{prompt}]\)，把输出组织成 \(y=[y_{perception};y_{prediction};y_{planning}]\)，其中每个模块又分为 \(y_{module}=[y_{thinking};y_{answer}]\)。

SFT 目标仍是标准负对数似然 \(L_{SFT}=-\sum_{t=1}^{T}\log P(y_t|y_{<t},x)\)，但它训练出的能力很具体：模型要按固定标签输出 <perception_thinking>、<perception_answer>、<prediction_thinking>、<prediction_answer>、<planning_thinking>、<planning_answer> 这类结构。这个冷启动阶段降低了 VLM 与自动驾驶任务之间的格式和语义域差距，也让后续奖励函数可以可靠解析每个模块的结果。

3. P3-GRPO分层奖励优化：不只奖最终轨迹，也奖轨迹背后的理解是否正确

论文最核心的训练设计是把 GRPO 从“规划-only”扩展成三阶段联合奖励。对一个问题 \(q\) 和回答 \(a\)，总奖励写成 \(R(q,a)=\lambda_{format}R_{format}+\lambda_{perc}R_{perc}+\lambda_{pred}R_{pred}+\lambda_{plan}R_{plan}\)，实验里权重比例为 \(1:2:2:5\)。这表示规划仍是最终目标，但感知和预测不是可有可无的解释文本，而是会直接影响策略更新的中间任务。

感知奖励 \(R_{perc}\) 根据预测框与真值框的平均 IoU、precision、recall 计算；没有目标且模型也不报目标时给满分，有目标却漏检或误报则受罚。预测奖励 \(R_{pred}\) 进一步要求匹配框上的未来动作标签正确，并用 IoU 加权动作正确性，因此“框找准但动作错”和“动作碰巧对但框偏了”都拿不到高分。规划奖励 \(R_{plan}=2/(1+e^{clip(L2,0,L2_{max})})\) 用预测轨迹与真值轨迹的 L2 距离衡量，在 NAVSIM 上还加入 PDMS 相关信号。

GRPO 的组内相对优势也适合这里的多样回答采样。模型对同一场景生成 \(G\) 个 P3-CoT 候选，分别计算奖励，再用 \(\hat{A}_i=(R_i-mean(R))/std(R)\) 判断哪些回答相对更好。相比只看最终 L2 的 RL，这种奖励会逼模型修正“看错目标但轨迹看似还行”的样本，因为感知和预测模块已经把错误暴露出来。

4. 双思考模式输出：把可解释性和实时性拆成可切换的推理预算

自动驾驶部署不能只追求长 CoT，推理延迟同样重要。AutoDrive-P3 因此提供 detailed thinking 和 fast thinking 两种模式。Detailed 模式完整输出每个模块的 reasoning 与 answer，适合分析、调试和需要更强解释性的场景；Fast 模式保留 P3-CoT 的三段结构，但把 thinking 留空或极简，只输出感知、预测和规划答案。

这个设计不是简单“少生成一些字”，而是在同一训练框架下保留阶段化输出接口。也就是说，Fast 模式仍然按感知→预测→规划产出结构化结果，只是把显式推理文本压缩掉。实验显示 Fast 模式在 nuScenes 上平均 L2 从 Detailed 的 0.33 轻微变为 0.34，平均碰撞率从 0.06% 变为 0.08%，但 FPS 从 0.5 提到 1.0，更接近实时驾驶需求。

一个完整示例¶

假设前视视频最后一帧里有一名行人位于右侧人行道，ego 车辆当前速度为 0，历史轨迹显示过去 3 秒基本静止，驾驶指令是继续直行。AutoDrive-P3 的 Detailed 模式会先在感知阶段输出行人的二维框，例如 [400,110,448,235] 与 label pedestrian，并说明它是当前需要关注的关键目标。

接着预测阶段只围绕这个已识别目标判断未来行为。如果行人不在 ego 车辆行驶方向上，模型会输出 future_action: straight，同时说明它短期内不会直接影响自车路径。最后规划阶段结合“自车静止但指令直行”和“关键目标不构成直接冲突”，生成 0.5s 到 3.0s 的六个未来轨迹点，例如从 [0.0,0.03] 逐渐前进到 [0.0,4.23]。这个例子体现了论文强调的依赖关系：规划不是凭空给出，而是由感知到的目标与预测到的行为共同约束。

损失函数 / 训练策略¶

训练分两阶段。第一阶段是 SFT 冷启动，使用 P3-CoT 数据最小化序列负对数似然，使 Qwen2.5-VL-3B 学会驾驶输入、模块标签、CoT 格式和结构化答案。nuScenes 输入为前视相机 3 秒视频、6 帧、分辨率 \(448\times252\)，ego 信息只包含速度；NAVSIM 输入为前、左前、右前三视角 2 秒视频、4 帧、分辨率 \(672\times168\)，ego 信息包含 \(v_x,v_y,a_x,a_y\)。

第二阶段是 P3-GRPO。每个场景采样 8 个 P3-CoT 回答，按格式、感知、预测、规划计算总奖励，并用 clipped surrogate objective 加 KL 约束更新策略。论文保留 KL 正则，权重为 0.01；附录显示去掉 KL 后训练会逐渐偏离基模型并发生性能坍塌。优化器使用 AdamW，主要实验在 8 张 A100 上训练；推理时间测试使用 vLLM 0.8.0 和 H100。

实验关键数据¶

主实验¶

论文在 open-loop 的 nuScenes 与 closed-loop 风格的 NAVSIMv1/v2 上评估。nuScenes 主要看 L2 轨迹误差与碰撞率，NAVSIMv1 使用 PDMS，NAVSIMv2 使用更扩展的 EPDMS。PDMS 由 NC、DAC、EP、TTC、Comfort 组合而成，NAVSIMv2 还加入 DDC、TLC、LK、HC、EC 等更细约束。

数据集 / 指标	本文 Detailed	本文 Fast	代表性之前方法	主要提升
nuScenes Avg. L2 ↓	0.33	0.34	OmniDrive / OpenDriveVLA: 0.33	L2 持平 SOTA，模型更小且训练数据更少
nuScenes Avg. Collision ↓	0.06%	0.08%	OpenDriveVLA: 0.10%, OmniDrive: 0.11%	Detailed 相对 0.10% 降到 0.06%，碰撞率优势明显
NAVSIMv1 PDMS ↑	90.6	90.2	WoTE: 88.3, DiffusionDrive: 88.1	视觉-only 输入下超过强 BEV/世界模型方法
NAVSIMv2 EPDMS ↑	86.2 / 89.9	85.2 / 88.7	DiffusionDrive: 84.7 / 88.2	在 false/true human penalty filter 两种设置下都更高

从主结果看，AutoDrive-P3 的优势主要体现在安全性和闭环评估分数上。nuScenes 的 L2 已经与 OmniDrive、OpenDriveVLA 等方法接近天花板，但碰撞率从 0.10%-0.11% 区间进一步降到 0.06%。NAVSIMv1/v2 上，模型不用 LiDAR，仅用视觉输入就超过需要更强传感器或专门 BEV 模块的规划方法，说明三阶段 CoT 与奖励确实对规划质量有帮助。

消融实验¶

配置	关键指标	说明
Only SFT	Perception 0.33, Prediction 0.23, Avg Collision 0.17%	只学格式和监督标签，已经能规划，但中间任务较弱
SFT + Only Planning GRPO	Avg Collision 0.12%	只奖励规划能改善 3s 碰撞，但感知/预测没有直接收益
SFT + P3-GRPO	Perception 0.64, Prediction 0.54, Avg Collision 0.06%	三阶段奖励同时提升中间理解和最终规划
Group size 4	Avg L2 0.38, Avg Collision 0.13%	候选回答少，组内相对优势信号较弱
无历史轨迹	Avg L2 0.39, Avg Collision 0.14%	缺少 ego 过去运动趋势，规划上下文变差
单帧 Image	Avg L2 0.36, Avg Collision 0.12%	不如视频输入，说明时间动态对预测/规划重要
完整 P3-GRPO	Avg L2 0.33, Avg Collision 0.06%	group size 8、历史轨迹、视频输入共同组成最佳设置

关键发现¶

P3-GRPO 的主要价值不是把最终轨迹再调一点，而是显著修复感知与预测模块：Perception 从 0.33 提到 0.64，Prediction 从 0.23 提到 0.54，最终碰撞率也随之下降。
只做 Planning GRPO 的效果有限，平均碰撞率只能回到 UniAD 量级；这支持作者的核心判断：规划质量依赖可靠的关键目标识别和未来行为预测。
Fast 模式的性能退化很小，但速度从 0.5 FPS 到 1.0 FPS；在真实系统里，这种可切换推理预算比单一长 CoT 更实用。
奖励权重不能过度偏向规划。附录中 \(1:1:1:7\) 比 \(1:2:2:5\) 的感知、预测和 L2 都略差，说明前两阶段权重太低会削弱规划所需的中间基础。

亮点与洞察¶

把 CoT 变成可训练的驾驶中间结构：论文没有停留在“让 VLM 解释一下为什么这么开”，而是把感知框、预测动作、规划轨迹统一放进一个可监督、可奖励的格式里。这样 CoT 既能解释，也能被评估和优化。
奖励设计贴合驾驶因果链：P3-GRPO 的关键不是奖励项多，而是奖励项顺着驾驶决策链排列。感知错会影响预测，预测错会影响规划，训练信号也按这个逻辑压回模型。
只关注关键对象是一个实用取舍：自动驾驶不需要对画面里所有东西做开放词汇检测，真正影响规划的是少量关键目标。P3-CoT 的稀疏关键对象标注降低了噪声，也更接近人类驾驶注意力。
Detailed/Fast 模式给部署留下空间：长推理有助于可解释和分析，短推理更接近实时需求。两种模式共享同一三阶段接口，后续可以按场景风险动态切换。

局限与展望¶

论文承认模型仍会出现 reasoning hallucination。对安全关键系统而言，CoT 看起来合理并不等于事实正确，尤其当感知框或交通灯理解出错时，后续预测和规划可能被连锁带偏。
强化学习仍在离线数据或伪闭环环境中完成，缺少真实世界交互。NAVSIM 能提供更强的闭环指标，但还不能完全替代真实交通参与者对 ego 行为的反应。
当前输入设置相对简化。nuScenes 只用前视相机和速度，NAVSIM 只用三视角视觉与 ego kinematics；在复杂城市道路、恶劣天气、多传感器融合场景下，方法是否同样稳定还需要更多验证。
评估主要展示轨迹指标和少量可视化案例，对失败模式的系统归因还不够。后续可以按“感知漏检导致失败”“预测动作错导致失败”“规划保守/激进导致失败”拆开统计。
Fast 模式虽然接近 1 Hz，但对于高频控制仍偏慢。更现实的路径可能是让 VLM 负责低频语义决策或风险场生成，再由轻量规划器做高频控制。

评分¶

新颖性: ⭐⭐⭐⭐☆ 把 P3-CoT 数据、三阶段奖励和驾驶 VLM 结合得比较完整，概念不复杂但落点清晰。
实验充分度: ⭐⭐⭐⭐⭐ 覆盖 nuScenes、NAVSIMv1/v2、SFT/GRPO 消融、训练设置消融、速度对比和可视化，证据链较完整。
写作质量: ⭐⭐⭐⭐☆ 方法主线清楚，奖励公式和数据构建都交代了；少量表述和附录示例略显冗长。
价值: ⭐⭐⭐⭐⭐ 对 VLM 自动驾驶很有参考价值，尤其是“只优化规划不够，必须监督感知和预测”的训练观点。