Bird's-eye-view Informed Reasoning Driver (BIRDriver)¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=TuU95FWkyH
代码: 待确认
领域: 自动驾驶 / VLM 运动规划
关键词: 自动驾驶, 运动规划, BEV, 视觉语言模型, 长尾场景, 关键点, 加权 SFT

一句话总结¶

BIRDriver 把整个驾驶场景压缩成一张单帧 BEV 俯视图喂给 VLM，让 VLM 只输出不超过 3 个相对坐标关键点来表达驾驶意图，再由运动规划器据此生成轨迹，从而把 VLM 的常识推理能力低成本地嫁接到长尾驾驶场景上。

研究背景与动机¶

领域现状：自动驾驶运动规划目前以规则法和模仿学习为主，在常见场景上已有很强的闭环表现（如 PLUTO、Diffusion Planner 在 nuPlan 上接近 SOTA）。
现有痛点：这些规划器只基于结构化输入（物体状态、地图元素）决策，缺乏人类式的语境理解，遇到训练数据里没有的长尾场景（绕行抛锚车、施工区）就会失败。
核心矛盾：VLM/LLM 有强大的常识与零样本泛化能力，但接入规划器的三种已有范式各有硬伤——meta-action（如 Senna）粒度太粗、隐特征（如 AsyncDriver）抽象不可解释、直接输出 waypoint 序列（如 DriveVLM）冗余且无法吃到互联网预训练红利（轨迹能力主要来自领域数据而非通用语料）。
本文目标：设计一个分层框架，既保留实时规划器的安全性，又让 VLM 以一种"既能利用预训练知识、又不依赖领域专用编码器和昂贵对齐"的方式注入高层意图。
核心 idea：用单帧 BEV 图替代文本场景描述 + 用 ≤3 个相对关键点替代密集轨迹——BEV 图作为 VLM 唯一视觉输入承载全部场景信息（文本里不含任何场景细节），既绕开跨车型传感器对齐难题，又让 VLM 充分发挥俯视图理解能力；稀疏关键点则用最少的"语言"传达意图，把繁重的轨迹细化交还给专业规划器。

方法详解¶

整体框架¶

BIRDriver 是一个 VLM + 运动规划器的两段式分层架构，通过解耦训练、串行推理实现闭环驾驶。VLM 输入为单帧 BEV 图 + system/user prompt，输出文本形式的关键点；关键点经 KeyPoint Encoder 编码后，与场景结构化特征一起送入运动规划器（基于 PLUTO）解码出最终轨迹。

flowchart LR
    A[环境五要素<br/>地图/Agent/红绿灯/路线/障碍] --> B[单帧 BEV 图渲染]
    B --> C[VLM<br/>Qwen2.5VL-3B + LoRA]
    P[System/User Prompt] --> C
    C --> D[≤3 个相对关键点<br/>x,y,φ 文本]
    D --> E[KeyPoint Encoder]
    F[场景结构化特征] --> G[运动规划器<br/>PLUTO Decoder]
    E --> G
    G --> H[最终轨迹]

关键设计¶

1. 单帧 BEV 表征：把场景全塞进一张图，文本零场景细节 BIRDriver 不用多帧环视相机，而是把环境的五类信息——地图（车道、连接线、人行道、离散路点）、Agent（自车橙、他车蓝、自行车粉、行人棕的 bounding box 加朝向箭头，非自车 Agent 还用绿实线画出过去 2 秒轨迹）、红绿灯（编码为路口停止线颜色）、路线（可行驶区淡蓝填充 + 紫色箭头参考线）、障碍（施工标志/路障/锥桶为黑框）——统一渲染成一张俯视图。所有元素的符号含义都在 system prompt 里向 VLM 解释清楚。这样做的好处是：VLM 只需理解一张图就掌握全场景，避免了跨车型异构传感器对齐，部署到不同真实平台时大大简化。

2. RDP 关键点提取：用稀疏几何点压缩驾驶意图 未来轨迹本是密集位姿序列 \((x_i, y_i, \phi_i)_{i=1}^N\)，BIRDriver 用经典的 Ramer–Douglas–Peucker 曲线简化算法从中抽出稀疏关键点。RDP 递归地用首尾连线，计算中间点到该线的垂距 \(d_i = \frac{|(P_N - P_1)\times(P_i - P_1)|}{\|P_N - P_1\|}\)，若最大垂距 \(d_{max}\) 超过容差 \(\epsilon\)（论文取 0.02）就在该点切分递归，否则只保留端点。由于不同机动（保持/变道/转弯）复杂度不同，关键点上限按轨迹类型自适应调整，但轨迹终点必定保留。除终点（代表轨迹结束位置）外，其余关键点都是时间无关的，只刻画轨迹几何形状，且全部以相对自车的 \((x, y, \phi)\) 表示。

3. 三任务复合数据集：补足 VLM 的空间感与场景理解短板 直接微调发现关键点预测误差偏大，根因有二：VLM 不懂 BEV 像素距离与真实物理距离的对应关系，以及对驾驶场景的分类理解不足。BIRDriver 用 LoRA 微调（解冻语言模型、所有线性层加 adapter），并构造三类数据集对症下药——Key Point 数据集（主任务，BEV+prompt→关键点）打底；Spatial Localization 数据集让 VLM 预测随机车辆相对自车的位姿，弥合像素-物理距离差；Driving Scene Stepwise 数据集要求 VLM 先判定场景类型再预测关键点，强化场景理解。三者按 10:1:2 的比例混合（共 83.8 万样本）联合微调。

4. 加权 SFT 损失：让数字 token 的精度被重点照顾 标准 SFT 把每个 token 一视同仁，但关键点任务里数字 token 的精度才是关键。BIRDriver 给数字、小数点、符号三类 token 加权，且考虑到高位数字比低位更重要，设计了分层线性衰减权重：一个数字段内权重从最高位的 \((\alpha + d_n)\) 线性衰减到末位的 1，符号位默认最高权重，非数字 token 权重为 1：

\[\mathcal{L}_{SFT}(\theta) = \frac{1}{T}\sum_{t=1}^{T} w_t \big(-\log p_\theta(y_t \mid y_{<t}, X)\big)\]

其中 \(\alpha>0\)（论文取 5），\(d_n\) 为数字段 \(n\) 的位数，\(L_n\) 为其 token 长度，所有浮点标签四舍五入到两位小数。相比 PDCE 损失，它无需生成软标签或标准化数字格式，只调权重而不改目标分布，因此实现更简单、也更不易损伤 VLM 的通用语言能力。

5. 带噪声增强的规划器微调：让规划器学会容忍 VLM 误差 运动规划器（PLUTO）独立于 VLM 微调，目标是准确跟随关键点。训练时用 RDP 从真实轨迹抽关键点，并加入零均值、标准差等于 VLM 预测平均绝对误差的高斯噪声 \(\epsilon_i \sim \mathcal{N}(0, \Sigma)\)、\(\Sigma = \mathrm{diag}(\sigma_x^2, \sigma_y^2, \sigma_\phi^2)\) 做增强，使规划器对 VLM 的预测偏差更鲁棒（联合推理时不再加噪）。此外推理阶段把上一时刻的最终规划点作为额外关键点喂入，增强决策的时序一致性。选 PLUTO 而非 Diffusion Planner 是因为同样设置下后者跟踪多关键点能力更弱。

实验关键数据¶

主实验表格（nuPlan，闭环得分 CLS，0-100）¶

类型	方法	T14-rand NR	T14-rand R	T14-hard NR	T14-hard R	InterPlan R
Rule	PDM-Closed	90.05	91.64	65.07	75.18	43.51
IL	PLUTO（基线）	91.87	90.03	80.03	76.92	48.92
IL	Diffusion Planner	93.85	91.73	78.82	81.42	39.85
LLM	InstructDriver	70.31	66.96	57.37	52.95	32.31
VLM	PlanAgent	-	-	72.51	76.82	-
VLM-IL	BIRDriver (PLUTO)	91.46	91.26*	80.56*	80.33*	55.29*

* 表示超过基线 PLUTO。在长尾的 InterPlan 上 BIRDriver 取得 SOTA，比 PLUTO、Diffusion Planner 分别高 13.0% 和 38.8%；除 Test14-random 的 CLS-NR 外，全面优于基线。VLM 基座为 Qwen2.5VL-3B。

消融实验表格¶

数据集设计 + 加权损失对关键点预测误差的影响（Qwen2.5VL-3B，Test14-hard 272 clip）：

配置	x 误差	y 误差	φ 误差
仅 KeyPoint	4.27m	1.35m	4.23°
+Driving Scene Stepwise	4.17m	1.28m	4.20°
++Spatial Localization	3.76m	1.08m	3.80°
全量但无加权 SFT 损失	4.22m	1.19m	4.13°

三数据集叠加后 x/y/φ 误差较仅 KeyPoint 分别降 11.9%/20.0%/10.2%；加权损失再额外降 10.9%/9.2%/8.0%。

关键点提取方式（InternVL2.5-4B，InterPlan）：

方法	InterPlan
RDP（本文）	53.81
仅终点	34.72

关键发现¶

Spatial Localization 数据集贡献最大：说明弥合 BEV 像素与物理距离的鸿沟，比增强场景理解更能降低关键点误差。
只用终点会比基线更差（34.72 < PLUTO 的 48.92）：缺少中间关键点引导，规划器无法生成抵达单一终点的合理轨迹，反而失败——证明稀疏中间点的必要性。
VLM 参数量存在拐点：InternVL2.5 从 2B→4B 误差骤降 43.7%/48.4%/56.3%，但 Qwen2.5VL 从 3B→7B 仅 x 方向降 4.3%、y/φ 几乎不变；综合精度与推理效率最终选 3B。

亮点与洞察¶

BEV 即"通用语言"：把场景压成一张俯视图、文本零场景细节，是本文最巧妙的一招——既让 VLM 吃满互联网级预训练的图像理解能力，又天然规避跨车型传感器对齐，是"用对模型的强项"的典范。
≤3 个关键点的极简意图接口：在 meta-action（太粗）和 waypoint 序列（太冗）之间找到甜点，相对坐标 + 时间无关的几何点既可解释又轻量。
加权 SFT 损失针对性极强：精准命中"VLM 不擅长生成精确数字"这一痛点，且以"只改权重不改分布"的克制方式避免伤害通用能力，工程上比 PDCE 更易落地。

局限与展望¶

单帧 BEV 丢失时序动态：虽用绿线画了过去 2 秒轨迹，但单帧表征对高速/快速变化场景的预测能力可能受限。
依赖上游 BEV 构建质量：BEV 图渲染需要准确的感知输出，感知误差会直接传导到 VLM 推理。
仅在 nuPlan 仿真验证：尚未有真车闭环或跨数据集泛化结果；且串行推理（VLM 后接规划器）的实时性在高频规划下仍需关注。
关键点数 ≤3 的上限是否对所有复杂机动够用仍有探索空间。

评分¶

新颖性: ⭐⭐⭐⭐ — 单帧 BEV 作 VLM 唯一输入 + ≤3 相对关键点接口的组合是规划领域的新范式，加权 SFT 损失也有针对性创新。
实验充分度: ⭐⭐⭐⭐ — 三个 benchmark + 四组消融（数据集/损失/提取方式/VLM 选型）较完整，但仅限 nuPlan 仿真、缺真车与跨集泛化。
写作质量: ⭐⭐⭐⭐ — 动机层层递进、三范式对比清晰、方法与公式表述严谨。
价值: ⭐⭐⭐⭐ — 长尾场景 SOTA 且部署友好（绕开传感器对齐），对工业界落地有较强参考价值。