Bird's-eye-view Informed Reasoning Driver (BIRDriver)¶
会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=TuU95FWkyH
代码: 待确认
领域: 自动驾驶 / VLM 运动规划
关键词: 自动驾驶, 运动规划, BEV, 视觉语言模型, 长尾场景, 关键点, 加权 SFT
一句话总结¶
BIRDriver 把整个驾驶场景压缩成一张单帧 BEV 俯视图喂给 VLM,让 VLM 只输出不超过 3 个相对坐标关键点来表达驾驶意图,再由运动规划器据此生成轨迹,从而把 VLM 的常识推理能力低成本地嫁接到长尾驾驶场景上。
研究背景与动机¶
- 领域现状:自动驾驶运动规划目前以规则法和模仿学习为主,在常见场景上已有很强的闭环表现(如 PLUTO、Diffusion Planner 在 nuPlan 上接近 SOTA)。
- 现有痛点:这些规划器只基于结构化输入(物体状态、地图元素)决策,缺乏人类式的语境理解,遇到训练数据里没有的长尾场景(绕行抛锚车、施工区)就会失败。
- 核心矛盾:VLM/LLM 有强大的常识与零样本泛化能力,但接入规划器的三种已有范式各有硬伤——meta-action(如 Senna)粒度太粗、隐特征(如 AsyncDriver)抽象不可解释、直接输出 waypoint 序列(如 DriveVLM)冗余且无法吃到互联网预训练红利(轨迹能力主要来自领域数据而非通用语料)。
- 本文目标:设计一个分层框架,既保留实时规划器的安全性,又让 VLM 以一种"既能利用预训练知识、又不依赖领域专用编码器和昂贵对齐"的方式注入高层意图。
- 核心 idea:用单帧 BEV 图替代文本场景描述 + 用 ≤3 个相对关键点替代密集轨迹——BEV 图作为 VLM 唯一视觉输入承载全部场景信息(文本里不含任何场景细节),既绕开跨车型传感器对齐难题,又让 VLM 充分发挥俯视图理解能力;稀疏关键点则用最少的"语言"传达意图,把繁重的轨迹细化交还给专业规划器。
方法详解¶
整体框架¶
BIRDriver 是一个 VLM + 运动规划器的两段式分层架构,通过解耦训练、串行推理实现闭环驾驶。VLM 输入为单帧 BEV 图 + system/user prompt,输出文本形式的关键点;关键点经 KeyPoint Encoder 编码后,与场景结构化特征一起送入运动规划器(基于 PLUTO)解码出最终轨迹。
flowchart LR
A[环境五要素<br/>地图/Agent/红绿灯/路线/障碍] --> B[单帧 BEV 图渲染]
B --> C[VLM<br/>Qwen2.5VL-3B + LoRA]
P[System/User Prompt] --> C
C --> D[≤3 个相对关键点<br/>x,y,φ 文本]
D --> E[KeyPoint Encoder]
F[场景结构化特征] --> G[运动规划器<br/>PLUTO Decoder]
E --> G
G --> H[最终轨迹]
关键设计¶
1. 单帧 BEV 表征:把场景全塞进一张图,文本零场景细节 BIRDriver 不用多帧环视相机,而是把环境的五类信息——地图(车道、连接线、人行道、离散路点)、Agent(自车橙、他车蓝、自行车粉、行人棕的 bounding box 加朝向箭头,非自车 Agent 还用绿实线画出过去 2 秒轨迹)、红绿灯(编码为路口停止线颜色)、路线(可行驶区淡蓝填充 + 紫色箭头参考线)、障碍(施工标志/路障/锥桶为黑框)——统一渲染成一张俯视图。所有元素的符号含义都在 system prompt 里向 VLM 解释清楚。这样做的好处是:VLM 只需理解一张图就掌握全场景,避免了跨车型异构传感器对齐,部署到不同真实平台时大大简化。
2. RDP 关键点提取:用稀疏几何点压缩驾驶意图 未来轨迹本是密集位姿序列 \((x_i, y_i, \phi_i)_{i=1}^N\),BIRDriver 用经典的 Ramer–Douglas–Peucker 曲线简化算法从中抽出稀疏关键点。RDP 递归地用首尾连线,计算中间点到该线的垂距 \(d_i = \frac{|(P_N - P_1)\times(P_i - P_1)|}{\|P_N - P_1\|}\),若最大垂距 \(d_{max}\) 超过容差 \(\epsilon\)(论文取 0.02)就在该点切分递归,否则只保留端点。由于不同机动(保持/变道/转弯)复杂度不同,关键点上限按轨迹类型自适应调整,但轨迹终点必定保留。除终点(代表轨迹结束位置)外,其余关键点都是时间无关的,只刻画轨迹几何形状,且全部以相对自车的 \((x, y, \phi)\) 表示。
3. 三任务复合数据集:补足 VLM 的空间感与场景理解短板 直接微调发现关键点预测误差偏大,根因有二:VLM 不懂 BEV 像素距离与真实物理距离的对应关系,以及对驾驶场景的分类理解不足。BIRDriver 用 LoRA 微调(解冻语言模型、所有线性层加 adapter),并构造三类数据集对症下药——Key Point 数据集(主任务,BEV+prompt→关键点)打底;Spatial Localization 数据集让 VLM 预测随机车辆相对自车的位姿,弥合像素-物理距离差;Driving Scene Stepwise 数据集要求 VLM 先判定场景类型再预测关键点,强化场景理解。三者按 10:1:2 的比例混合(共 83.8 万样本)联合微调。
4. 加权 SFT 损失:让数字 token 的精度被重点照顾 标准 SFT 把每个 token 一视同仁,但关键点任务里数字 token 的精度才是关键。BIRDriver 给数字、小数点、符号三类 token 加权,且考虑到高位数字比低位更重要,设计了分层线性衰减权重:一个数字段内权重从最高位的 \((\alpha + d_n)\) 线性衰减到末位的 1,符号位默认最高权重,非数字 token 权重为 1:
其中 \(\alpha>0\)(论文取 5),\(d_n\) 为数字段 \(n\) 的位数,\(L_n\) 为其 token 长度,所有浮点标签四舍五入到两位小数。相比 PDCE 损失,它无需生成软标签或标准化数字格式,只调权重而不改目标分布,因此实现更简单、也更不易损伤 VLM 的通用语言能力。
5. 带噪声增强的规划器微调:让规划器学会容忍 VLM 误差 运动规划器(PLUTO)独立于 VLM 微调,目标是准确跟随关键点。训练时用 RDP 从真实轨迹抽关键点,并加入零均值、标准差等于 VLM 预测平均绝对误差的高斯噪声 \(\epsilon_i \sim \mathcal{N}(0, \Sigma)\)、\(\Sigma = \mathrm{diag}(\sigma_x^2, \sigma_y^2, \sigma_\phi^2)\) 做增强,使规划器对 VLM 的预测偏差更鲁棒(联合推理时不再加噪)。此外推理阶段把上一时刻的最终规划点作为额外关键点喂入,增强决策的时序一致性。选 PLUTO 而非 Diffusion Planner 是因为同样设置下后者跟踪多关键点能力更弱。
实验关键数据¶
主实验表格(nuPlan,闭环得分 CLS,0-100)¶
| 类型 | 方法 | T14-rand NR | T14-rand R | T14-hard NR | T14-hard R | InterPlan R |
|---|---|---|---|---|---|---|
| Rule | PDM-Closed | 90.05 | 91.64 | 65.07 | 75.18 | 43.51 |
| IL | PLUTO(基线) | 91.87 | 90.03 | 80.03 | 76.92 | 48.92 |
| IL | Diffusion Planner | 93.85 | 91.73 | 78.82 | 81.42 | 39.85 |
| LLM | InstructDriver | 70.31 | 66.96 | 57.37 | 52.95 | 32.31 |
| VLM | PlanAgent | - | - | 72.51 | 76.82 | - |
| VLM-IL | BIRDriver (PLUTO) | 91.46 | 91.26* | 80.56* | 80.33* | 55.29* |
* 表示超过基线 PLUTO。在长尾的 InterPlan 上 BIRDriver 取得 SOTA,比 PLUTO、Diffusion Planner 分别高 13.0% 和 38.8%;除 Test14-random 的 CLS-NR 外,全面优于基线。VLM 基座为 Qwen2.5VL-3B。
消融实验表格¶
数据集设计 + 加权损失对关键点预测误差的影响(Qwen2.5VL-3B,Test14-hard 272 clip):
| 配置 | x 误差 | y 误差 | φ 误差 |
|---|---|---|---|
| 仅 KeyPoint | 4.27m | 1.35m | 4.23° |
| +Driving Scene Stepwise | 4.17m | 1.28m | 4.20° |
| ++Spatial Localization | 3.76m | 1.08m | 3.80° |
| 全量但无加权 SFT 损失 | 4.22m | 1.19m | 4.13° |
三数据集叠加后 x/y/φ 误差较仅 KeyPoint 分别降 11.9%/20.0%/10.2%;加权损失再额外降 10.9%/9.2%/8.0%。
关键点提取方式(InternVL2.5-4B,InterPlan):
| 方法 | InterPlan |
|---|---|
| RDP(本文) | 53.81 |
| 仅终点 | 34.72 |
关键发现¶
- Spatial Localization 数据集贡献最大:说明弥合 BEV 像素与物理距离的鸿沟,比增强场景理解更能降低关键点误差。
- 只用终点会比基线更差(34.72 < PLUTO 的 48.92):缺少中间关键点引导,规划器无法生成抵达单一终点的合理轨迹,反而失败——证明稀疏中间点的必要性。
- VLM 参数量存在拐点:InternVL2.5 从 2B→4B 误差骤降 43.7%/48.4%/56.3%,但 Qwen2.5VL 从 3B→7B 仅 x 方向降 4.3%、y/φ 几乎不变;综合精度与推理效率最终选 3B。
亮点与洞察¶
- BEV 即"通用语言":把场景压成一张俯视图、文本零场景细节,是本文最巧妙的一招——既让 VLM 吃满互联网级预训练的图像理解能力,又天然规避跨车型传感器对齐,是"用对模型的强项"的典范。
- ≤3 个关键点的极简意图接口:在 meta-action(太粗)和 waypoint 序列(太冗)之间找到甜点,相对坐标 + 时间无关的几何点既可解释又轻量。
- 加权 SFT 损失针对性极强:精准命中"VLM 不擅长生成精确数字"这一痛点,且以"只改权重不改分布"的克制方式避免伤害通用能力,工程上比 PDCE 更易落地。
局限与展望¶
- 单帧 BEV 丢失时序动态:虽用绿线画了过去 2 秒轨迹,但单帧表征对高速/快速变化场景的预测能力可能受限。
- 依赖上游 BEV 构建质量:BEV 图渲染需要准确的感知输出,感知误差会直接传导到 VLM 推理。
- 仅在 nuPlan 仿真验证:尚未有真车闭环或跨数据集泛化结果;且串行推理(VLM 后接规划器)的实时性在高频规划下仍需关注。
- 关键点数 ≤3 的上限是否对所有复杂机动够用仍有探索空间。
相关工作与启发¶
- VLM 接入规划器的三范式:meta-action(Senna)、隐特征(AsyncDriver)、waypoint(DriveVLM),本文以"BEV+关键点"开辟第四条路。
- BEV grounding VLM:PlanAgent、Choudhary 等已用 BEV 增强 VLM,但多依赖额外模态或聚焦场景查询;本文是首个纯 BEV 输入的分层 VLM-规划框架。
- 启发:当通用大模型不擅长某种精确输出(数字坐标)时,"换一种它擅长的表征(图像)做输入 + 用最少的符号做输出 + 损失层面定向加权"是一套可复用的低成本嫁接思路。
评分¶
- 新颖性: ⭐⭐⭐⭐ — 单帧 BEV 作 VLM 唯一输入 + ≤3 相对关键点接口的组合是规划领域的新范式,加权 SFT 损失也有针对性创新。
- 实验充分度: ⭐⭐⭐⭐ — 三个 benchmark + 四组消融(数据集/损失/提取方式/VLM 选型)较完整,但仅限 nuPlan 仿真、缺真车与跨集泛化。
- 写作质量: ⭐⭐⭐⭐ — 动机层层递进、三范式对比清晰、方法与公式表述严谨。
- 价值: ⭐⭐⭐⭐ — 长尾场景 SOTA 且部署友好(绕开传感器对齐),对工业界落地有较强参考价值。