Open-Ended Instruction Realization with LLM-Enabled Multi-Planner Scheduling in Autonomous Vehicles¶
会议: CVPR 2026
论文: CVF Open Access
代码: 待确认
领域: 自动驾驶 / LLM Agent
关键词: 开放式指令、运动规划调度、LLM 驾驶、人机交互、闭环评测
一句话总结¶
针对 L4-L5 自动驾驶里"乘客用自然语言下达机动级指令"这一被忽视的需求,本文提出一套"以调度为中心"的框架:用 LLM 一次性把开放式指令解析成驾驶行为序列并生成调度脚本,再由多个 MPC 运动规划器在实时反馈下接力执行,从而在保持语言到控制全链路可追溯的同时,把指令实现成功率相对基线提升 64%–200%,且只需一次 LLM 查询。
研究背景与动机¶
领域现状:现有人机交互(HMI)系统主要面向 SAE L0-L3,预设"驾驶员随时可接管",靠车道偏离告警、方向盘震动、接管提示这类面向司机的信号工作。但到了 Robotaxi 这类 L4-L5 场景,车里坐的是后排乘客而非司机,这些面向司机的线索全部失效,HMI 需要重新设计成"非驾驶用户也能直觉交互"的形态。LLM 的成熟让自然语言成为最自然的接口候选。
现有痛点:把乘客的开放式语言变成控制信号有三道坎。其一,现有车载 HMI 偏重信息娱乐、座舱控制、导航,几乎不开放车道变更、超车、靠边停车这类机动级操作;而真实乘客指令措辞千差万别("我感觉不安全""前面有便利店想买点东西"),不遵循标准模板。其二,执行一条指令往往需要调度一串驾驶行为(如"我感觉不安全"→[左变道、加速、车道保持]),单个规划器管不过来,且行为切换必须随实时交通反馈并发进行、不阻塞其他模块。其三,多数 LLM 驾驶研究只在公开数据集或游戏式模拟器上做开环评测,缺乏基于真实交通数据的高保真闭环测试台。
核心矛盾:语言模型擅长高层语义推理但输出是概率性、不可靠的,直接让它产生数值化、安全攸关的控制信号既不安全也不可追溯;而传统模块化 AD 栈安全可控却听不懂开放式语言。两者的能力域和时间尺度根本不同。
本文目标:让 LLM 只在它擅长的"高层、低频语义推理"上发力,把"低层、高频、安全攸关的连续控制"交还给可验证的控制器,并在两者之间建立一条人类可读、可审计的决策链;同时补上缺失的闭环评测基准。
切入角度:借鉴控制论的分层解耦、时间尺度分离与事件触发调度思想——LLM 一次性产出"调度脚本",脚本里用异步触发器在不同实时条件下切换多个专用运动规划器。
核心 idea:把 LLM 当成"调度器"而非"控制器"——用一次 LLM 调用生成调度脚本来协调多个显式 MPC 规划器,实现开放式机动级指令,同时维持语言到控制的透明链路。
方法详解¶
整体框架¶
框架把"乘客一句开放式指令 → 连续控制信号"拆成三个时间尺度递减的阶段。阶段 1(做什么):LLM 作为解释器 \(f_\phi\),输入指令 \(\gamma\) 和文本化的交通场景描述 \(o_0\),输出一个有序的原子驾驶行为序列 \(\{c_i\}_{i=1}^{m(\gamma)}\),每个 \(c_i\) 取自五种预定义原子行为(车道保持、左/右变道、加速、减速)。阶段 2(怎么做):LLM 在一次调用里生成可执行调度脚本,脚本既按序调度多个运动规划器去落实行为序列,又设置异步触发器持续监控场景图、在满足实时条件时触发规划器切换(如"间距超过 20 米时从减速切到右变道")。阶段 3(闭环执行):被调度的行为专用 MPC 规划器在滚动时域内用 3D 检测和高精地图优化轨迹,再由 LQR 控制器转成油门、刹车、转向。整个安全攸关的"调度—规划—控制"快环直接跑在原始感知输入上,LLM 只在慢环里做语义决策,因此底层控制不会被 LLM 的幻觉直接污染。
问题被形式化为指令引导的 POMDP \(\langle S, A, O, T, \mathcal{O}, \Gamma, R\rangle\),并用阶段式稀疏奖励 \(R(\bar{s}_t, a_t, \bar{s}_{t+1})\) 在完成第 \(k_t{+}1\) 个行为(即 \(s_{t+1}\in\mathcal{C}_{k_t+1}\))时给 \(r_{k_t+1}\),目标是在风险约束 \(\mathbb{P}[\forall t: s_t\in S_{\text{safe}}]\geq 1-\varepsilon\) 下最大化累计奖励。
%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
A["开放式指令 γ + 文本场景描述 o₀"] --> B["指令意图推断<br/>LLM→驾驶行为序列 {cᵢ}"]
B --> C["Mode III 混合调度脚本<br/>单次 LLM 调用:协程+异步触发器"]
C -->|实时反馈触发切换| D["解耦底层控制<br/>MPC 规划 + LQR 控制器"]
D --> E["连续控制信号<br/>油门/刹车/转向"]
F["POINT 基准<br/>nuPlan + 1050 指令-场景对"] -.闭环评测.-> B
关键设计¶
1. 指令意图推断:用文本场景描述把开放式指令锚定成原子行为序列
第一道坎是"听懂"千变万化的乘客措辞。本文让 LLM 作为解释器 \(f_\phi(\gamma, o_0)=\{c_i\}_{i=1}^{m(\gamma)}\),把指令映射成五种预定义原子行为的有序序列。关键在于喂给 LLM 的是文本化的场景描述 \(o_0\) 而非视觉特征:一方面文本场景能提供环境约束(如最右车道禁止右变道)和情境线索(必要时变道靠边停车)来消歧;另一方面,作者发现即便是大体量商用 VLM 在开放式指令理解上仍会严重幻觉,而文本描述 + 把输出约束到结构化的预定义行为序列,能显著降低幻觉、增强可靠性。注意这种文本化只用于高层意图推断——安全攸关的轨迹规划仍直接吃原始感知(3D 检测、高精地图),避免把路面几何等细粒度信息压成文本时丢失细节。
2. Mode III 混合调度脚本:一次 LLM 调用兼顾低开销与实时适应
执行行为序列需要协调"何时从加速切到变道"这种离散决策与连续控制。本文把已有 LLM 驾驶方法归纳成三种模式:Mode I 启动时配一次参数后固定(静态、无法动态决策);Mode II 让 LLM 持续参与每步决策(灵活但频繁查询、延迟与开销高,且难保持行为序列执行中的决策连贯);Mode III(本文)则只用一次 LLM 调用生成可执行脚本,脚本(i)按序调度多个运动规划器落实 \(\{c_i\}\),(ii)借助协程机制与异步触发器监控场景图、在实时条件满足时激活规划器切换。这样既拿到 Mode I 的低开销,又获得 Mode II 的情境响应性——脚本是预先生成的"带条件分支的执行计划",运行期无需再问 LLM。
3. 解耦的 MPC+LQR 底层控制:把数值安全控制留在可验证模块里,换取延迟鲁棒性
高层决策定好后,级联的运动规划器与控制器把它落成连续信号:行为专用 MPC 在滚动时域内用显式车辆模型优化轨迹(可解释),再由 LQR 做连续控制。这种解耦带来三重好处:(i)能力域对齐——LLM 只做高层离散决策,数值化、安全攸关的控制交给可验证控制器,不让概率性 LLM 直接生成控制量;(ii)可追溯性——人类可读的脚本充当接口,把 LLM 文本推理到实际动作的映射透明化,便于开发者或外部审计检查调试;(iii)对延迟的安全鲁棒性——安全由高频"调度—规划—控制"快环保障,LLM 在慢环里低频查询,因此即使 LLM 推理有几秒延迟,安全指标(碰撞、TTC)几乎不受影响,只是指令实现率平缓下降。
4. POINT 基准:高保真闭环的开放式指令实现测试台
针对"缺乏闭环测试台"这道坎,本文构建 POINT 基准:基于真实驾驶数据重建城市交通的混合 nuPlan 模拟器,配 1,050 条指令-场景初始化对。指令先收集真实样本,再用商用 LLM(ChatGPT、Gemini)规模化扩写并经人工严格筛选;生成时强制对话式措辞并抑制显式意图陈述,约 70% 指令涉及变道、超车、靠边停车等高风险横向机动。基准还从"任务调度视角"对现有 LLM 驾驶方法分类,并引入若干有竞争力的基线(如本文提出的 Mode-II 扩展 DiLu+、DiLu++)。评测覆盖三类指标:任务类(意图识别率、指令实现率)、安全类(无碰撞率、最小 TTC)、合规类(可行驶区域占比、限速符合占比、行驶方向一致占比)。
一个例子:一句"我感觉不安全"如何落地¶
乘客说"我感觉后面那辆卡车让我不安全"。阶段 1 LLM 结合文本场景把它推断成意图"右变道"并展开成行为序列 [减速、右变道、车道保持]。阶段 2 LLM 一次性生成调度脚本:先调用减速控制器,同时定义触发器 1(右变道条件,如间距足够),用 wait_until 协程挂起直到条件满足再调用右变道控制器,并定义触发器 2 切到车道保持。阶段 3 各行为对应的 MPC 规划器逐段生成轨迹、LQR 转成控制量,整个过程在实时反馈下接力推进——LLM 只在最开始被问了一次。
实验关键数据¶
实验用商用 LLM 生成指令、用开源 LLM 家族(Qwen、DeepSeek)做评测以减小模型偏置,硬件为 Xeon Gold 5220 + A40。所有 LLM 基线共用 DeepSeek-V3 骨干并对同一意图-场景对使用相同行为序列以保证公平。
主实验¶
下表中指令实现率(Realization)指成功执行的指令占比,Progress(专家轨迹进度)指相对人类专家覆盖的行驶距离;所有指标归一化到 \([0,1]\)。专用 AD 方法跟随专家全局路径、无 Realization 分;指令实现类方法优先执行乘客指令、常偏离全局路径。
| 方法 | 类别 | Realization ↑ | Collision ↑ | TTC ↑ | Drivable ↑ | Speed ↑ | Direction ↑ | Progress ↑ |
|---|---|---|---|---|---|---|---|---|
| PDM-Closed | 专用·MPC | — | 0.97 | 0.86 | 0.98 | 1.00 | 1.00 | 0.92 |
| Diffusion-ES | 指令·LLM+数据驱动 | 0.28 | 0.82 | 0.80 | 0.80 | 0.99 | 1.00 | 0.77 |
| DiLu++ | 指令·LLM+MPC(Mode II) | 0.51 | 0.92 | 0.73 | 0.96 | 0.97 | 1.00 | 0.87 |
| 本文 | 指令·LLM+MPC(Mode III) | 0.84 | 0.99 | 0.88 | 0.97 | 1.00 | 1.00 | 0.82 |
本文在指令实现类方法中拿到最高 0.84,相对最优基线 DiLu++(0.51)提升约 64%、相对 Diffusion-ES(0.28)提升约 200%,同时碰撞、TTC、合规指标与专用 AD 方法持平甚至更优;Progress 略低是因为执行乘客指令会偶尔偏离全局路径(属预期权衡)。意图识别上,只有 Qwen-2.5-72B、DeepSeek-V3、DeepSeek-R1 等大模型才能超过 85%,印证开放式指令理解本身非平凡。
消融实验¶
| 配置 | REC/REA ↑ | Collision ↑ | TTC ↑ | 说明 |
|---|---|---|---|---|
| Ours w/o Context | 0.78 | — | — | 去掉交通上下文,意图识别掉约 10% |
| Ours(完整意图识别) | 0.86 | — | — | 含上下文,意图识别更准 |
| 单一·车道保持规划器 | 0.17 | 0.97 | 0.86 | 只用一个规划器,指令实现率崩塌 |
| 单一·加速规划器 | 0.13 | 0.57 | 0.38 | 单规划器还伤安全 |
| PL 调度(本文) | 0.84 | 0.99 | 0.88 | LLM 调度多规划器协同 |
关键发现¶
- 交通上下文对意图识别贡献约 +10%:文本场景描述提供环境约束,让 DeepSeek-V3 的解析更准。
- 多规划器调度是成败关键:任何单一规划器的指令实现率都只有 0.12–0.18,而 LLM 协调下的调度直接拉到 0.84,且不牺牲安全——说明"接力多个专家"远胜"一个通才"。
- 对 LLM 延迟高度鲁棒:人为注入 0→4 秒延迟,REA 从 0.84 平缓降到 0.39,但碰撞(0.98→0.99)和 TTC(约 0.87→0.88)基本不动,验证了快慢环解耦的设计——安全不依赖 LLM 实时性。
亮点与洞察¶
- "LLM 当调度器不当控制器"是核心洞见:把概率性语言模型限制在高层离散决策、用一次调用产出带异步触发器的脚本,既避免幻觉污染控制、又获得运行期零额外 LLM 查询的低开销,这个能力域划分非常干净。
- Mode I/II/III 的调度视角分类很有迁移价值:它给"LLM 何时、以何频率介入驾驶决策"提供了一个统一坐标系,可用来定位和比较各种 LLM 驾驶方法。
- 延迟鲁棒性来自架构而非工程优化:快慢环时间尺度分离意味着安全攸关回路天然隔离了 LLM 延迟,这一点对所有"LLM-in-the-loop"系统都有借鉴意义。
- POINT 基准填补闭环空白:强制对话式、抑制显式意图的指令生成方式,让基准真正考的是"开放式理解"而非模板匹配。
局限与展望¶
- 原子行为集合受限:只有五种预定义原子行为,更复杂或组合型机动(如复杂路口多步绕行)靠组合表达,表达力上限值得验证。⚠️ 行为序列的完备性以原文 POINT 设计为准。
- 依赖文本场景描述:把交通场景编码成文本不可避免丢失细粒度几何信息;虽然底层控制吃原始感知规避了这点,但意图推断阶段的消歧能力仍受文本描述质量制约。
- 意图识别强依赖大模型:只有 70B 级及以上模型才过 85% 识别率,部署到车端算力受限时如何蒸馏/压缩是个现实问题。
- 评测仍在模拟器内:nuPlan 虽基于真实数据,但闭环仍是仿真,真实车路协同与乘客交互的复杂度未完全覆盖。
相关工作与启发¶
- vs 传统两阶段指令处理(意图分类 + 关键参数抽取,如 AIME):传统规则法面对开放语言会组合爆炸、覆盖稀疏、维护成本高;数据驱动意图分类受限于固定标签和训练措辞,OOD 泛化差。本文不训练、不写规则,纯用 LLM 的预训练世界知识做类比与组合泛化,且指令只用于评测以避免数据泄漏。
- vs 端到端 VLA 方法(LMDrive、AutoVLA、AdaThinkDrive):VLA 把感知-语言-控制统一,但偏好标准化导航指令、且端到端设计削弱了"文本推理 ↔ 实际动作"的一致性与可追溯性(VLA 说的和做的未必对齐)。本文用人类可读脚本作接口,显式维持语言到控制的透明链路,更契合 ISO 26262 等可追溯性安全标准。
- vs Mode-II 类持续决策(DiLu++):DiLu++ 每步问 LLM,开销大且偶尔忽略历史动作导致冗余变道等不连贯决策;本文 Mode III 一次调用 + 异步触发器,既连贯又省查询。
评分¶
- 新颖性: ⭐⭐⭐⭐ 调度中心 + Mode III 的视角清晰且实用,但单个组件(LLM 解析、MPC、协程触发)均非首创,胜在组合与定位。
- 实验充分度: ⭐⭐⭐⭐ 主表 + 消融 + 延迟敏感性 + 意图识别 scaling 较完整,但仅限 nuPlan 仿真、缺真车验证。
- 写作质量: ⭐⭐⭐⭐ 三阶段叙事清晰、Mode 分类有助理解,公式与挑战对应明确。
- 价值: ⭐⭐⭐⭐ POINT 基准 + 可追溯框架对 Robotaxi 乘客交互这一现实需求有直接价值。