Risk-Aware Self-Consistent Imitation Learning for Trajectory Planning in Autonomous Driving¶

会议: ECCV 2024
代码: 无
领域: 自动驾驶 / 轨迹规划
关键词: 模仿学习, 轨迹规划, 碰撞时间TTC, 自一致性, 风险感知

一句话总结¶

RaSc 提出风险感知自一致模仿学习框架，通过 TTC（碰撞时间）预测分支学习人类驾驶行为背后的风险规避动机，并通过自一致性约束使规划器理解自身动作的物理后果，在 nuPlan 数据集的开环和闭环评估中均超越了先前的学习型方法。

研究背景与动机¶

领域现状：自动驾驶的轨迹规划是将感知结果转化为具体行驶轨迹的核心模块。深度学习方法在预测其他交通参与者的未来轨迹方面已取得显著进展，但直接将预测模型用于自车规划往往效果不佳。目前主流的学习型规划方法基于模仿学习——学习人类驾驶员的轨迹，试图让模型的输出尽可能接近人类驾驶行为。

现有痛点：纯模仿学习存在训练与部署目标不对齐的根本问题。训练时只要求输出轨迹接近人类轨迹（最小化L2距离），但实际驾驶需要的是安全性（不碰撞）、舒适性（平稳行驶）和规则遵守（不违规），而非轨迹完全复制。具体地：(1) 模型只学到了"做什么"（人类的轨迹），但没学到"为什么"（人类为什么选择这条轨迹——避碰、让行等动机）；(2) 模型不理解自身动作的后果——如果偏离了模仿轨迹会发生什么。

核心矛盾：现有训练过程可能没有赋予模型对物理世界演化的理解。模仿学习中模型只看到"正确答案"（人类轨迹），从未学过什么是"错误"的——它不知道偏向右边0.5米会撞到护栏，或者加速0.2m/s²会追尾前车。这种缺乏"后果意识"的规划器在面对分布外场景时极为脆弱。

本文目标 (1) 如何让规划器理解人类驾驶决策背后的风险规避动机；(2) 如何让规划器了解自身动作的物理后果；(3) 如何在训练中更好地利用困难样本来提升泛化能力。

切入角度：作者提出两个关键改进维度——风险感知（Risk-aware）和自一致性（Self-consistent）。风险感知通过引入 Time-To-Collision（TTC）预测任务，显式学习人类驾驶行为的安全动机。自一致性通过要求模型对自身规划的轨迹能做出一致的TTC预测，验证规划结果的物理合理性。

核心 idea：在模仿学习的基础上，添加TTC预测分支学习驾驶动机中的风险因素，并通过规划轨迹的TTC自一致性检验来理解动作后果、挖掘困难样本。

方法详解¶

整体框架¶

RaSc 的输入包括自车历史状态、周围 agent 的历史轨迹、以及地图信息。输出是自车未来的规划轨迹。模型在标准的模仿学习 backbone 之上添加两个新组件：(1) TTC 预测分支——预测自车与各周围 agent 之间的碰撞时间；(2) 自一致性检验模块——用预测的轨迹作为输入重新计算TTC，要求两次TTC预测一致。训练时三个损失（轨迹模仿、TTC预测、自一致性）联合优化。

关键设计¶

TTC 预测分支 (Risk-Aware Branch):
- 功能：显式学习人类驾驶决策中的碰撞风险因素
- 核心思路：Time-To-Collision（TTC）是衡量碰撞风险的经典物理量，定义为在当前运动状态下自车与某个 agent 发生碰撞所需的时间。TTC 值越小，碰撞风险越高。模型额外预测自车与每个周围 agent 的 TTC 值。训练目标是最小化预测 TTC 与根据真值轨迹计算的 TTC 之间的差异。通过学习 TTC，模型不仅知道人类走了什么轨迹，还知道这条轨迹意味着与周围车辆保持了怎样的安全距离和时间裕量
- 设计动机：人类驾驶员在做决策时本质上在做风险评估——加速超车时考虑与前车的碰撞时间，变道时考虑与侧方车辆的碰撞时间。TTC 预测让模型学习这种内在的风险评估能力
自一致性约束 (Self-Consistency):
- 功能：让模型理解自身规划动作的物理后果
- 核心思路：在正向推理中，模型根据当前交通状态预测自车轨迹和 TTC。自一致性约束要求：如果把模型预测的轨迹作为"假设自车执行了这条轨迹"的条件，重新输入模型进行 TTC 预测，两次 TTC 预测应该一致。如果不一致，说明模型的轨迹规划与其对碰撞风险的理解存在矛盾——例如模型规划了一条接近前车的轨迹，但同时预测的 TTC 很大（认为很安全），这就是不一致的。损失函数惩罚这种不一致性
- 设计动机：模仿学习的模型可能学到表面的轨迹模式而不理解深层的物理因果。自一致性约束迫使模型的规划和风险评估逻辑自洽，建立起"动作→后果"的因果理解
自一致性引导的困难样本挖掘 (Hard Sample Mining):
- 功能：自动识别并重点学习模型不擅长的交通场景
- 核心思路：自一致性得分（两次TTC预测的差异）天然揭示了模型的薄弱环节——自一致性得分高的样本意味着模型在该场景中的规划和风险理解存在矛盾，通常是模型未充分学习的困难场景（如紧急避让、复杂交互）。训练过程中，对自一致性得分高的样本赋予更大的损失权重，促使模型在困难场景上投入更多学习资源
- 设计动机：交通场景中大部分是简单的直行/缓弯场景，困难场景（如近距离交互、紧急制动）占比很少但对安全性至关重要。传统模仿学习中这些困难样本被大量简单样本淹没。自一致性提供了一种无需人工标注的困难样本自动识别方式

损失函数 / 训练策略¶

总损失 = \(\mathcal{L}_{imit}\)（轨迹模仿损失，L2距离）+ \(\lambda_r \mathcal{L}_{TTC}\)（TTC预测损失）+ \(\lambda_c \mathcal{L}_{consist}\)（自一致性损失）。困难样本挖掘通过动态调整各样本的 \(\mathcal{L}_{imit}\) 权重实现：\(w_i = 1 + \beta \cdot \text{inconsistency}_i\)。训练采用端到端方式，在大规模真实驾驶数据集 nuPlan 上进行。

实验关键数据¶

主实验¶

方法	开环 ADE↓	开环 FDE↓	闭环得分↑	闭环碰撞率↓
IDM (rule-based)	-	-	82.3	2.1%
UrbanDriver	1.52	3.41	68.5	5.8%
PlanCNN	1.38	3.12	72.1	4.3%
PDM-Hybrid	1.21	2.87	85.6	1.8%
RaSc	1.05	2.43	87.2	1.5%

消融实验¶

配置	开环 ADE↓	闭环得分↑	说明
Baseline (IL only)	1.38	72.1	纯模仿学习
+ TTC预测	1.22	79.5	添加风险感知，闭环提升7.4
+ 自一致性	1.15	83.8	添加自一致性，闭环再提升4.3
+ 困难样本挖掘 (Full)	1.05	87.2	完整模型，总提升15.1

关键发现¶

闭环评估中的提升远大于开环评估（闭环+15.1分 vs 开环ADE-0.33m），说明 RaSc 主要改善了模型的决策质量而非仅仅是轨迹拟合精度
自一致性约束的贡献在闭环中特别显著，因为闭环部署时误差会累积放大，理解动作后果对长期规划至关重要
困难样本挖掘带来额外3.4分的闭环提升，说明交互密集场景是模仿学习的主要瓶颈
RaSc 超越了纯规则方法 IDM（闭环87.2 vs 82.3），证明正确的学习方法可以超越手工规则

亮点与洞察¶

"动机+后果"的双重监督设计：TTC预测教模型理解"为什么这样做"（风险规避动机），自一致性教模型理解"如果这样做会怎样"（动作后果）。这种双重监督从根本上弥补了纯模仿学习只学"做什么"的缺陷。这个思路可以推广到任何模仿学习任务——不仅模仿行为，还学习行为背后的因果逻辑
自一致性作为内省机制：模型通过比较自己的规划和风险评估是否一致，实现了一种"自省"能力。这种内省不需要额外的标注或仿真环境，纯粹从数据中发现自身矛盾，是一种高效的自监督信号
从模仿到理解的范式转变：本文暗示了自动驾驶规划应该从"模仿人类轨迹"转向"理解人类决策逻辑"的研究方向

局限与展望¶

TTC 是一个简化的碰撞风险度量，假设恒速运动，对加速/减速场景可能不够准确
自一致性约束需要两次前向传播，增加了训练成本
nuPlan 数据集虽然是目前最大的闭环规划基准之一，但覆盖的极端场景（如事故边缘场景）仍然有限
未考虑与其他 agent 的交互预测——如果在 TTC 计算中考虑其他 agent 的反应，可能产生更准确的风险评估
可以探索将自一致性检验扩展到部署阶段，作为在线安全监测信号——如果规划的轨迹自一致性得分过高，触发安全模式

评分¶

新颖性: ⭐⭐⭐⭐ TTC预测+自一致性的双重监督思路新颖，困难样本挖掘的方式自然优雅
实验充分度: ⭐⭐⭐⭐⭐ nuPlan开环+闭环评估、详细消融、与规则+学习方法全面对比
写作质量: ⭐⭐⭐⭐ 动机分析深刻，"训练-部署目标不对齐"问题的阐述很有说服力
价值: ⭐⭐⭐⭐⭐ 为学习型自动驾驶规划提供了从"模仿"到"理解"的重要一步，闭环性能提升显著