Prioritizing Perception-Guided Self-Supervision: A New Paradigm for Causal Modeling in End-to-End Autonomous Driving¶
会议: NeurIPS 2025
arXiv: 2511.08214
代码: 有
领域: 自动驾驶 / 端到端决策
关键词: 因果混淆, 自监督学习, 端到端驾驶, 感知引导, 闭环评估
一句话总结¶
通过感知输出(车道线、agent 轨迹)和自监督学习来建立因果关系,解决端到端自动驾驶中的因果混淆问题,在 Bench2Drive 闭环评估上实现 SOTA(Driving Score 78.08)。
研究背景与动机¶
领域现状:端到端自动驾驶系统在开环评估中表现良好,但在闭环场景中性能严重下降。
现有痛点:因果混淆(causal confusion)是根本原因——模型无法将驾驶行为与主要环境因素关联,而是学到了噪声信号中的虚假因果关系。现有方法主要关注输入噪声(传感器噪声等),忽视了监督信号本身的噪声。
核心矛盾:模仿学习范式过度依赖专家轨迹,而专家数据本身包含大量噪音(驾驶风格、时间延迟、控制误差等)。
切入角度:与其设计复杂的网络架构,不如改变监督信号的来源——从依赖专家轨迹转向依赖感知输出(lane centerlines、agent trajectories)来指导规划。
核心 idea:正向约束(MTPS/STPS)确保基本驾驶行为正确 + 负向约束(NTPS)强化安全互动 = 完整因果推理框架。
方法详解¶
整体框架¶
PGS(Perception-Guided Self-Supervision)建立在标准端到端架构上,包含感知模块(输出 lane centerlines 和 dynamic objects 的 future trajectories)、运动预测+规划统一模块、三层自监督机制(MTPS、STPS、NTPS)。
关键设计¶
-
多模态轨迹规划自监督 MTPS(目标车道选择)
- 功能:将多模态驾驶决策重新表述为车道选择问题
- 核心思路:从感知输出的所有 lane centerlines 中,用几何滤波器选出 ego 相关的 3 条车道(当前、左、右),用 MLP 预测每条车道的选择得分(softmax 归一化)
- 设计动机:车道信息本身就包含了所有可行的横向选择,监督信号来自 expert trajectory 终点与各车道的距离,避免了专家驾驶风格的干扰
-
空间轨迹规划自监督 STPS(基于 lane centerline)
- 功能:用 lane centerline 作为纯空间参考,替代有时间噪音的专家轨迹
- 核心思路:对 expert trajectory 的每个点查找最近的 target lane centerline 上的点,距离 \(\leq w\) 的用 centerline 点替代,否则保留原点
- 设计动机:Lane centerlines 天然连接进入/离开车道,避免了累积误差导致的车道偏离
-
负向轨迹规划自监督 NTPS(动态物体互动)
- 功能:用 predicted future bounding boxes 作为负向信号,强制 ego 轨迹避免碰撞
- 核心思路:用 Separating Axis Theorem (SAT) 检测碰撞,对碰撞时刻计算距离 margin 并最大化 \(\max(0, \beta - \|Traj_{ego}^t - Traj_{obj}^t\|_2)\)
- 设计动机:正向 supervision 说明应该做什么,负向 supervision 指导不应该做什么
损失函数 / 训练策略¶
两阶段训练:Stage 1(6 epochs)感知学习;Stage 2(6 epochs)联合感知和规划优化。超参:\(w_{MTPS}=1.0, w_{STPS}=0.3, w_{NTPS}=1.0\)。
实验关键数据¶
主实验(Bench2Drive 基准)¶
| 方法 | Driving Score↑ | Success Rate↑ | Efficiency↑ |
|---|---|---|---|
| VAD-Base | 42.35 | 15.00% | 157.94 |
| UniAD-Base | 45.81 | 16.36% | 129.21 |
| DriveTransformer | 63.46 | 35.01% | 100.64 |
| DiffAD | 67.92 | 38.64% | - |
| PGS (本文) | 78.08 | 48.64% | 181.31 |
消融实验(多场景能力)¶
| 场景 | VAD | DriveTransformer | DiffAD | PGS |
|---|---|---|---|---|
| Merging | 8.11% | 17.57% | 30% | 35% |
| Overtaking | 24.44% | 35% | 35.55% | 73.33% |
| Emergency Brake | 18.64% | 48.36% | 46.66% | 55% |
| Give Way | 20% | 40% | 40% | 60% |
| 平均 | 18.07% | 38.60% | 38.79% | 53.40% |
关键发现¶
- 相比 VAD-Base 基线:Driving Score 提升 35.73 分(+84%),Success Rate 从 15%→48.64%(+223%)
- Overtaking 场景 73.33% 成功率远超其他方法,证明了因果推理对复杂交互场景的帮助
- 用简单的 VAD 架构就超过了更复杂的方法,证明了范式转变的价值
亮点与洞察¶
- 因果思维转变:从"输入噪音"转向"监督噪音"是非常精准的问题诊断。同样的思路可迁移到其他模仿学习任务。
- 最小化架构改动:不需要复杂网络,仅需改变训练方式就能大幅提升,体现了方法的优雅性。
- 闭环 vs 开环的差异:虽然开环 L2 error 反而略高于一些方法,但闭环 Driving Score 大幅领先,这对自动驾驶研究的评估方法选择有重要启示。
局限与展望¶
- Lane centerline 的可用性假设:仅当高精地图可用且感知准确时 STPS 才有效
- 闭环评估仍在模拟器中,真实场景的表现需进一步验证
- 三个 loss 的权重比例可能需要针对不同道路场景调整
- 推理速度与实时性的权衡未深入讨论
相关工作与启发¶
- vs ChauffeurNet:ChauffeurNet 随机 drop ego-motion 缓解因果混淆,PGS 直接改变监督信号来源,更根本
- vs DriveAdapter:DriveAdapter 用 privileged information 蒸馏,PGS 不依赖额外信息,仅利用已有感知输出
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 因果混淆从监督角度的全新诠释
- 实验充分度: ⭐⭐⭐⭐⭐ Bench2Drive 闭环测试,多场景消融
- 写作质量: ⭐⭐⭐⭐ 清晰流畅,逻辑严密
- 价值: ⭐⭐⭐⭐⭐ 解决了核心问题,方法简单有效