Prioritizing Perception-Guided Self-Supervision: A New Paradigm for Causal Modeling in End-to-End Autonomous Driving¶

会议: NeurIPS 2025
arXiv: 2511.08214
代码: 有
领域: 自动驾驶 / 端到端决策
关键词: 因果混淆, 自监督学习, 端到端驾驶, 感知引导, 闭环评估

一句话总结¶

通过感知输出（车道线、agent 轨迹）和自监督学习来建立因果关系，解决端到端自动驾驶中的因果混淆问题，在 Bench2Drive 闭环评估上实现 SOTA（Driving Score 78.08）。

研究背景与动机¶

领域现状：端到端自动驾驶系统在开环评估中表现良好，但在闭环场景中性能严重下降。

现有痛点：因果混淆（causal confusion）是根本原因——模型无法将驾驶行为与主要环境因素关联，而是学到了噪声信号中的虚假因果关系。现有方法主要关注输入噪声（传感器噪声等），忽视了监督信号本身的噪声。

核心矛盾：模仿学习范式过度依赖专家轨迹，而专家数据本身包含大量噪音（驾驶风格、时间延迟、控制误差等）。

切入角度：与其设计复杂的网络架构，不如改变监督信号的来源——从依赖专家轨迹转向依赖感知输出（lane centerlines、agent trajectories）来指导规划。

核心 idea：正向约束（MTPS/STPS）确保基本驾驶行为正确 + 负向约束（NTPS）强化安全互动 = 完整因果推理框架。

方法详解¶

整体框架¶

PGS（Perception-Guided Self-Supervision）建立在标准端到端架构上，包含感知模块（输出 lane centerlines 和 dynamic objects 的 future trajectories）、运动预测+规划统一模块、三层自监督机制（MTPS、STPS、NTPS）。

关键设计¶

多模态轨迹规划自监督 MTPS（目标车道选择）
- 功能：将多模态驾驶决策重新表述为车道选择问题
- 核心思路：从感知输出的所有 lane centerlines 中，用几何滤波器选出 ego 相关的 3 条车道（当前、左、右），用 MLP 预测每条车道的选择得分（softmax 归一化）
- 设计动机：车道信息本身就包含了所有可行的横向选择，监督信号来自 expert trajectory 终点与各车道的距离，避免了专家驾驶风格的干扰
空间轨迹规划自监督 STPS（基于 lane centerline）
- 功能：用 lane centerline 作为纯空间参考，替代有时间噪音的专家轨迹
- 核心思路：对 expert trajectory 的每个点查找最近的 target lane centerline 上的点，距离 \(\leq w\) 的用 centerline 点替代，否则保留原点
- 设计动机：Lane centerlines 天然连接进入/离开车道，避免了累积误差导致的车道偏离
负向轨迹规划自监督 NTPS（动态物体互动）
- 功能：用 predicted future bounding boxes 作为负向信号，强制 ego 轨迹避免碰撞
- 核心思路：用 Separating Axis Theorem (SAT) 检测碰撞，对碰撞时刻计算距离 margin 并最大化 \(\max(0, \beta - \|Traj_{ego}^t - Traj_{obj}^t\|_2)\)
- 设计动机：正向 supervision 说明应该做什么，负向 supervision 指导不应该做什么

损失函数 / 训练策略¶

\[L'_{total} = L_{total} + w_{MTPS} L_{MTPS} + w_{STPS} L_{STPS} + w_{NTPS} L_{NTPS}\]

两阶段训练：Stage 1（6 epochs）感知学习；Stage 2（6 epochs）联合感知和规划优化。超参：\(w_{MTPS}=1.0, w_{STPS}=0.3, w_{NTPS}=1.0\)。

实验关键数据¶

主实验（Bench2Drive 基准）¶

方法	Driving Score↑	Success Rate↑	Efficiency↑
VAD-Base	42.35	15.00%	157.94
UniAD-Base	45.81	16.36%	129.21
DriveTransformer	63.46	35.01%	100.64
DiffAD	67.92	38.64%	-
PGS (本文)	78.08	48.64%	181.31

消融实验（多场景能力）¶

场景	VAD	DriveTransformer	DiffAD	PGS
Merging	8.11%	17.57%	30%	35%
Overtaking	24.44%	35%	35.55%	73.33%
Emergency Brake	18.64%	48.36%	46.66%	55%
Give Way	20%	40%	40%	60%
平均	18.07%	38.60%	38.79%	53.40%

关键发现¶

相比 VAD-Base 基线：Driving Score 提升 35.73 分（+84%），Success Rate 从 15%→48.64%（+223%）
Overtaking 场景 73.33% 成功率远超其他方法，证明了因果推理对复杂交互场景的帮助
用简单的 VAD 架构就超过了更复杂的方法，证明了范式转变的价值

亮点与洞察¶

因果思维转变：从"输入噪音"转向"监督噪音"是非常精准的问题诊断。同样的思路可迁移到其他模仿学习任务。
最小化架构改动：不需要复杂网络，仅需改变训练方式就能大幅提升，体现了方法的优雅性。
闭环 vs 开环的差异：虽然开环 L2 error 反而略高于一些方法，但闭环 Driving Score 大幅领先，这对自动驾驶研究的评估方法选择有重要启示。

局限与展望¶

Lane centerline 的可用性假设：仅当高精地图可用且感知准确时 STPS 才有效
闭环评估仍在模拟器中，真实场景的表现需进一步验证
三个 loss 的权重比例可能需要针对不同道路场景调整
推理速度与实时性的权衡未深入讨论

评分¶

新颖性: ⭐⭐⭐⭐⭐ 因果混淆从监督角度的全新诠释
实验充分度: ⭐⭐⭐⭐⭐ Bench2Drive 闭环测试，多场景消融
写作质量: ⭐⭐⭐⭐ 清晰流畅，逻辑严密
价值: ⭐⭐⭐⭐⭐ 解决了核心问题，方法简单有效