CausalVAD: De-confounding End-to-End Autonomous Driving via Causal Intervention¶

会议: CVPR2026
arXiv: 2603.18561
代码: 待公开
领域: 自动驾驶
关键词: 因果推断, 后门调整, 去混杂, 端到端自动驾驶, 稀疏向量化表示, VAD

一句话总结¶

提出 CausalVAD，通过将 Pearl 后门调整理论参数化为即插即用模块（SCIS），在 VAD 架构的感知-预测-规划三个阶段进行多级因果干预，消除虚假关联，实现更安全、更鲁棒的端到端自动驾驶。

研究背景与动机¶

端到端模型学的是相关性而非因果性：当前规划导向的端到端驾驶模型（UniAD、VAD 等）本质上通过标准监督学习拟合 \(P(Y|S)\)，学到的是统计相关而非真正的因果关系，容易受数据集偏差影响产生"捷径学习"。

因果混淆导致安全隐患：模型可能把自车历史状态（速度、加速度）当作预测未来决策的捷径（虚假自相关），在开环评测上表现好，但闭环部署时一旦偏离专家轨迹就会灾难式崩溃。

VLM 方案存在幻觉与伪忠实性：用大型视觉语言模型提供自然语言解释看似合理，但其推理过程可能与实际决策完全脱钩（pseudo-faithfulness），在安全关键领域引入新风险。

nuScenes 数据集严重不平衡：约 75% 为直行场景，模型易学到"直行是默认行为"的虚假关联，转弯等少数场景性能大幅下降。

混杂因素是系统性级联问题：通过结构因果模型（SCM）分析可发现，VAD 中感知的共现偏差、预测的 BEV 公共因子、规划的输入相关性是三个不同信息节点上的混杂问题，需要多阶段针对性干预。

现有去混杂方法局限：启发式方法（状态丢弃、数据增强）缺乏理论保证；因果发现/反事实方法多用于离线分析或简化场景，难以高效嵌入大规模端到端模型的在线训练中。

方法详解¶

整体框架¶

CausalVAD 想治的是端到端驾驶“学到相关、没学到因果”的毛病。它在 VAD 架构上加了一套稀疏因果干预方案（SCIS）：先用结构因果模型（SCM）把 VAD 的模块化流水线形式化、识别出三类后门路径，再用后门调整 \(P(Y|\text{do}(S)) = \sum_z P(Y|S=s, Z=z) P(Z=z)\) 切断虚假路径，其中潜在混杂因子 \(Z\) 用一个可学习的原型字典来近似、把 do 算子参数化进神经网络。落到结构上，就是先离线构建混杂因子字典，再在感知、预测、规划三个阶段分别插入去混杂模块（感知用 PDM、预测与规划用 IDM），全程复用字典里的原型作为 do 算子的求和支撑集。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400, 'subGraphTitleMargin': {'top': 8, 'bottom': 16}}}}%%
flowchart TD
    subgraph DICT["多模态混杂因子字典构建（离线，跑一次）"]
        direction TB
        P1["预训练 VAD 单次前传<br/>收集 Object/Map/Agent 三类查询嵌入"] --> P2["三类分别 K-means++ 聚类<br/>质心当原型"]
        P2 --> P3["混杂因子字典<br/>Z_o=10 / Z_m=3 / Z_a=6"]
    end

    IN["环视图像 → VAD 编码<br/>BEV 特征 → Object 查询 O、Map 查询 M"]
    IN --> PDM["感知去混杂模块 PDM<br/>双分支：分类分数 − 字典偏差分数<br/>输出去混杂 logits"]
    PDM --> IDM1["交互去混杂模块 IDM（预测阶段）<br/>O′=IDM(O,Z_m)、M′=IDM(M,Z_o)<br/>打断 BEV 公共因子虚假关联"]
    IDM1 --> A["Agent 查询 A"]
    A --> IDM2["交互去混杂模块 IDM（规划阶段）<br/>A′=IDM(A,Z_m)、M″=IDM(M,Z_a)<br/>解耦高相关输入"]
    IDM2 --> OUT["规划轨迹输出"]

    P3 -. 原型支撑集 .-> PDM
    P3 -. 原型支撑集 .-> IDM1
    P3 -. 原型支撑集 .-> IDM2

关键设计¶

1. 多模态混杂因子字典构建：用原型近似看不见的混杂因子 Z

后门调整要对混杂因子 \(Z\) 求和，但 \(Z\) 在驾驶场景里是隐变量、拿不到。作者用一个离线两步过程（只跑一次）把它近似出来：先用预训练 VAD 对整个训练集单次前传，收集 Object/Map/Agent 三类查询的稀疏嵌入；再对三类嵌入分别做 K-means++ 聚类，质心当原型，构成字典 \(\{\mathcal{Z}\} = \{\{\mathcal{Z}_o\}, \{\mathcal{Z}_m\}, \{\mathcal{Z}_a\}\}\)，大小分别为 \((k_o, k_m, k_a) = (10, 3, 6)\)。这组原型就是后面 do 算子里“对 \(Z\) 求和”的离散支撑集。

2. 感知去混杂模块（PDM）：用双分支抵消分类里的共现偏差

感知阶段的分类路径 \(\mathcal{O} \to \mathcal{Y}_o\) 和 \(\mathcal{M} \to \mathcal{Y}_m\) 会被共现偏差带偏（某些物体/地图元素总一起出现，模型就走捷径）。PDM 用双分支结构应对：一支是直接分类分数，另一支基于混杂因子字典算出偏差分数，相减输出去混杂后的 logits，对称地用在目标分类和地图元素分类上。

3. 交互去混杂模块（IDM）：估出虚假成分再减掉，打断跨阶段的伪关联

预测和规划阶段的问题是查询之间高度相关——BEV 公共因子、输入相关性会制造虚假关联。IDM 是一个可多次实例化的统一模块：用交叉注意力估计查询中“可由上下文预测出来的”虚假成分，经门控单元缩放后从原始查询里减掉。预测阶段用 \(\mathcal{O}' = \text{IDM}(\mathcal{O}, \{\mathcal{Z}_m\})\)、\(\mathcal{M}' = \text{IDM}(\mathcal{M}, \{\mathcal{Z}_o\})\) 打断 BEV 公共因子引发的虚假关联；规划阶段用 \(\mathcal{A}' = \text{IDM}(\mathcal{A}, \{\mathcal{Z}_m\})\)、\(\mathcal{M}'' = \text{IDM}(\mathcal{M}, \{\mathcal{Z}_a\})\) 解耦高度相关的输入。把“能被上下文预测的部分”减掉，留下的才是不依赖捷径的因果信号。

损失函数 / 训练策略¶

插入 PDM 和 IDM 后从头端到端训练（而非微调），确保从一开始就学去混杂的因果关系；损失函数与原始 VAD 完全一致、无需额外损失设计。优化器 AdamW，初始学习率 \(2 \times 10^{-4}\)，权重衰减 0.01，CosineAnnealing 调度，60 epochs，8×RTX 3090。

实验¶

主要结果¶

nuScenes 开环规划（Table 1）：

方法	L2 Avg (m) ↓	CR Avg (%) ↓	FPS
UniAD	0.73	0.61	1.8
VAD-tiny	0.74	0.44	5.6
VAD	0.62	0.38	3.1
BridgeAD	0.58	0.08	3.9
SparseDrive	0.61	0.10	6.1
CausalVAD	0.54	0.11	5.4

相比基线 VAD-tiny，L2 下降 27%，碰撞率下降 75%，几乎无额外计算开销
在所有方法中取得最低平均 L2 误差

NAVSIM & Bench2Drive（Table 4）：

方法	NAVSIM PDMS ↑	B2D DS ↑	B2D SR (%) ↑
VAD-tiny	80.5	42.73	14.18
UniAD	83.4	45.81	16.36
CausalVAD	87.2	49.83	19.42

因果鲁棒性分析¶

场景分布偏差鲁棒性（Table 2）：VAD-tiny 在转弯场景 L2 从 0.75→1.07m 严重退化；CausalVAD 转弯场景 L2 仅 0.69m，甚至优于 VAD-tiny 直行时的表现。

自车状态捷径依赖（Table 3）：将自车速度置零时，VAD-tiny L2 从 0.74→6.94m 暴涨，CausalVAD 从 0.54→4.80m，碰撞率从 0.11→1.20%（VAD-tiny 为 0.44→4.02%），对速度扰动的鲁棒性显著更强。

消融实验¶

模块贡献（Table 5）：

配置	PDM	IDM	L2 Avg ↓	CR Avg ↓
基线	×	×	0.74	0.44
+PDM	✓	×	0.63	0.26
+IDM	×	✓	0.57	0.19
完整	✓	✓	0.54	0.11

PDM 主要降低碰撞率，IDM 主要提升规划精度，两者互补
字典大小 \((10,3,6)\) 为最优配置，过小不足以捕获多样上下文，过大引入冗余
聚类算法选择（K-means/K-medoids/K-means++）对性能不敏感，方法鲁棒

关键发现¶

T-SNE 可视化表明 CausalVAD 成功将不同导航意图（直行/左转/右转）解纠缠为可分离的聚类
定性分析中，面对加塞场景 VAD-tiny 注意力过度关注自车历史轨迹导致碰撞，CausalVAD 正确聚焦加塞车辆并安全减速
VLA 模型（Senna）虽然动作安全但给出幻觉解释（将减速归因于不存在的限高问题），凸显 CausalVAD 内部逻辑的忠实性

亮点¶

理论扎实：将 Pearl 后门调整理论严格形式化地引入端到端驾驶，非启发式
即插即用：PDM 和 IDM 模块轻量且通用，FPS 从 5.6 几乎不降（5.4），可作为其他架构的插件
多维度鲁棒性验证全面：场景分布偏差、自车状态扰动、跨数据集泛化三个角度系统证明因果干预的有效性
揭示了稀疏向量化表示与因果干预的内在协同：VAD 的稀疏查询天然适合作为因果干预的操作对象

局限性¶

仅在 VAD 的顺序式架构上验证，尚未扩展到并行或迭代交互架构（如 SparseDrive 的并行解码）
混杂因子字典通过离线聚类构建，无法捕获训练集外的新型驾驶上下文
闭环评测（Bench2Drive）相比专门优化的方法（DriveMoE DS=74.22）仍有较大差距
原型数量 \((k_o, k_m, k_a)\) 需要网格搜索，缺乏自适应选择机制

评分¶

新颖性: ⭐⭐⭐⭐ — 首次系统地将后门调整参数化为端到端驾驶的即插即用模块
实验充分度: ⭐⭐⭐⭐ — 三个数据集 + 多维鲁棒性分析 + 详尽消融
写作质量: ⭐⭐⭐⭐ — 因果分析逻辑链清晰，图示精良
价值: ⭐⭐⭐⭐ — 为自动驾驶提供了因果推断的实际落地范式，插件化设计实用性强