跳转至

RESBev: Making BEV Perception More Robust

会议: CVPR 2026
arXiv: 2603.09529
代码: 无
领域: 自动驾驶 / BEV感知鲁棒性
关键词: BEV perception, 鲁棒性, 世界模型, 对抗攻击, 即插即用

一句话总结

提出 RESBev,一个即插即用的 BEV 感知鲁棒性增强框架,通过隐空间世界模型从历史干净帧预测当前 BEV 语义先验,再由异常重建器将先验与被损坏的当前观测通过交叉注意力融合,在 nuScenes 上为四种 LSS 模型在 10 种干扰(含自然损坏 + 对抗攻击)下平均提升 15~20 个 IoU 点,且能泛化到训练未见过的干扰类型。

研究背景与动机

领域现状:BEV 感知是自动驾驶的核心表示,LSS 系列方法(BEVFusion、BEVFormer、FIERY 等)在 nuScenes 等基准上表现出色。但这些模型在真实部署中极度脆弱——面对自然干扰(雾/暗/雪/相机崩溃/帧丢失)或对抗攻击(FGSM/PGD/C&W),IoU 可能从 33 暴跌到 9。

现有痛点:现有防御策略存在三大局限:(1) 多模态融合依赖昂贵的 LiDAR 传感器且假设冗余传感器可靠;(2) 简单时序聚合无法过滤对抗扰动(因为对抗特征在数值上与干净特征几乎相同);(3) 对抗训练只能对付特定类型干扰,无法泛化;(4) 大多方法与特定架构紧耦合。

核心矛盾:对抗攻击在特征空间中产生的 MSE 极小但语义上灾难性——简单的注意力聚合无法区分被对抗攻击的特征和干净特征。需要一种能"绕过"当前损坏观测、从历史信息生成干净先验的机制。

本文目标 构建一个轻量、通用、可泛化的 BEV 鲁棒性增强方案,能插入任意 LSS 模型且同时应对自然干扰和对抗攻击。

切入角度:驾驶场景具有强时间一致性——当前帧的 BEV 状态可以从历史帧+自车运动合理预测。将鲁棒性问题重新构建为时序预测问题:用世界模型从历史干净帧生成当前的"期望状态",再与实际观测选择性融合。

核心 idea:用隐空间世界模型预测当前帧的干净 BEV 语义先验,通过门控交叉注意力与当前损坏观测融合,实现对任意类型扰动的自适应恢复。

方法详解

整体框架

RESBev 作为即插即用模块插入 LSS 管线的 Splat 阶段。两个核心组件:(1) 语义先验预测器(Semantic Prior Predictor)从上一帧重建特征和自车运动预测当前干净 BEV 先验,(2) 异常重建器(Anomaly Reconstructor)将预测先验与当前被损坏的观测通过交叉注意力融合,自适应地提取有效信息。

关键设计

  1. 三层空间分析驱动的架构决策:

    • 功能:回答"在 LSS 管线的哪个阶段介入"和"该用什么机制"两个核心架构问题
    • 核心思路:通过系统实验分析三个层面——(1) 空间选择:BEV 空间(Splat)比图像空间(Lift)时间一致性高得多,持续干扰下 BEV 特征稳定而图像特征剧烈波动;(2) 深度选择:在高维语义特征(Splat)而非低维任务输出(Shoot)上操作——后者信息已被压缩,恢复后 IoU 仅 18.7 vs Splat 的 31.6;(3) 机制选择:生成式预测(世界模型)显著优于时序注意力聚合(30.11 vs 20.17),因为对抗扰动在特征空间中几乎不可察觉(低 MSE)但语义上灾难性
    • 设计动机:这些消融实验为每个架构决策提供了定量支撑,使得最终设计不是启发式的而是分析驱动的
  2. 语义先验预测器(LDWM):

    • 功能:从上一帧的重建特征和自车运动预测当前帧的干净 BEV 特征
    • 核心思路:\(f_t^{pred} = D(\text{LDWM}(\text{Concat}(E_{vis}(f_{t-1}^{rec}), E_{act}(a_{t-1}))))\)。视觉编码器 \(E_{vis}\) 将上一帧重建特征投射到紧凑隐空间,动作编码器 \(E_{act}\) 编码自车运动(平移+旋转),拼接后送入 Transformer 世界模型(LDWM)建模状态转移,解码器 \(D\) 映射回稠密 BEV 特征空间
    • 设计动机:在紧凑隐空间而非高维特征空间中建模转移,计算高效;使用重建特征(而非原始损坏特征)作为输入,避免误差传播
  3. 异常重建器(门控交叉注意力融合):

    • 功能:将预测先验与当前损坏观测自适应融合,既不丢失新增信息(如突然出现的车辆)又不吸收噪声
    • 核心思路:\(f_t^{rec} = f_t^{pred} + \alpha \cdot \text{CrossAttn}(f_t^{pred}, \text{Concat}(f_{t-1}^{rec}, f_t^{corrupt}))\)。预测先验 \(f_t^{pred}\) 作为 Query,上一帧重建特征和当前损坏特征拼接作为 Key/Value。可学习门控因子 \(\alpha \in [0,1]\) 控制信息流——当损坏严重时 \(\alpha\) 自动减小,更依赖历史先验;当当前观测可靠时 \(\alpha\) 增大,融入新信息
    • 设计动机:预测先验无法处理突发事件(如车辆突然出现),因此不能完全替代当前观测。门控残差连接让模型自适应地在"信任先验"和"利用当前观测"之间权衡

损失函数 / 训练策略

基于概率图模型推导 ELBO 训练目标,包含三项:(1) 预测先验的观测重建似然;(2) 重建特征的任务标签似然;(3) KL 正则化项。联合训练 Predictor 和 Reconstructor。Few-shot 微调即可适应不同 LSS 基线模型。单卡 A100-80GB,batch size=16。

实验关键数据

主实验(训练中见过的干扰,三个严重程度的平均)

干扰类型 LSS Vanilla LSS+RESBev 提升 FIERY Vanilla FIERY+RESBev 提升
FGSM 10.28 28.42 +18.14 11.89 32.46 +20.57
PGD 9.17 31.47 +22.30 8.03 32.44 +24.41
Fog 9.93 28.39 +18.46 12.98 31.79 +18.81
Frame Lost 10.65 28.33 +17.68 15.62 31.62 +16.00
Overall Avg. 9.96 29.02 +19.06 12.08 31.98 +19.90

泛化到未见干扰

干扰类型 LSS Vanilla LSS+RESBev GaussianLSS Vanilla GaussianLSS+RESBev
C&W (未见) 8.78 30.80 (+22.02) 5.97 31.24 (+25.27)
Snow (未见) 10.26 28.35 (+18.09) 16.08 32.10 (+16.02)
Dark (未见) 8.11 28.36 (+20.25) 17.68 31.96 (+14.28)
Noise (未见) 8.64 28.27 (+19.63) 16.67 31.43 (+14.76)
Overall Avg. 9.17 28.82 (+19.65) 13.96 31.66 (+17.70)

消融实验

配置 LSS SimpleBEV GaussianLSS FIERY
Predictor only 26.67 30.11 29.16 29.79
Predictor + Reconstructor 29.00 32.80 31.59 31.98
提升 +8.7% +8.9% +8.3% +7.4%

关键发现

  • 对抗攻击恢复最强:PGD 攻击下 FIERY 从 8.03 恢复到 32.44(+24.41),几乎完全恢复到接近 clean IoU
  • 泛化性极强:在 5 种训练未见的干扰上也获得 17~20 个 IoU 点提升,说明模型学到了通用的"正常状态应该是什么样"
  • 连续损坏下稳定:在 10 步连续损坏下 IoU 基本保持不变(FGSM: 28.42 → 28.58),无误差累积
  • Reconstructor 提升一致:在所有 4 个基线上都带来 7~9% 的额外提升,说明从当前观测中选择性提取信息的价值
  • GraphBEV baseline 在 clean 数据上最强(61.47),但在干扰下平均 IoU 仅 24,远不如 +RESBev 的各模型

亮点与洞察

  • 将鲁棒性重构为时序预测问题:这个视角转换非常巧妙——不是去修复当前损坏的特征,而是从历史中"预测"当前应该是什么,然后选择性地从当前观测中补充新信息。这种范式可推广到任何具有时序连续性的感知系统
  • 三层分析驱动设计:空间/深度/机制三个维度的消融为每个架构决策提供了定量依据,特别是"对抗扰动在特征空间中 MSE 极小但语义灾难"这个观察解释了为什么简单聚合不行
  • 即插即用设计:在 4 种不同的 LSS 模型上都有效,说明方案具有架构通用性。Few-shot 微调即可适配,部署成本低

局限与展望

  • 依赖历史帧干净:假设上一帧的重建特征是干净的。如果连续多帧都被攻击,误差可能逐帧积累(虽然实验显示 10 步内稳定,但更长序列未测试)
  • 仅在 nuScenes 上评估:没有在其他自动驾驶数据集(Waymo、KITTI)上验证
  • BEV 语义分割为唯一任务:未验证对 3D 目标检测、运动预测等其他 BEV 下游任务的鲁棒性增强效果
  • 计算开销未详细分析:世界模型和交叉注意力的推理延迟未报告,对实时性要求高的自动驾驶场景可能是瓶颈

相关工作与启发

  • vs GraphBEV: GraphBEV 通过图推理增强鲁棒性,clean 性能最强(61.47)但干扰下平均 IoU 仅 24,远不如 +RESBev 的各模型(29~32)
  • vs BEVFormer 时序聚合: BEVFormer 通过时序 self-attention 聚合历史帧,但这种聚合无法区分干净和损坏特征;RESBev 通过生成式预测绕过当前损坏
  • vs 对抗训练: 对抗训练只能对付训练中见过的攻击,RESBev 泛化到未见干扰类型

评分

  • 新颖性: ⭐⭐⭐⭐ 将鲁棒性重构为时序预测问题的视角转换很有启发性
  • 实验充分度: ⭐⭐⭐⭐⭐ 4个基线模型×10种干扰×3个严重程度,泛化到未见干扰,连续损坏测试
  • 写作质量: ⭐⭐⭐⭐ 三层分析逻辑清晰,消融设计优秀
  • 价值: ⭐⭐⭐⭐ 对自动驾驶安全部署有实际意义