RESBev: Making BEV Perception More Robust¶

会议: CVPR 2026
arXiv: 2603.09529
代码: 无
领域: 自动驾驶 / BEV感知鲁棒性
关键词: BEV perception, 鲁棒性, 世界模型, 对抗攻击, 即插即用

一句话总结¶

提出 RESBev，一个即插即用的 BEV 感知鲁棒性增强框架，通过隐空间世界模型从历史干净帧预测当前 BEV 语义先验，再由异常重建器将先验与被损坏的当前观测通过交叉注意力融合，在 nuScenes 上为四种 LSS 模型在 10 种干扰（含自然损坏 + 对抗攻击）下平均提升 15~20 个 IoU 点，且能泛化到训练未见过的干扰类型。

研究背景与动机¶

领域现状：BEV 感知是自动驾驶的核心表示，LSS 系列方法（BEVFusion、BEVFormer、FIERY 等）在 nuScenes 等基准上表现出色。但这些模型在真实部署中极度脆弱——面对自然干扰（雾/暗/雪/相机崩溃/帧丢失）或对抗攻击（FGSM/PGD/C&W），IoU 可能从 33 暴跌到 9。

现有痛点：现有防御策略存在三大局限：(1) 多模态融合依赖昂贵的 LiDAR 传感器且假设冗余传感器可靠；(2) 简单时序聚合无法过滤对抗扰动（因为对抗特征在数值上与干净特征几乎相同）；(3) 对抗训练只能对付特定类型干扰，无法泛化；(4) 大多方法与特定架构紧耦合。

核心矛盾：对抗攻击在特征空间中产生的 MSE 极小但语义上灾难性——简单的注意力聚合无法区分被对抗攻击的特征和干净特征。需要一种能"绕过"当前损坏观测、从历史信息生成干净先验的机制。

本文目标 构建一个轻量、通用、可泛化的 BEV 鲁棒性增强方案，能插入任意 LSS 模型且同时应对自然干扰和对抗攻击。

切入角度：驾驶场景具有强时间一致性——当前帧的 BEV 状态可以从历史帧+自车运动合理预测。将鲁棒性问题重新构建为时序预测问题：用世界模型从历史干净帧生成当前的"期望状态"，再与实际观测选择性融合。

核心 idea：用隐空间世界模型预测当前帧的干净 BEV 语义先验，通过门控交叉注意力与当前损坏观测融合，实现对任意类型扰动的自适应恢复。

方法详解¶

整体框架¶

RESBev 作为即插即用模块插入 LSS 管线的 Splat 阶段。两个核心组件：(1) 语义先验预测器（Semantic Prior Predictor）从上一帧重建特征和自车运动预测当前干净 BEV 先验，(2) 异常重建器（Anomaly Reconstructor）将预测先验与当前被损坏的观测通过交叉注意力融合，自适应地提取有效信息。

关键设计¶

三层空间分析驱动的架构决策:
- 功能：回答"在 LSS 管线的哪个阶段介入"和"该用什么机制"两个核心架构问题
- 核心思路：通过系统实验分析三个层面——(1) 空间选择：BEV 空间（Splat）比图像空间（Lift）时间一致性高得多，持续干扰下 BEV 特征稳定而图像特征剧烈波动；(2) 深度选择：在高维语义特征（Splat）而非低维任务输出（Shoot）上操作——后者信息已被压缩，恢复后 IoU 仅 18.7 vs Splat 的 31.6；(3) 机制选择：生成式预测（世界模型）显著优于时序注意力聚合（30.11 vs 20.17），因为对抗扰动在特征空间中几乎不可察觉（低 MSE）但语义上灾难性
- 设计动机：这些消融实验为每个架构决策提供了定量支撑，使得最终设计不是启发式的而是分析驱动的
语义先验预测器（LDWM）:
- 功能：从上一帧的重建特征和自车运动预测当前帧的干净 BEV 特征
- 核心思路：\(f_t^{pred} = D(\text{LDWM}(\text{Concat}(E_{vis}(f_{t-1}^{rec}), E_{act}(a_{t-1}))))\)。视觉编码器 \(E_{vis}\) 将上一帧重建特征投射到紧凑隐空间，动作编码器 \(E_{act}\) 编码自车运动（平移+旋转），拼接后送入 Transformer 世界模型（LDWM）建模状态转移，解码器 \(D\) 映射回稠密 BEV 特征空间
- 设计动机：在紧凑隐空间而非高维特征空间中建模转移，计算高效；使用重建特征（而非原始损坏特征）作为输入，避免误差传播
异常重建器（门控交叉注意力融合）:
- 功能：将预测先验与当前损坏观测自适应融合，既不丢失新增信息（如突然出现的车辆）又不吸收噪声
- 核心思路：\(f_t^{rec} = f_t^{pred} + \alpha \cdot \text{CrossAttn}(f_t^{pred}, \text{Concat}(f_{t-1}^{rec}, f_t^{corrupt}))\)。预测先验 \(f_t^{pred}\) 作为 Query，上一帧重建特征和当前损坏特征拼接作为 Key/Value。可学习门控因子 \(\alpha \in [0,1]\) 控制信息流——当损坏严重时 \(\alpha\) 自动减小，更依赖历史先验；当当前观测可靠时 \(\alpha\) 增大，融入新信息
- 设计动机：预测先验无法处理突发事件（如车辆突然出现），因此不能完全替代当前观测。门控残差连接让模型自适应地在"信任先验"和"利用当前观测"之间权衡

损失函数 / 训练策略¶

基于概率图模型推导 ELBO 训练目标，包含三项：(1) 预测先验的观测重建似然；(2) 重建特征的任务标签似然；(3) KL 正则化项。联合训练 Predictor 和 Reconstructor。Few-shot 微调即可适应不同 LSS 基线模型。单卡 A100-80GB，batch size=16。

实验关键数据¶

主实验（训练中见过的干扰，三个严重程度的平均）¶

干扰类型	LSS Vanilla	LSS+RESBev	提升	FIERY Vanilla	FIERY+RESBev	提升
FGSM	10.28	28.42	+18.14	11.89	32.46	+20.57
PGD	9.17	31.47	+22.30	8.03	32.44	+24.41
Fog	9.93	28.39	+18.46	12.98	31.79	+18.81
Frame Lost	10.65	28.33	+17.68	15.62	31.62	+16.00
Overall Avg.	9.96	29.02	+19.06	12.08	31.98	+19.90

泛化到未见干扰¶

干扰类型	LSS Vanilla	LSS+RESBev	GaussianLSS Vanilla	GaussianLSS+RESBev
C&W (未见)	8.78	30.80 (+22.02)	5.97	31.24 (+25.27)
Snow (未见)	10.26	28.35 (+18.09)	16.08	32.10 (+16.02)
Dark (未见)	8.11	28.36 (+20.25)	17.68	31.96 (+14.28)
Noise (未见)	8.64	28.27 (+19.63)	16.67	31.43 (+14.76)
Overall Avg.	9.17	28.82 (+19.65)	13.96	31.66 (+17.70)

消融实验¶

配置	LSS	SimpleBEV	GaussianLSS	FIERY
Predictor only	26.67	30.11	29.16	29.79
Predictor + Reconstructor	29.00	32.80	31.59	31.98
提升	+8.7%	+8.9%	+8.3%	+7.4%

关键发现¶

对抗攻击恢复最强：PGD 攻击下 FIERY 从 8.03 恢复到 32.44（+24.41），几乎完全恢复到接近 clean IoU
泛化性极强：在 5 种训练未见的干扰上也获得 17~20 个 IoU 点提升，说明模型学到了通用的"正常状态应该是什么样"
连续损坏下稳定：在 10 步连续损坏下 IoU 基本保持不变（FGSM: 28.42 → 28.58），无误差累积
Reconstructor 提升一致：在所有 4 个基线上都带来 7~9% 的额外提升，说明从当前观测中选择性提取信息的价值
GraphBEV baseline 在 clean 数据上最强（61.47），但在干扰下平均 IoU 仅 24，远不如 +RESBev 的各模型

亮点与洞察¶

将鲁棒性重构为时序预测问题：这个视角转换非常巧妙——不是去修复当前损坏的特征，而是从历史中"预测"当前应该是什么,然后选择性地从当前观测中补充新信息。这种范式可推广到任何具有时序连续性的感知系统
三层分析驱动设计：空间/深度/机制三个维度的消融为每个架构决策提供了定量依据，特别是"对抗扰动在特征空间中 MSE 极小但语义灾难"这个观察解释了为什么简单聚合不行
即插即用设计：在 4 种不同的 LSS 模型上都有效，说明方案具有架构通用性。Few-shot 微调即可适配，部署成本低

局限与展望¶

依赖历史帧干净：假设上一帧的重建特征是干净的。如果连续多帧都被攻击，误差可能逐帧积累（虽然实验显示 10 步内稳定，但更长序列未测试）
仅在 nuScenes 上评估：没有在其他自动驾驶数据集（Waymo、KITTI）上验证
BEV 语义分割为唯一任务：未验证对 3D 目标检测、运动预测等其他 BEV 下游任务的鲁棒性增强效果
计算开销未详细分析：世界模型和交叉注意力的推理延迟未报告，对实时性要求高的自动驾驶场景可能是瓶颈

评分¶

新颖性: ⭐⭐⭐⭐ 将鲁棒性重构为时序预测问题的视角转换很有启发性
实验充分度: ⭐⭐⭐⭐⭐ 4个基线模型×10种干扰×3个严重程度，泛化到未见干扰，连续损坏测试
写作质量: ⭐⭐⭐⭐ 三层分析逻辑清晰，消融设计优秀
价值: ⭐⭐⭐⭐ 对自动驾驶安全部署有实际意义