Toward Real-World BEV Perception: Depth Uncertainty Estimation via Gaussian Splatting¶

会议: CVPR 2025
arXiv: 2504.01957
代码: https://hcis-lab.github.io/GaussianLSS/
领域: 自动驾驶
关键词: BEV感知, 深度不确定性, Gaussian Splatting, Lift-Splat-Shoot, 语义分割

一句话总结¶

GaussianLSS 在经典的 Lift-Splat-Shoot（LSS）框架上引入深度不确定性建模，通过计算深度分布的方差并将其转换为 3D 高斯表示，再利用 Gaussian Splatting 高效光栅化生成具有不确定性感知的 BEV 特征，在 nuScenes 上达到了 unprojection 方法的 SOTA，同时比 projection 方法快 2.5 倍、省 70% 显存。

研究背景与动机¶

领域现状：BEV 感知是自动驾驶中的核心任务，为 3D 检测、语义分割、运动预测和规划提供统一的空间表示。现有方法分为两大范式：（1）2D unprojection 方法（如 LSS、FIERY）——估计深度后将 2D 特征"提升"到 3D 空间；（2）3D projection 方法（如 BEVFormer、SimpleBEV、PointBEV）——将预定义的 3D 查询投影到图像平面上采样特征，无需显式深度估计。

现有痛点：（1）3D projection 方法精度最高但计算量大（3D 网格采样成本高），难以实时部署；（2）传统 LSS 虽然效率高，但严重依赖准确的深度估计——深度估计本身是一个病态问题（ill-posed），深度误差会直接传播到 BEV 表示；（3）现有 LSS 变体虽然使用 softmax 概率分布做"软"深度分配，但缺乏对深度不确定性的显式建模——softmax 在相邻深度 bin 上可能产生差异巨大的概率，导致 BEV 特征不稳定。

核心矛盾：unprojection 方法效率高但精度受限于深度估计质量；projection 方法精度高但太慢。需要找到一个既高效又能容忍深度误差的方案。

本文目标：（1）在 LSS 框架中引入深度不确定性建模，降低对精确深度估计的依赖；（2）利用 Gaussian Splatting 实现高效的 BEV 特征聚合。

切入角度：作者观察到深度分布的方差本身就编码了深度估计的不确定性信息——方差大意味着深度估计不确定，此时应该让特征在更大的空间范围内"扩散"来覆盖可能的目标位置。这恰好与高斯分布的"展开"特性吻合。

核心 idea：计算每个像素的深度分布的均值和方差，将其转化为 3D 高斯分布（均值=3D位置，协方差=空间不确定性范围），然后用 Gaussian Splatting 渲染到 BEV 平面上，实现不确定性感知的 BEV 特征聚合。

方法详解¶

整体框架¶

输入多视角图像 → Backbone 提取特征 → CNN 预测 splat 特征 \(F_i\)、不透明度 \(\alpha_i\) 和深度分布 \(P_i\) → 深度不确定性变换（均值 \(\mu\)、方差 \(\sigma^2\) → 3D 高斯）→ 多尺度 Gaussian Splatting 渲染到 BEV 平面 → 融合多尺度 BEV 特征 → 分割头输出预测。

关键设计¶

深度不确定性建模:
- 功能：从深度概率分布中显式提取不确定性信息
- 核心思路：在 LSS 的离散深度分布 \(P\) 上计算深度均值 \(\mu = \sum_{i} P_i(p) d_i\) 和方差 \(\sigma^2 = \sum_{i} P_i(p)(d_i - \mu)^2\)，然后定义一个容差范围 \(\hat{\mathbf{D}} = [\mu - k\sigma, \mu + k\sigma]\)。这个范围将"点估计"变成了"带不确定性的区间估计"——当模型对深度不确定时（\(\sigma\) 大），特征会在更大的深度范围内扩散。\(k\) 是误差容差系数，经验设为 0.5。
- 设计动机：传统 LSS 中 softmax 深度分布看似是概率化的，但实际上只是做了加权求和，没有利用分布的"展开程度"这一关键信息。方差直接度量了深度估计的可信度。
3D 不确定性变换与高斯表示:
- 功能：将 1D 深度不确定性转化为 3D 空间的高斯分布
- 核心思路：利用相机内参 \(I\) 和外参 \(E\) 将每个深度 bin 对应的像素-深度点 \((u,v,d_i)\) 反投影到 3D 空间 \(p_i^{3d} = E^{-1}(d_i \cdot I^{-1}[u,v,1]^T)\)，然后计算 3D 均值 \(\mu_{3d} = \sum_i P_i(p) p_i^{3d}\) 和协方差矩阵 \(\Sigma = \sum_i P_i(p)(p_i^{3d} - \mu_{3d})(p_i^{3d} - \mu_{3d})^T\)。由此得到 3D 高斯 \(\mathcal{N}(\mu_{3d}, \Sigma)\)，自然表征了空间位置和不确定性。
- 设计动机：深度不确定性在相机坐标系中是 1D 的，但映射到世界坐标后会沿射线方向展开为 3D 椭球。高斯分布是描述这种空间不确定性的最自然的数学工具。
多尺度 BEV 特征渲染:
- 功能：利用 Gaussian Splatting 高效渲染 BEV 特征，并通过多尺度缓解深度均值不一致问题
- 核心思路：将 3D 高斯（含均值、协方差、特征、不透明度）投影到 BEV 平面，用 alpha-blending 渲染：\(\mathbf{F}_{BEV}(\mathbf{x}) = \sum_i F_i \alpha_i \exp(-\frac{1}{2}(\mathbf{x}-\mu_i)^\top\Sigma_i^{-1}(\mathbf{x}-\mu_i))\)。为解决相邻像素深度均值跳变导致的 BEV 特征畸变，在多个分辨率（50×50、100×100、200×200）上分别渲染 BEV 特征，然后上采样融合。
- 设计动机：Gaussian Splatting 的光栅化操作极其高效（基于 tile-based 渲染），且天然支持空间展开（通过协方差矩阵），完美适配不确定性感知的特征聚合。多尺度渲染则借鉴了特征金字塔的思路。

损失函数 / 训练策略¶

使用三个损失函数：分割的 focal loss（\(\lambda_1=1\)）、centerness 的 L1 loss（\(\lambda_2=2\)）和 offset 的 L2 loss（\(\lambda_3=0.1\)）。优化器 AdamW，学习率 \(3 \times 10^{-4}\)，余弦退火，总 batch size 8，2×RTX 4090，训练 50 epochs。Backbone 为 EfficientNet-B4。

实验关键数据¶

主实验¶

nuScenes Vehicle BEV 语义分割（IoU，224×480 分辨率，无 visibility filtering）：

方法	类型	Backbone	IoU↑
BEVFormer	3D projection	RN-50	35.8
SimpleBEV	3D projection	RN-50	36.9
PointBEV	3D projection	EN-b4	38.7
FIERY static	2D unprojection	EN-b4	35.8
CVT	2D unprojection	EN-b4	31.4
GaussianLSS	2D unprojection	EN-b4	38.3

效率对比：

方法	FPS↑	显存 (GiB)↓	IoU
PointBEV	32.0	1.26	38.7
CVT	107.6	0.35	31.4
GaussianLSS	80.2	0.33	38.3

消融实验¶

误差容差系数 \(k\) 的影响：

k值	Vehicle IoU	说明
0.25	~37.0	太小，不确定性覆盖不足
0.50	38.3	最优
1.00	~38.0	仍在合理范围
2.00	~35.0	太大，特征过度扩散
直接预测 extent	37.0	不用不确定性，差 1.3%

不透明度学习效果：

Epoch	保留高斯比例 (α>0.01)	Vehicle IoU
初始	~100%	低
收敛后	~20%	最优

关键发现¶

GaussianLSS 在 unprojection 方法中达到 SOTA（38.3 IoU），仅比最强 projection 方法 PointBEV 低 0.4%，但速度快 2.5 倍、显存省 74%
直接预测固定 extent 比学习不确定性差 1.3%，证明不确定性建模优于确定性位置预测
\(k\) 在 0.5-1.25 范围内性能稳定，但过大时特征过度扩散导致精度下降
远距离物体（>30m）上 GaussianLSS 表现优于 PointBEV——不确定性建模在深度歧义性大的远距离场景尤为重要
训练收敛后 80% 的高斯点不透明度低于 0.01，模型自动学会了只在语义相关区域聚焦

亮点与洞察¶

不确定性 ≈ 目标范围：深度方差不仅反映了估计的不确定性，还隐式编码了物体的空间范围（大物体的深度分布更"散"）。这是一个优雅的双重解释。
Gaussian Splatting 的新用法：将 3DGS 从渲染任务迁移到 BEV 感知中做特征聚合，是一个很有创意的应用。GS 的高效光栅化天然适合需要空间展开的场景。
不透明度的自适应剪枝：模型自动学会用不透明度过滤 80% 的冗余点，实现了无需后处理的自适应稀疏化。

局限与展望¶

仅在 nuScenes 上验证，未在 Waymo、Argoverse 等数据集上测试
目前仅处理单帧感知，未利用时序信息——加入时序后不确定性可以在时间维度上传播和更新
物体形状预测（IoU shape quality）略逊于 projection 方法
多尺度渲染引入了额外计算开销，可能对极端实时要求的场景不够理想
未来可以扩展到 3D 检测、地图分割等更多 BEV 任务

评分¶

新颖性: ⭐⭐⭐⭐ 将深度不确定性+GS渲染引入BEV感知，思路清晰优雅
实验充分度: ⭐⭐⭐⭐ nuScenes多个任务验证，消融全面，有效率分析和远距离分析
写作质量: ⭐⭐⭐⭐ 方法描述清晰，图示直观
价值: ⭐⭐⭐⭐ 对实际部署友好（快+省显存），是unprojection方法的实质性推进