CVPR 2026 自动驾驶 occupancy prediction depth guidance MoGe-2 Mixture-of-Experts region-guided view transformation

Dr.Occ: Depth- and Region-Guided 3D Occupancy from Surround-View Cameras for Autonomous Driving¶

会议: CVPR 2026
arXiv: 2603.01007
代码: 无
领域: 自动驾驶 / 3D 占用预测
关键词: occupancy prediction, depth guidance, MoGe-2, Mixture-of-Experts, region-guided, view transformation

一句话总结¶

提出 Dr.Occ，一个统一的纯视觉 3D 占用预测框架，通过深度引导的双投影视图变换器（D2-VFormer）利用 MoGe-2 高质量深度先验实现精确几何对齐，以及区域引导的 MoE/MoR 专家 Transformer（R-EFormer / R2-EFormer）自适应分配区域专家解决空间语义不平衡，在 Occ3D-nuScenes 上将 BEVDet4D 基线提升 7.43% mIoU。

研究背景与动机¶

领域现状：3D 语义占用预测是自动驾驶的核心感知任务，旨在生成场景的密集体素级表示，为运动规划和避障提供几何与语义信息。纯视觉方案是主流方向（LSS、BEVFormer、COTR 等），通过 2D-to-3D 视图变换实现。

现有痛点： 1. 几何对齐不准：现有前向投影方法（LSS、BEVDepth）依赖低分辨率、噪声较大的深度估计进行 2D→3D 特征变换，投影精度有限 2. 空间语义不平衡：不同语义类别在 3D 空间中表现出强烈的空间偏好，如行人集中在道路边缘、车辆在道路中央、建筑物在高处，但现有方法对所有区域统一建模 3. 约 90% 的体素是空的，直接拟合所有体素效率低下 4. 简单地将 MoGe 深度图与图像拼接或转为伪点云进行前向投影反而降低性能

核心矛盾：如何利用先进深度估计模型提供的高质量几何先验来改善占用预测，同时解决语义类别在空间分布上的严重不平衡。

本文目标：同时解决纯视觉占用预测中的几何重建不准和语义学习不平衡两大挑战。

切入角度：深度引导确保几何对齐 + 区域专家增强语义学习，二者互补。

核心 idea：用 MoGe-2 深度生成占用 mask 引导非空体素精炼，用 MoE 思想按空间区域分配专家处理语义异质性。

方法详解¶

整体框架¶

Dr.Occ 在现有占用预测流程基础上做两处改进： 1. 用 D2-VFormer 替换原有视图变换器，利用 MoGe-2 深度先验实现深度引导的双投影特征构建 2. 在 3D 特征精炼阶段插入 R2-EFormer，通过区域引导的递归专家进行语义增强

输入为 \(T\) 帧环视图像 → 图像编码器 → D2-VFormer 构建 3D 体素特征 → R2-EFormer 语义精炼 → OCC 解码器输出 \(\hat{\mathbf{O}} \in \mathbb{R}^{X \times Y \times Z \times C}\)。

关键设计¶

深度引导的 2D-to-3D 视图变换器（D2-VFormer）:
- 几何感知占用 mask：利用 MoGe-2 估计的深度图 \(\mathbf{D}_i\) 生成伪点云 \(\mathcal{P}\)，通过相机投影和体素化生成二值 mask \(M(\mathbf{v})\)，标记非空体素位置
- 投影公式：\(\mathbf{x}_{\text{cam}}^T = d \cdot \mathbf{K}_i^{-1}[u, v, 1]^T\)，\(\mathbf{p}_i = \mathbf{R}_i^\top(\mathbf{x}_{\text{cam}} - \mathbf{t}_i)\)，\(M(\mathbf{v}) = \mathbf{1}[\mathbf{v} \in \text{Voxelize}(\mathcal{P}, r)]\)
- 三阶段渐进精炼：
  - Stage 1（前向投影 + 下采样）：融合多帧图像特征通过深度投影到体素空间，下采样 \(\lambda\) 倍以提高计算效率和深度鲁棒性
  - Stage 2（后向投影稠密化）：使用 Deformable Cross-Attention (DCA) 融合多视图图像特征 \(\mathbf{F}_{\text{dense}} = \text{DCA}(\mathbf{F}_{\text{down}}, \mathbf{F}^{(I)})\)
  - Stage 3（深度引导非空体素精炼）：仅对 mask 标记的非空体素进行两步精炼——几何精炼（融合深度特征 \(\mathbf{F}^{(D)}\)）+ 语义增强（融合图像特征 \(\mathbf{F}^{(I)}\)），空体素用可学习 embedding \(\mathbf{e}_{\text{empty}}\) 填充
- 关键洞察：不直接用 MoGe 深度做前向投影（会因缺少隐式深度约束而降低特征质量），而是用深度生成 mask 引导注意力集中在有意义的区域
区域引导的专家 Transformer（R-EFormer）:
- 空间语义分析：统计发现不同语义类别沿距离和高度维度呈强各向异性分布——路面集中于低高度近距离，植被/建筑在高处中距离，动态目标在窄空间带
- 将 3D 空间按距离（近 0-10m / 中 10-30m / 远 30m+）和高度（低 -1.0-0.2m / 中 0.2-2.2m / 高 2.2-5.4m）划分为 \(3 \times 3 = 9\) 个区域
- 路由网络计算各区域重要性 \(s_m = \text{Router}(\mathbf{F}_{\text{out}})\)，选取 top-\(K\) 个最相关区域激活对应专家
- 每个专家 \(E_m\) 使用 DCA 但限制在其对应区域 mask \(\mathcal{M}_m\) 内：\(E_m(\mathbf{F}_{\text{out}}, \mathbf{F}^{(I)}; \mathcal{M}_m) = \text{DCA}(\mathbf{F}_{\text{out}}, \mathbf{F}^{(I)}; \mathcal{M}_m)\)
- 最终输出为加权融合：\(\mathbf{F}_{\text{final}} = \sum_{m \in \mathcal{S}} w_m \cdot E_m(\mathbf{F}_{\text{out}}, \mathbf{F}^{(I)}; \mathcal{M}_m)\)
递归变体 R2-EFormer:
- 受 Mixture-of-Recursions (MoR) 启发，用单个共享专家迭代精炼 \(n\) 次，每次通过 router 生成渐进收缩的空间 mask
- mask 序列满足 \(\mathcal{M}^{(t)} \subset \mathcal{M}^{(t-1)}\)，覆盖率递减（100% → 75% → 50%）
- 每次迭代：\(\mathbf{F}^{(t)} = \text{DCA}(\mathbf{F}^{(t-1)}, \mathbf{F}^{(I)}; \mathcal{M}^{(t)})\)
- 优势：减少参数（共享专家）、不需要手动定义区域划分、渐进聚焦于难分体素

损失函数 / 训练策略¶

使用 AdamW 优化器，学习率 \(1 \times 10^{-4}\)，权重衰减 \(1 \times 10^{-2}\)
训练 24 个 epoch，batch size = 2/GPU × 8 GPU (NVIDIA L20)
图像编码器为 ResNet-50，深度估计使用 moge-2-vits-normal
前向投影体素维度 \(C=32\)，分辨率 \(200 \times 200 \times 16\)，覆盖 \(80 \times 80 \times 6.4\) m
多头注意力 8 heads，\(N_{\text{ref}} = 4\) 个参考点

实验关键数据¶

主实验¶

Occ3D-nuScenes benchmark（mIoU / IoU %）：

方法	Backbone	mIoU	IoU
BEVFormer	R101	26.9	—
TPVFormer	R101	27.8	—
SparseOcc	R50	30.9	—
BEVDet4D	R50	36.0	—
FlashOcc	R50	37.8	—
FB-Occ	R50	39.1	—
ViewFormer	R50	41.9	—
COTR	R50	43.1	—
BEVDet4D + Dr.Occ	R50	43.4 (+7.43)	(+3.09)
COTR + Dr.Occ	R50	44.1 (+1.0)	—

Dr.Occ 在 BEVDet4D 基础上前景类 IoU 显著提升（如 bicycle +20.4, pedestrian +13.4, motorcycle +6.9），同时背景类也有稳定增长。

消融实验¶

各模块贡献：

D2-VFormer	R-EFormer	R2-EFormer	IoU (%)	mIoU (%)
			70.36	36.01
✔			71.29 (+0.93)	41.45 (+5.44)
✔	✔		73.45 (+2.16)	43.03 (+1.58)
✔		✔	72.87	43.43 (+1.98)

关键观察： - D2-VFormer 单独贡献 +5.44% mIoU，验证深度引导对几何完整性和语义的重要性 - R-EFormer 在 D2-VFormer 基础上进一步 +1.58% mIoU，IoU 最高 - R2-EFormer 替代 R-EFormer 后 IoU 略降但 mIoU 最高（43.43%），因为递归精炼更有利于稀有难分类别

关键发现¶

直接将 MoGe 深度用于前向投影反而降低性能——因为图像特征失去了隐式深度约束；用深度生成 mask 是更优策略
约 90% 体素为空，几何感知 mask 使模型聚焦于有意义的 ~10% 体素，大幅提升效率和精度
语义类别的空间各向异性是客观存在的（路面在底部、建筑在高处），MoE 式区域专家能有效利用这一先验
R2-EFormer 的递归 mask 收缩策略（100% → 75% → 50%）自动聚焦于难分体素，无需手动定义区域边界
Dr.Occ 作为即插即用模块，在 COTR（当前 SOTA）上也能进一步提升 1.0% mIoU，证明通用性

亮点与洞察¶

深度先验的巧妙利用：不是直接用深度做投影（容易引入域偏差），而是用深度生成占用 mask 做注意力引导，思路新颖
MoE 本地化到 3D 空间：将 MoE 的 expert routing 概念从 token 空间迁移到物理空间的区域划分，与自动驾驶场景的空间语义分布高度匹配
MoR 递归变体减少参数同时自适应发现重要区域，避免了手动调区域边界的敏感性
几何模块和语义模块解耦设计，可独立插入不同 baseline

局限与展望¶

依赖外部深度估计模型（MoGe-2），增加推理延迟和部署复杂度
R-EFormer 的区域划分（3×3 grid）是手动设定的超参数，不同场景可能需要不同划分
仅在 Occ3D-nuScenes 上评估，未测试其他数据集（如 OpenOccupancy、SurroundOcc）
使用 ResNet-50 backbone，未探索更强的 backbone（如 InternImage、ViT）
未讨论时序融合的深入优化（仅用 BEVDet4D 的基础多帧融合）

评分¶

维度	评分
创新性	⭐⭐⭐⭐
实用性	⭐⭐⭐⭐
实验充分度	⭐⭐⭐⭐
写作质量	⭐⭐⭐⭐
综合	⭐⭐⭐⭐