Unleashing Semantic and Geometric Priors for 3D Scene Completion¶

会议: AAAI2026
arXiv: 2508.13601
代码: D-Robotics-AI-Lab/FoundationSSC
领域: 自动驾驶
关键词: 3D scene completion, vision foundation model, semantic-geometric decoupling, stereo cost volume, autonomous driving

一句话总结¶

提出 FoundationSSC 框架，通过 source-level 和 pathway-level 双层解耦设计释放 Vision Foundation Model 的语义与几何先验，配合 Axis-Aware Fusion 模块融合互补 3D 特征，在 SemanticKITTI 上达到 19.32 mIoU / 48.12 IoU SOTA。

背景与动机¶

Camera-based 3D Semantic Scene Completion (SSC) 为自动驾驶提供稠密几何和语义感知
现有方法使用单一耦合编码器同时提供语义和几何先验，导致两者相互冲突、性能受限
已有尝试分别引入外部深度（stereo depth）或语义先验（VLM），但都是在耦合框架上做加法，未解决根本的 feature conflict 问题
Vision Foundation Model（DINOv2、DepthAnything 等）提供了强大的 zero-shot 泛化能力，关键挑战在于如何有效利用这些先验解决耦合问题

核心问题¶

如何从根本上解耦 SSC 中语义和几何特征的提取与处理路径，充分利用 VFM 的先验来同时提升语义和几何指标？

方法详解¶

整体框架¶

Foundation Encoder → Decoupled Semantic/Geometric Pathways → Hybrid View Transformation → Axis-Aware Fusion → Decoding Head

关键设计¶

1. Foundation Encoder（Source-level Decoupling） - 使用冻结的 FoundationStereo（继承 DINOv2/DepthAnythingV2 血统）作为统一编码器 - 输出三种解耦特征：(a) 单目图像特征 \(\mathbf{F}^{2D}\)（语义分支）；(b) 视差代价体 \(\mathbf{V}_{disp}\)（几何分支）；(c) 稠密深度图 \(\mathbf{Z}\)（辅助用途）

2. Geometry-Aware Context Adapter (GCA) - 将 3D 结构感知注入 VFM 的 2D 语义特征 - 构建几何先验矩阵 \(\mathbf{M}^g = \alpha \mathbf{M}^d + (1-\alpha)\mathbf{M}^s\)，融合 3D 深度距离和 2D 空间距离 - Geometry-modulated attention: \(\text{GeoAttn}(\mathbf{Q},\mathbf{K},\mathbf{V},\mathbf{M}^g) = (\text{Softmax}(\mathbf{QK}^T) \odot \beta^{\mathbf{M}^g})\mathbf{V}\)

3. Disparity-to-Depth Volume Mapping (DDVM) - 解决视差代价体到深度分布的转换中的信息损失问题 - 传统方法：cost volume → 坍缩为 depth map → one-hot 分布（信息瓶颈） - DDVM：通过 learnable channel-mapper blocks 直接学习非线性映射 \(\tilde{\mathbf{V}}_{depth} = f(\tilde{\mathbf{V}}_{disp})\) - 经 3D CNN refinement + softmax 生成概率深度分布 \(\mathbf{D}\)

4. Axis-Aware Fusion (AAF) - 融合 LSS volume \(\mathbf{F}_{lss}\) 和 Voxel Transformer volume \(\mathbf{F}_{vt}\) 的互补信息 - 三个并行的 axis-specific fusion unit 分别沿 XY/XZ/YZ 平面提取方向性上下文 - \(\mathbf{F}_{fused} = \sum_{d \in \{XY, XZ, YZ\}} (\sigma_d \mathbf{F}_{lss} + (1-\sigma_d)\mathbf{F}_{vt})\) - 各向异性融合优于各向同性 3D channel attention

实验关键数据¶

SemanticKITTI test set：

方法	IoU	mIoU
CGFormer	44.41	16.63
SOAP	46.09	19.09
FoundationSSC	48.12	19.32

相比 CGFormer baseline: +3.71 IoU, +2.69 mIoU
超越所有使用 temporal 信息的方法（HTCL、SOAP），仅使用 stereo 输入

SSCBench-KITTI-360： 48.61 IoU, 21.78 mIoU（SOTA）

Ablation（SemanticKITTI val）：

组件	IoU	mIoU
Baseline	45.28	16.53
+Foundation Encoder	46.61	18.59 (+2.06)
+FE+GCA+DDVM	47.84	19.56 (+3.03)
+FE+GCA+DDVM+AAF	47.91	20.36 (+3.83)

AAF vs 3D Channel Attention: 20.36 vs 20.08 mIoU，验证各向异性融合的优势
DDVM vs Depth Refinement: 20.36 vs 19.83 mIoU，保留概率信息的价值

亮点¶

双层解耦设计：source-level（编码器解耦语义/几何输出）+ pathway-level（专用处理路径），从根本解决 SSC 中的语义-几何冲突
DDVM 模块：避免 cost volume → depth map 的信息丢失，直接学习视差到深度的非线性映射
AAF 各向异性融合：认识到驾驶场景的 3D 结构具有方向性差异（前后 vs 左右 vs 上下），axis-specific 设计合理
Foundation Model 的深度利用：不是简单替换 backbone，而是设计了完整的利用管线

局限与展望¶

Foundation Encoder 冻结使用，参数量大（DepthAnythingV2-L 335M），部署成本高
仅验证 stereo 输入场景，单目设置下该框架适用性未知
GCA 中的全局 attention 矩阵 \(\mathbf{M}^g \in \mathbb{R}^{HW \times HW}\) 在高分辨率下计算量大
未与使用 temporal 信息的方法在相同条件下对比（本方法仅用单帧 stereo）

与相关工作的对比¶

vs. CGFormer：FoundationSSC 的基线，通过双层解耦实现 +2.69 mIoU 和 +3.71 IoU 的同时提升
vs. VLScene：同样引入 VLM 语义先验，但 VLScene 未解决耦合问题，IoU 偏低（45.14 vs 48.12）
vs. SOAP（temporal 方法）：FoundationSSC 仅用 stereo 单帧即超越使用多帧的 SOAP
vs. MonoScene/VoxFormer：经典方法，FoundationSSC 在 mIoU 上提升 5-8 个点

启发与关联¶

Foundation Model for 3D perception 是当前热点方向，"冻结 VFM + 轻量适配器" 的模式比 fine-tuning 更实用
语义-几何解耦的思想可推广到 3D 目标检测、BEV 感知等任务
视差代价体（cost volume）蕴含丰富的概率信息，不应简单坍缩为 depth map——这一 insight 值得在其他依赖深度估计的任务中借鉴

评分¶

新颖性: ⭐⭐⭐⭐ (双层解耦 + DDVM + AAF 三个创新点)
实验充分度: ⭐⭐⭐⭐⭐ (双数据集 SOTA + 多维度 ablation)
写作质量: ⭐⭐⭐⭐ (逻辑清晰，图示质量高)
价值: ⭐⭐⭐⭐ (解决 SSC 核心 trade-off 问题，框架通用性强)