SplatSSC: Decoupled Depth-Guided Gaussian Splatting for Semantic Scene Completion¶
会议: AAAI 2026 Oral
arXiv: 2508.02261
代码: GitHub
领域: 3D视觉
关键词: 语义场景补全, 3D高斯, 深度引导, 解耦聚合, 室内场景理解
一句话总结¶
提出 SplatSSC,通过深度引导的高斯基元初始化策略和解耦高斯聚合器(DGA),解决目标中心(object-centric)范式中随机初始化低效和离群基元产生浮点伪影的问题,在 Occ-ScanNet 上IoU提升6.3%、mIoU提升4.1%,同时延迟和内存成本降低超过9.3%。
研究背景与动机¶
单目3D语义场景补全(SSC)旨在从单张图像推断完整的3D几何和语义描述。近期目标中心范式(以GaussianFormer为代表)使用3D高斯基元表示场景,取得了效率和性能的突破。但该范式存在两个根本性问题:
问题一:低效的基元初始化 - 为了在无几何线索的情况下覆盖整个3D空间,现有方法在3D体积中随机分布大量基元 - 大部分基元浪费在表示空旷或未知空间上,造成严重冗余 - 例如GaussianFormer使用19200个基元,其中大量是无效的
问题二:离群基元的脆弱聚合 - 高斯到体素的溅射策略(GaussianFormer、GaussianFormer-2)缺乏有效的离群排斥机制 - 孤立的离群基元会将错误语义溅射到远处体素上,产生"floaters" - GaussianFormer-2的概率高斯叠加(PGS)存在设计缺陷:不透明度 \(\mathbf{a}_i\) 在后验概率归一化中被抵消,使低置信度离群基元仍产生高占用值
作者对PGS的缺陷给出了严谨的数学分析:对于孤立离群基元 \(G_n\),其邻域点 \(\mathbf{x}^f\) 处其他基元的似然趋近于0,导致后验概率坍缩为1: $\(p(G_n|\mathbf{x}^f) \approx \frac{p(\mathbf{x}^f|G_n)\mathbf{a}_n}{p(\mathbf{x}^f|G_n)\mathbf{a}_n + 0} = 1\)$
即使 \(\mathbf{a}_n\) 很低,归一化后也被抵消,语义期望退化为该离群基元的语义标签。
方法详解¶
整体框架¶
SplatSSC 包含以下主要组件: 1. 图像编码器(EfficientNet + FPN)提取多尺度图像特征 2. 冻结的 Depth-Anything-V2 提取深度特征 3. 深度分支:GMF模块融合图像和深度特征,输出精化深度图 4. Lifter:基于深度先验初始化稀疏高斯基元 5. 多阶段编码器:迭代精化高斯属性 6. DGA:解耦几何和语义,将高斯基元聚合为语义体素网格
关键设计¶
1. 深度分支与 GMF 模块(Group-wise Multi-scale Fusion):高效的多模态融合¶
GCA层(Group Cross-Attention): - 将深度特征和多尺度图像特征在预定义参考点处采样 - 沿通道维度分为 \(G\) 组,每组特征维度为 \(D_g = D/G\) - Query来自深度特征,Key和Value来自各尺度图像特征 - 使用轻量级线性投影替代标准点积注意力:
效率分析:标准交叉注意力复杂度为 \(\mathcal{O}(LN^2D)\),GCA降低为 \(\mathcal{O}(ND^2(L+2)/G)\),权重矩阵 \(W_a\) 跨组和尺度共享,大幅减少参数量。
数据意义:GMF将冻结的Depth-Anything-V2的 \(\delta_1\) 指标从0.075提升到0.981(提升0.906),对微调版提升到0.993。
2. 解耦高斯聚合器(DGA):消除floaters的关键¶
DGA将语义占用预测分解为两条独立路径:
几何占用预测(Geometric Occupancy Prediction): $\(\alpha'(x) = 1 - \prod_{i \in \mathcal{N}(\mathbf{x})} (1 - \alpha(\mathbf{x}; G_i) \cdot \mathbf{a}_i)\)$
关键区别:每个基元的影响被其学习到的不透明度 \(\mathbf{a}_i\) 调制。低置信度的离群基元自然被抑制。
条件语义分布(Conditional Semantic Distribution): $\(e^k(\mathbf{x}) = \frac{\sum_{i \in \mathcal{N}(\mathbf{x})} p(\mathbf{x}|G_i) \cdot \tilde{\mathbf{c}}_i^k}{\sum_{j \in \mathcal{N}(\mathbf{x})} p(\mathbf{x}|G_j)}\)$
语义预测不使用不透明度,仅依赖几何邻近度和归一化语义权重。
概率融合: $\(\hat{\mathbf{y}}_x^k = \alpha'(\mathbf{x}) \cdot e^k(\mathbf{x}), \quad \hat{\mathbf{y}}_x^{empty} = 1 - \alpha'(\mathbf{x})\)$
这是一个优雅的门控机制:低占用概率直接抑制任何错误的语义预测,无需额外的启发式规则即可消除floaters。
3. 概率尺度损失(Probability Scale Loss):渐进式几何监督¶
扩展 MonoScene 的几何感知尺度损失,适用于所有 \(n\) 个编码器层的占用概率预测:
线性权重调度:对早期层施加较弱约束,逐渐在深层强化一致性。
损失函数 / 训练策略¶
两阶段训练:
Stage 1:深度分支预训练 $\(\mathcal{L}_d = 10 \mathcal{L}_{\text{huber}}^{\text{depth}} + 20 \mathcal{L}_{\text{huber}}^{\text{pts}} + 0.5 \mathcal{L}_{\text{grad}}\)$
Stage 2:端到端SSC训练 $\(\mathcal{L}_{ssc} = 100 \mathcal{L}_{\text{focal}} + 2 \mathcal{L}_{\text{lovasz}} + 0.5 \mathcal{L}_{scal}^{prob}\)$
注意:Stage 2 中移除了深度损失 \(\mathcal{L}_d\),避免模型被初始深度预测过度约束。Depth-Anything-V2 全程冻结。
实验关键数据¶
主实验(Occ-ScanNet)¶
| 方法 | 输入 | IoU↑ | mIoU↑ | 说明 |
|---|---|---|---|---|
| TPVFormer | RGB | 33.39 | 24.94 | Transformer基线 |
| GaussianFormer | RGB | 40.91 | 29.93 | 目标中心范式开创 |
| MonoScene | RGB | 41.60 | 24.62 | 密集2D→3D提升 |
| EmbodiedOcc | RGB | 53.95 | 45.48 | 之前的代表性方法 |
| EmbodiedOcc++ | RGB | 54.90 | 46.20 | 增强版 |
| RoboOcc | RGB | 56.48 | 47.67 | 之前SOTA |
| SplatSSC | RGB | 62.83 | 51.83 | 大幅领先 |
IoU提升6.35%(绝对值),mIoU提升4.16%。在所有语义类别上均有一致提升。
消融实验¶
组件消融:
| GMF | 聚合器 | IoU↑ | mIoU↑ | 说明 |
|---|---|---|---|---|
| ✗ | GF.agg | 11.64 | 12.62 | 无GMF+原始聚合近乎失败 |
| ✗ | GF2.agg | 27.54 | 17.27 | 无GMF+PGS聚合 |
| ✗ | DGA | 48.85 | 36.91 | 无GMF但有DGA仍有效 |
| ✓ | GF.agg | 16.63 | 10.45 | GMF+原始聚合仍差 |
| ✓ | GF2.agg | 57.70 | 45.13 | GMF+PGS |
| ✓ | DGA | 60.61 | 48.01 | 完整方法最优 |
高斯参数消融:
| 基元数量 | 尺度范围 | 内存(MiB) | 延迟(ms) | IoU | mIoU |
|---|---|---|---|---|---|
| 19200 | [0.01,0.08] | 3.122 | 135.18 | 62.77 | 47.69 |
| 4800 | [0.01,0.08] | 3.158 | 123.27 | 62.23 | 47.20 |
| 1200 | [0.01,0.16] | 3.112 | 115.56 | 61.47 | 48.87 |
| 19200 | [0.01,0.32] | 14.380 | 134.51 | OOM | — |
仅用1200个基元即可达到最高mIoU,比19200个基元更优且大幅减少计算量。
关键发现¶
- DGA比GF2.agg在IoU和mIoU上均高出约2.8%,证明floaters是稀疏溅射的关键瓶颈
- GMF模块对性能影响巨大——去除后即使有DGA也会降低11%+
- 仅1200个基元+适中尺度范围[0.01,0.16]为最优配置
- 显式深度损失在Stage 2反而有害,概率尺度损失更合适
- 效率优势显著:相比EmbodiedOcc延迟降低9.32%,内存降低9.64%
亮点与洞察¶
- PGS缺陷的精确数学分析:对GaussianFormer-2聚合器中不透明度被归一化抵消的问题给出了严谨证明,非常有说服力
- 解耦设计的优雅性:将几何占用和语义预测完全分解,不透明度仅在几何路径中起门控作用,是一个自然且原则性的解决方案
- 少即是多:1200个深度引导的基元优于19200个随机基元,直观展示了初始化质量的重要性
- GCA的效率设计:组共享注意力权重实现了参数和计算的大幅节省
- 概率尺度损失的渐进设计:对不同编码器层施加不同权重的监督,适应了逐层精化的特点
局限与展望¶
- 目前仅在室内场景(Occ-ScanNet)上评估,未验证室外场景(如nuScenes)
- 依赖冻结的Depth-Anything-V2,深度先验的质量上限受限
- 1200个基元可能不够应对大规模或极其复杂的场景
- 未讨论时序一致性(连续帧间的占用预测一致性)
- GCA中的分组数 \(G\) 等超参的敏感性未详细分析
相关工作与启发¶
- GaussianFormer/GaussianFormer-2:目标中心SSC范式的开创者,SplatSSC指出其聚合器缺陷
- EmbodiedOcc/EmbodiedOcc++:将目标中心范式引入室内场景的代表工作
- VoxFormer:稀疏到密集的Transformer方法,首次引入几何先验来生成提议
- Depth-Anything-V2:强大的单目深度估计器,提供了深度特征和深度先验
- 启发:深度引导的稀疏初始化+解耦聚合的设计思路可推广到其他目标中心3D感知任务
评分¶
- 新颖性: ⭐⭐⭐⭐ — PGS缺陷分析和DGA解耦设计新颖且有深度
- 实验充分度: ⭐⭐⭐⭐ — 详尽的消融实验,但数据集限于室内
- 写作质量: ⭐⭐⭐⭐⭐ — 问题分析严谨,数学推导清晰,方法动机充分
- 实用价值: ⭐⭐⭐⭐ — 室内3D场景理解的重要进展,对具身智能有直接价值