SplatSSC: Decoupled Depth-Guided Gaussian Splatting for Semantic Scene Completion¶

会议: AAAI 2026 Oral
arXiv: 2508.02261
代码: GitHub
领域: 3D视觉
关键词: 语义场景补全, 3D高斯, 深度引导, 解耦聚合, 室内场景理解

一句话总结¶

提出 SplatSSC，通过深度引导的高斯基元初始化策略和解耦高斯聚合器（DGA），解决目标中心（object-centric）范式中随机初始化低效和离群基元产生浮点伪影的问题，在 Occ-ScanNet 上IoU提升6.3%、mIoU提升4.1%，同时延迟和内存成本降低超过9.3%。

研究背景与动机¶

单目3D语义场景补全（SSC）旨在从单张图像推断完整的3D几何和语义描述。近期目标中心范式（以GaussianFormer为代表）使用3D高斯基元表示场景，取得了效率和性能的突破。但该范式存在两个根本性问题：

问题一：低效的基元初始化 - 为了在无几何线索的情况下覆盖整个3D空间，现有方法在3D体积中随机分布大量基元 - 大部分基元浪费在表示空旷或未知空间上，造成严重冗余 - 例如GaussianFormer使用19200个基元，其中大量是无效的

问题二：离群基元的脆弱聚合 - 高斯到体素的溅射策略（GaussianFormer、GaussianFormer-2）缺乏有效的离群排斥机制 - 孤立的离群基元会将错误语义溅射到远处体素上，产生"floaters" - GaussianFormer-2的概率高斯叠加（PGS）存在设计缺陷：不透明度 $\mathbf{a}_i$ 在后验概率归一化中被抵消，使低置信度离群基元仍产生高占用值

作者对PGS的缺陷给出了严谨的数学分析：对于孤立离群基元 $G_n$，其邻域点 $\mathbf{x}^f$ 处其他基元的似然趋近于0，导致后验概率坍缩为1： $$p(G_n|\mathbf{x}^f) \approx \frac{p(\mathbf{x}^f|G_n)\mathbf{a}_n}{p(\mathbf{x}^f|G_n)\mathbf{a}_n + 0} = 1$$

即使 $\mathbf{a}_n$ 很低，归一化后也被抵消，语义期望退化为该离群基元的语义标签。

方法详解¶

整体框架¶

SplatSSC 包含以下主要组件： 1. 图像编码器（EfficientNet + FPN）提取多尺度图像特征 2. 冻结的 Depth-Anything-V2 提取深度特征 3. 深度分支：GMF模块融合图像和深度特征，输出精化深度图 4. Lifter：基于深度先验初始化稀疏高斯基元 5. 多阶段编码器：迭代精化高斯属性 6. DGA：解耦几何和语义，将高斯基元聚合为语义体素网格

关键设计¶

1. 深度分支与 GMF 模块（Group-wise Multi-scale Fusion）：高效的多模态融合¶

GCA层（Group Cross-Attention）： - 将深度特征和多尺度图像特征在预定义参考点处采样 - 沿通道维度分为 $G$ 组，每组特征维度为 $D_g = D/G$ - Query来自深度特征，Key和Value来自各尺度图像特征 - 使用轻量级线性投影替代标准点积注意力：

\[A_g^l = \mathbb{S}_l(W_a(Q_g + K_g^l))\]

\[\mathcal{F}_d' = \mathbb{C}_g(\sum_{l=1}^{L} A_g^l \circ V_g^l) W_o\]

效率分析：标准交叉注意力复杂度为 $\mathcal{O}(LN^2D)$，GCA降低为 $\mathcal{O}(ND^2(L+2)/G)$，权重矩阵 $W_a$ 跨组和尺度共享，大幅减少参数量。

数据意义：GMF将冻结的Depth-Anything-V2的 $\delta_1$ 指标从0.075提升到0.981（提升0.906），对微调版提升到0.993。

2. 解耦高斯聚合器（DGA）：消除floaters的关键¶

DGA将语义占用预测分解为两条独立路径：

几何占用预测（Geometric Occupancy Prediction）： $$\alpha'(x) = 1 - \prod_{i \in \mathcal{N}(\mathbf{x})} (1 - \alpha(\mathbf{x}; G_i) \cdot \mathbf{a}_i)$$

关键区别：每个基元的影响被其学习到的不透明度 $\mathbf{a}_i$ 调制。低置信度的离群基元自然被抑制。

条件语义分布（Conditional Semantic Distribution）： $$e^k(\mathbf{x}) = \frac{\sum_{i \in \mathcal{N}(\mathbf{x})} p(\mathbf{x}|G_i) \cdot \tilde{\mathbf{c}}_i^k}{\sum_{j \in \mathcal{N}(\mathbf{x})} p(\mathbf{x}|G_j)}$$

语义预测不使用不透明度，仅依赖几何邻近度和归一化语义权重。

概率融合： $$\hat{\mathbf{y}}_x^k = \alpha'(\mathbf{x}) \cdot e^k(\mathbf{x}), \quad \hat{\mathbf{y}}_x^{empty} = 1 - \alpha'(\mathbf{x})$$

这是一个优雅的门控机制：低占用概率直接抑制任何错误的语义预测，无需额外的启发式规则即可消除floaters。

3. 概率尺度损失（Probability Scale Loss）：渐进式几何监督¶

扩展 MonoScene 的几何感知尺度损失，适用于所有 $n$ 个编码器层的占用概率预测：

\[\mathcal{L}_{scal}^{prob} = \frac{1}{2}\sum_{i=1}^{n-1} \frac{i}{n} \cdot \mathcal{L}_{scal}^{geo,i} + \mathcal{L}_{scal}^{geo,n}\]

线性权重调度：对早期层施加较弱约束，逐渐在深层强化一致性。

损失函数 / 训练策略¶

两阶段训练：

Stage 1：深度分支预训练 $$\mathcal{L}_d = 10 \mathcal{L}_{\text{huber}}^{\text{depth}} + 20 \mathcal{L}_{\text{huber}}^{\text{pts}} + 0.5 \mathcal{L}_{\text{grad}}$$

Stage 2：端到端SSC训练 $$\mathcal{L}_{ssc} = 100 \mathcal{L}_{\text{focal}} + 2 \mathcal{L}_{\text{lovasz}} + 0.5 \mathcal{L}_{scal}^{prob}$$

注意：Stage 2 中移除了深度损失 $\mathcal{L}_d$，避免模型被初始深度预测过度约束。Depth-Anything-V2 全程冻结。

实验关键数据¶

主实验（Occ-ScanNet）¶

方法	输入	IoU↑	mIoU↑	说明
TPVFormer	RGB	33.39	24.94	Transformer基线
GaussianFormer	RGB	40.91	29.93	目标中心范式开创
MonoScene	RGB	41.60	24.62	密集2D→3D提升
EmbodiedOcc	RGB	53.95	45.48	之前的代表性方法
EmbodiedOcc++	RGB	54.90	46.20	增强版
RoboOcc	RGB	56.48	47.67	之前SOTA
SplatSSC	RGB	62.83	51.83	大幅领先

IoU提升6.35%（绝对值），mIoU提升4.16%。在所有语义类别上均有一致提升。

消融实验¶

组件消融：

GMF	聚合器	IoU↑	mIoU↑	说明
✗	GF.agg	11.64	12.62	无GMF+原始聚合近乎失败
✗	GF2.agg	27.54	17.27	无GMF+PGS聚合
✗	DGA	48.85	36.91	无GMF但有DGA仍有效
✓	GF.agg	16.63	10.45	GMF+原始聚合仍差
✓	GF2.agg	57.70	45.13	GMF+PGS
✓	DGA	60.61	48.01	完整方法最优

高斯参数消融：

基元数量	尺度范围	内存(MiB)	延迟(ms)	IoU	mIoU
19200	[0.01,0.08]	3.122	135.18	62.77	47.69
4800	[0.01,0.08]	3.158	123.27	62.23	47.20
1200	[0.01,0.16]	3.112	115.56	61.47	48.87
19200	[0.01,0.32]	14.380	134.51	OOM	—

仅用1200个基元即可达到最高mIoU，比19200个基元更优且大幅减少计算量。

关键发现¶

DGA比GF2.agg在IoU和mIoU上均高出约2.8%，证明floaters是稀疏溅射的关键瓶颈
GMF模块对性能影响巨大——去除后即使有DGA也会降低11%+
仅1200个基元+适中尺度范围[0.01,0.16]为最优配置
显式深度损失在Stage 2反而有害，概率尺度损失更合适
效率优势显著：相比EmbodiedOcc延迟降低9.32%，内存降低9.64%

亮点与洞察¶

PGS缺陷的精确数学分析：对GaussianFormer-2聚合器中不透明度被归一化抵消的问题给出了严谨证明，非常有说服力
解耦设计的优雅性：将几何占用和语义预测完全分解，不透明度仅在几何路径中起门控作用，是一个自然且原则性的解决方案
少即是多：1200个深度引导的基元优于19200个随机基元，直观展示了初始化质量的重要性
GCA的效率设计：组共享注意力权重实现了参数和计算的大幅节省
概率尺度损失的渐进设计：对不同编码器层施加不同权重的监督，适应了逐层精化的特点

局限与展望¶

目前仅在室内场景（Occ-ScanNet）上评估，未验证室外场景（如nuScenes）
依赖冻结的Depth-Anything-V2，深度先验的质量上限受限
1200个基元可能不够应对大规模或极其复杂的场景
未讨论时序一致性（连续帧间的占用预测一致性）
GCA中的分组数 $G$ 等超参的敏感性未详细分析

评分¶

新颖性: ⭐⭐⭐⭐ — PGS缺陷分析和DGA解耦设计新颖且有深度
实验充分度: ⭐⭐⭐⭐ — 详尽的消融实验，但数据集限于室内
写作质量: ⭐⭐⭐⭐⭐ — 问题分析严谨，数学推导清晰，方法动机充分
实用价值: ⭐⭐⭐⭐ — 室内3D场景理解的重要进展，对具身智能有直接价值