HybridGS: Decoupling Transients and Statics with 2D and 3D Gaussian Splatting¶

会议: CVPR 2025
arXiv: 2412.03844
代码: 有（https://gujiaqivadin.github.io/hybridgs/）
领域: 3D视觉
关键词: 3D高斯溅射, 瞬态物体分离, 混合表示, 新视角合成, 2D高斯

一句话总结¶

HybridGS首次提出混合2D+3D高斯表示，用多视角一致的3D高斯建模静态场景、用单视图独立的2D高斯建模瞬态物体，配合多视角监督和多阶段训练实现了含干扰元素场景下SOTA的新视角合成质量。

研究背景与动机¶

领域现状：3D高斯溅射（3DGS）在新视角合成中取得了优异效果，但通常假设输入图像只包含静态内容。真实场景中随手拍摄的照片经常包含移动的行人、车辆等瞬态物体，直接用这些图像训练3DGS会导致伪影。

现有痛点：(1) 语义歧义——RobustNeRF用鲁棒损失降低不一致观测的权重，NeRF On-the-go用DINOv2特征预测不确定性，SpotLessSplats用语义特征聚类检测异常。但利用视觉模型的语义特征来区分瞬态物体本身就存在歧义（语义相似的物体不一定是瞬态的）。(2) 缺乏显式瞬态建模——这些方法只是降低瞬态物体的影响来重建更好的静态场景，并没有真正建模瞬态物体本身。

核心矛盾：3DGS本质上是为多视角一致的场景设计的，而瞬态物体只在个别视角出现，不满足多视角一致性假设。如果强行用3D高斯拟合瞬态物体，会产生从其他视角看的伪影。

本文目标 (1) 如何从视角一致性的本质出发合理地分离瞬态和静态？(2) 如何显式建模瞬态物体而非仅仅忽略它们？

切入角度：作者的关键观察是——瞬态物体缺乏多视角一致性，通常只在单个视角出现，因此可以将它们视为该视角的平面物体。这意味着3D高斯适合静态场景，2D高斯适合瞬态物体——两者的维度选择恰好对应了它们的视角一致性属性。

核心 idea：用2D高斯建模单视角的瞬态物体、用3D高斯建模多视角一致的静态场景，从视角一致性的几何本质出发自然解耦两者。

方法详解¶

整体框架¶

输入：一组带相机参数的随意拍摄图像（可能包含瞬态物体）。对每个视角，场景被分解为：\(I = M_t \odot I_t + (1-M_t) \odot I_s\)，其中 \(I_s\) 由统一的3D高斯渲染（多视角共享），\(I_t\) 和 \(M_t\)（瞬态掩码）由每个视角独立的2D高斯渲染。训练分三阶段：预热→交替训练→联合训练。输出：分离的静态场景3DGS（用于新视角合成）和每个视角的瞬态分解。

关键设计¶

多视角调控的3D高斯监督（Multi-view Regulated Supervision）:
- 功能：增强3DGS区分瞬态和静态元素的能力，避免过拟合瞬态物体
- 核心思路：与标准3DGS每次迭代只处理单张图像不同，每次随机采样K张图像，先计算K个相机视锥体的交集，只优化落在交集内的3D高斯点。这样做有两个效果：(a) 梯度反传同时考虑多个视角的互信息，使3D高斯倾向于学习跨视角一致的内容；(b) 聚焦在共可见区域优化减少了计算量，因为瞬态物体通常不出现在共可见区域内。该方案在算法层面通过交集视锥体筛选高斯点实现稀疏训练
- 设计动机：多视角联合优化的几何约束天然排斥瞬态物体——瞬态物体只在某一个视角出现，在其他视角没有对应的监督信号，因此不会被共可见区域的多视角梯度所强化
2D高斯瞬态建模（Modeling Transients with 2D Gaussians）:
- 功能：显式建模每个视角的瞬态物体，同时生成瞬态掩码
- 核心思路：为每张训练图像维护一组独立的2D高斯集合。2D高斯参数包括2D中心点 \(\mathbf{x_{2d}} \in \mathbb{R}^2\)、2D协方差矩阵 \(\Sigma_{2d}\)、颜色 \(\mathbf{c_{2d}}\) 和不透明度 \(\alpha_{2d}\)。将2D高斯光栅化为瞬态图像 \(\hat{I}_t\) 和瞬态掩码 \(\hat{M}_t\)——掩码就是不透明度的简单累加 \(\hat{M}_t(\mathbf{y}) = \sum_i \alpha_{2d_i}'\)。当某像素的掩码值接近1表示该位置极可能是瞬态物体。这种设计利用了2D高斯作为图像表示的已有工作（GaussianImage），但用于学习残差图和不确定性
- 设计动机：3DGS建模静态场景后，2D高斯自然学会拟合图像的残差部分——即3DGS无法用多视角一致的方式解释的内容，这正是瞬态物体。2D高斯的不透明度隐式地给出了瞬态区域的概率掩码
多阶段训练策略（Multi-stage Training Scheme）:
- 功能：确保2D和3D高斯训练的稳定收敛和高质量分解
- 核心思路：训练分三阶段：(a) 预热阶段——只训练3DGS捕捉静态场景的基本结构，使用多视角调控监督，用DSSIM+L1损失；(b) 交替训练阶段——交替优化2D和3D高斯：先固定3DGS训练2D高斯学习残差和掩码，再用掩码引导3DGS在非瞬态区域进一步优化，迭代进行；(c) 联合训练阶段——同时优化2D和3D高斯，让分解结果进一步精细化。整体合成通过 \(\hat{I} = \hat{M}_t \odot \hat{I}_t + (1-\hat{M}_t) \odot \hat{I}_s\) 实现
- 设计动机：直接联合训练2D和3D高斯可能导致竞争——两者都试图拟合同一像素。分阶段训练让3DGS先建立静态场景的基础，再让2D高斯在残差空间中工作，避免了分解崩溃

损失函数 / 训练策略¶

预热阶段使用 \(\mathcal{L}_{warmup} = \text{DSSIM} + \text{L1}\)。交替训练和联合训练阶段，最终渲染图像的损失 \(\mathcal{L} = (1-\lambda)\text{L1}(\hat{I}, I) + \lambda\text{DSSIM}(\hat{I}, I)\)。不使用任何额外的语义特征（如DINOv2），完全依赖几何层面的多视角一致性原理实现分离。

实验关键数据¶

主实验（NeRF On-the-go数据集）¶

场景	遮挡程度	指标	3DGS	SLS-mlp	HybridGS
Mountain	低	PSNR↑	19.40	19.84	21.73
Fountain	低	PSNR↑	19.96	20.19	21.11
Corner	中	PSNR↑	20.90	24.03	25.03
Patio	中	PSNR↑	17.48	21.55	21.98
Spot	高	PSNR↑	20.77	23.52	24.33
Patio-High	高	PSNR↑	17.29	20.31	21.77

RobustNeRF数据集¶

场景	指标	RobustNeRF	SLS-mlp	HybridGS
Statue	PSNR/SSIM/LPIPS	20.60/0.76/0.15	22.54/0.84/0.13	22.93/0.87/0.10
Android	PSNR/SSIM/LPIPS	23.28/0.75/0.13	25.05/0.85/0.09	25.15/0.85/0.07
Yoda	PSNR/SSIM/LPIPS	29.78/0.82/0.15	33.66/0.96/0.10	35.32/0.96/0.07
Crab(2)	PSNR/SSIM/LPIPS	-	34.43/- /-	35.17/0.96/0.08

关键发现¶

在所有场景和遮挡级别下，HybridGS都达到SOTA，尤其是LPIPS指标显著优于所有方法，说明渲染质量在感知层面更好
不依赖任何语义特征（DINOv2等）就超越了使用语义特征的SLS-mlp，证明基于几何一致性的分离原理比基于语义的方法更本质
在高遮挡场景（Patio-High）提升更显著（相比3DGS +4.48 PSNR），说明方法在困难场景下优势更大
RobustNeRF的Yoda场景中提升最大（+1.66 PSNR over SLS-mlp），该场景瞬态物体与静态物体语义相似，验证了方法不依赖语义区分的优势
2D高斯生成的瞬态掩码质量较高，能合理地识别行人、车辆等瞬态物体

亮点与洞察¶

从多视角几何一致性的本质出发选择表示维度（2D vs 3D）是一个极其优雅的设计：不需要额外的语义特征或预训练模型，分离能力直接来源于表示本身的几何属性。这比"先检测瞬态再忽略"的范式更根本
多视角调控的视锥体交集策略是一个巧妙且计算高效的设计：既强化了静态元素的多视角约束，又通过限制优化区域降低了计算量
2D高斯既能建模瞬态物体图像又能自然产生瞬态掩码的双重作用，充分利用了表示方法自身的结构特性
该方法可以推广到任何需要分离"一致"与"不一致"信号的场景，如光照变化、天气变化等

局限与展望¶

每张训练图像需要维护独立的2D高斯集合，当训练图像数量很大时存储开销较高
2D高斯对瞬态物体的建模是平面化的——对于具有3D结构的大型瞬态物体（如大型车辆占半个画面），平面假设可能不够
多阶段训练增加了超参数调节的复杂度（各阶段迭代次数比例、K值选择等）
方法假设瞬态物体只在少数视角出现——如果某个物体在大量视角中反复出现（如固定停放的车辆），可能被3DGS错误地作为静态元素建模
可考虑利用视频序列的时序信息进一步区分运动物体和静态物体

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次提出2D+3D混合高斯表示，从多视角一致性的本质出发进行场景分解，理念优雅且新颖
实验充分度: ⭐⭐⭐⭐ 在两个标准数据集上全面评测，与多个baseline对比，但消融实验在论文主体中展示不够详细
写作质量: ⭐⭐⭐⭐ 方法动机和设计思路阐述清晰，整体结构合理
价值: ⭐⭐⭐⭐⭐ 解决了3DGS在真实场景应用中的核心痛点，方法优雅且实用，有望成为含干扰场景3DGS重建的标准方案