HybridGS: Decoupling Transients and Statics with 2D and 3D Gaussian Splatting¶
会议: CVPR 2025
arXiv: 2412.03844
代码: 有(https://gujiaqivadin.github.io/hybridgs/)
领域: 3D视觉
关键词: 3D高斯溅射, 瞬态物体分离, 混合表示, 新视角合成, 2D高斯
一句话总结¶
HybridGS首次提出混合2D+3D高斯表示,用多视角一致的3D高斯建模静态场景、用单视图独立的2D高斯建模瞬态物体,配合多视角监督和多阶段训练实现了含干扰元素场景下SOTA的新视角合成质量。
研究背景与动机¶
领域现状:3D高斯溅射(3DGS)在新视角合成中取得了优异效果,但通常假设输入图像只包含静态内容。真实场景中随手拍摄的照片经常包含移动的行人、车辆等瞬态物体,直接用这些图像训练3DGS会导致伪影。
现有痛点:(1) 语义歧义——RobustNeRF用鲁棒损失降低不一致观测的权重,NeRF On-the-go用DINOv2特征预测不确定性,SpotLessSplats用语义特征聚类检测异常。但利用视觉模型的语义特征来区分瞬态物体本身就存在歧义(语义相似的物体不一定是瞬态的)。(2) 缺乏显式瞬态建模——这些方法只是降低瞬态物体的影响来重建更好的静态场景,并没有真正建模瞬态物体本身。
核心矛盾:3DGS本质上是为多视角一致的场景设计的,而瞬态物体只在个别视角出现,不满足多视角一致性假设。如果强行用3D高斯拟合瞬态物体,会产生从其他视角看的伪影。
本文目标 (1) 如何从视角一致性的本质出发合理地分离瞬态和静态?(2) 如何显式建模瞬态物体而非仅仅忽略它们?
切入角度:作者的关键观察是——瞬态物体缺乏多视角一致性,通常只在单个视角出现,因此可以将它们视为该视角的平面物体。这意味着3D高斯适合静态场景,2D高斯适合瞬态物体——两者的维度选择恰好对应了它们的视角一致性属性。
核心 idea:用2D高斯建模单视角的瞬态物体、用3D高斯建模多视角一致的静态场景,从视角一致性的几何本质出发自然解耦两者。
方法详解¶
整体框架¶
输入:一组带相机参数的随意拍摄图像(可能包含瞬态物体)。对每个视角,场景被分解为:\(I = M_t \odot I_t + (1-M_t) \odot I_s\),其中 \(I_s\) 由统一的3D高斯渲染(多视角共享),\(I_t\) 和 \(M_t\)(瞬态掩码)由每个视角独立的2D高斯渲染。训练分三阶段:预热→交替训练→联合训练。输出:分离的静态场景3DGS(用于新视角合成)和每个视角的瞬态分解。
关键设计¶
-
多视角调控的3D高斯监督(Multi-view Regulated Supervision):
- 功能:增强3DGS区分瞬态和静态元素的能力,避免过拟合瞬态物体
- 核心思路:与标准3DGS每次迭代只处理单张图像不同,每次随机采样K张图像,先计算K个相机视锥体的交集,只优化落在交集内的3D高斯点。这样做有两个效果:(a) 梯度反传同时考虑多个视角的互信息,使3D高斯倾向于学习跨视角一致的内容;(b) 聚焦在共可见区域优化减少了计算量,因为瞬态物体通常不出现在共可见区域内。该方案在算法层面通过交集视锥体筛选高斯点实现稀疏训练
- 设计动机:多视角联合优化的几何约束天然排斥瞬态物体——瞬态物体只在某一个视角出现,在其他视角没有对应的监督信号,因此不会被共可见区域的多视角梯度所强化
-
2D高斯瞬态建模(Modeling Transients with 2D Gaussians):
- 功能:显式建模每个视角的瞬态物体,同时生成瞬态掩码
- 核心思路:为每张训练图像维护一组独立的2D高斯集合。2D高斯参数包括2D中心点 \(\mathbf{x_{2d}} \in \mathbb{R}^2\)、2D协方差矩阵 \(\Sigma_{2d}\)、颜色 \(\mathbf{c_{2d}}\) 和不透明度 \(\alpha_{2d}\)。将2D高斯光栅化为瞬态图像 \(\hat{I}_t\) 和瞬态掩码 \(\hat{M}_t\)——掩码就是不透明度的简单累加 \(\hat{M}_t(\mathbf{y}) = \sum_i \alpha_{2d_i}'\)。当某像素的掩码值接近1表示该位置极可能是瞬态物体。这种设计利用了2D高斯作为图像表示的已有工作(GaussianImage),但用于学习残差图和不确定性
- 设计动机:3DGS建模静态场景后,2D高斯自然学会拟合图像的残差部分——即3DGS无法用多视角一致的方式解释的内容,这正是瞬态物体。2D高斯的不透明度隐式地给出了瞬态区域的概率掩码
-
多阶段训练策略(Multi-stage Training Scheme):
- 功能:确保2D和3D高斯训练的稳定收敛和高质量分解
- 核心思路:训练分三阶段:(a) 预热阶段——只训练3DGS捕捉静态场景的基本结构,使用多视角调控监督,用DSSIM+L1损失;(b) 交替训练阶段——交替优化2D和3D高斯:先固定3DGS训练2D高斯学习残差和掩码,再用掩码引导3DGS在非瞬态区域进一步优化,迭代进行;(c) 联合训练阶段——同时优化2D和3D高斯,让分解结果进一步精细化。整体合成通过 \(\hat{I} = \hat{M}_t \odot \hat{I}_t + (1-\hat{M}_t) \odot \hat{I}_s\) 实现
- 设计动机:直接联合训练2D和3D高斯可能导致竞争——两者都试图拟合同一像素。分阶段训练让3DGS先建立静态场景的基础,再让2D高斯在残差空间中工作,避免了分解崩溃
损失函数 / 训练策略¶
预热阶段使用 \(\mathcal{L}_{warmup} = \text{DSSIM} + \text{L1}\)。交替训练和联合训练阶段,最终渲染图像的损失 \(\mathcal{L} = (1-\lambda)\text{L1}(\hat{I}, I) + \lambda\text{DSSIM}(\hat{I}, I)\)。不使用任何额外的语义特征(如DINOv2),完全依赖几何层面的多视角一致性原理实现分离。
实验关键数据¶
主实验(NeRF On-the-go数据集)¶
| 场景 | 遮挡程度 | 指标 | 3DGS | SLS-mlp | HybridGS |
|---|---|---|---|---|---|
| Mountain | 低 | PSNR↑ | 19.40 | 19.84 | 21.73 |
| Fountain | 低 | PSNR↑ | 19.96 | 20.19 | 21.11 |
| Corner | 中 | PSNR↑ | 20.90 | 24.03 | 25.03 |
| Patio | 中 | PSNR↑ | 17.48 | 21.55 | 21.98 |
| Spot | 高 | PSNR↑ | 20.77 | 23.52 | 24.33 |
| Patio-High | 高 | PSNR↑ | 17.29 | 20.31 | 21.77 |
RobustNeRF数据集¶
| 场景 | 指标 | RobustNeRF | SLS-mlp | HybridGS |
|---|---|---|---|---|
| Statue | PSNR/SSIM/LPIPS | 20.60/0.76/0.15 | 22.54/0.84/0.13 | 22.93/0.87/0.10 |
| Android | PSNR/SSIM/LPIPS | 23.28/0.75/0.13 | 25.05/0.85/0.09 | 25.15/0.85/0.07 |
| Yoda | PSNR/SSIM/LPIPS | 29.78/0.82/0.15 | 33.66/0.96/0.10 | 35.32/0.96/0.07 |
| Crab(2) | PSNR/SSIM/LPIPS | - | 34.43/- /- | 35.17/0.96/0.08 |
关键发现¶
- 在所有场景和遮挡级别下,HybridGS都达到SOTA,尤其是LPIPS指标显著优于所有方法,说明渲染质量在感知层面更好
- 不依赖任何语义特征(DINOv2等)就超越了使用语义特征的SLS-mlp,证明基于几何一致性的分离原理比基于语义的方法更本质
- 在高遮挡场景(Patio-High)提升更显著(相比3DGS +4.48 PSNR),说明方法在困难场景下优势更大
- RobustNeRF的Yoda场景中提升最大(+1.66 PSNR over SLS-mlp),该场景瞬态物体与静态物体语义相似,验证了方法不依赖语义区分的优势
- 2D高斯生成的瞬态掩码质量较高,能合理地识别行人、车辆等瞬态物体
亮点与洞察¶
- 从多视角几何一致性的本质出发选择表示维度(2D vs 3D)是一个极其优雅的设计:不需要额外的语义特征或预训练模型,分离能力直接来源于表示本身的几何属性。这比"先检测瞬态再忽略"的范式更根本
- 多视角调控的视锥体交集策略是一个巧妙且计算高效的设计:既强化了静态元素的多视角约束,又通过限制优化区域降低了计算量
- 2D高斯既能建模瞬态物体图像又能自然产生瞬态掩码的双重作用,充分利用了表示方法自身的结构特性
- 该方法可以推广到任何需要分离"一致"与"不一致"信号的场景,如光照变化、天气变化等
局限与展望¶
- 每张训练图像需要维护独立的2D高斯集合,当训练图像数量很大时存储开销较高
- 2D高斯对瞬态物体的建模是平面化的——对于具有3D结构的大型瞬态物体(如大型车辆占半个画面),平面假设可能不够
- 多阶段训练增加了超参数调节的复杂度(各阶段迭代次数比例、K值选择等)
- 方法假设瞬态物体只在少数视角出现——如果某个物体在大量视角中反复出现(如固定停放的车辆),可能被3DGS错误地作为静态元素建模
- 可考虑利用视频序列的时序信息进一步区分运动物体和静态物体
相关工作与启发¶
- vs RobustNeRF:RobustNeRF用鲁棒损失降低不一致观测的权重,但不建模瞬态物体。HybridGS显式建模瞬态,且不依赖手动设定的鲁棒阈值
- vs NeRF On-the-go:利用DINOv2特征预测不确定性,但语义特征对瞬态的判断存在歧义。HybridGS不使用任何语义特征,纯几何驱动
- vs SpotLessSplats (SLS-mlp):SLS-mlp结合了语义聚类和鲁棒优化,是之前最强的3DGS方法。HybridGS在不使用外部特征的情况下全面超越,证明了"用对表示"比"用对特征"更重要
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 首次提出2D+3D混合高斯表示,从多视角一致性的本质出发进行场景分解,理念优雅且新颖
- 实验充分度: ⭐⭐⭐⭐ 在两个标准数据集上全面评测,与多个baseline对比,但消融实验在论文主体中展示不够详细
- 写作质量: ⭐⭐⭐⭐ 方法动机和设计思路阐述清晰,整体结构合理
- 价值: ⭐⭐⭐⭐⭐ 解决了3DGS在真实场景应用中的核心痛点,方法优雅且实用,有望成为含干扰场景3DGS重建的标准方案