SplatFields: Neural Gaussian Splats for Sparse 3D and 4D Reconstruction¶
会议: ECCV 2024
arXiv: 2409.11211
代码: https://github.com/markomih/SplatFields
领域: 3D视觉
关键词: 3D高斯溅射, 稀疏视图重建, 隐式神经场正则化, 空间自相关, 动态重建
一句话总结¶
SplatFields发现3D高斯溅射(3DGS)在稀疏视图设置下的性能瓶颈源于splat特征缺乏空间自相关性,提出通过隐式神经场预测splat特征来引入空间正则化,在静态3D和动态4D的稀疏重建场景中一致提升了重建质量。
研究背景与动机¶
领域现状:3D Gaussian Splatting因其出色的重建质量、实时渲染能力和对主流工具的兼容性而迅速成为3D/4D重建领域的热门方法。然而3DGS的优异性能建立在大量输入视图(通常数十到数百张)的基础上。在实际应用中,获取大量视图往往成本高昂——这在动态场景捕捉中尤为突出,因为部署大规模相机阵列代价极高。
现有痛点:(1) 3DGS在稀疏视图设置下性能大幅下降,出现严重的过拟合和伪影,因为少量视图提供的监督信号不足以约束数万个自由参数。(2) 现有的3DGS正则化方法(如深度监督、法向量约束)通常针对特定场景设计,缺乏通用性。(3) 3DGS中每个高斯体的属性(位置、颜色、不透明度等)是独立优化的,相邻高斯体之间没有任何信息共享或一致性约束。(4) 这种独立参数化在稀疏视图下极易导致噪声化的、不连续的重建结果。
核心矛盾:3DGS的表达能力很强(每个高斯体有14+个自由参数),这在稠密视图下是优势,但在稀疏视图下变成劣势——过多的自由度导致严重过拟合。
本文目标 (1) 如何在不显著增加计算开销的情况下正则化3DGS的稀疏重建?(2) 如何让相邻高斯体具备空间一致性?(3) 方法是否能同时适用于静态3D和动态4D场景?
切入角度:作者观察到3DGS的splat特征(颜色、不透明度、形状等)在空间上缺乏自相关性——即相邻高斯体的属性可以完全不相关。这与真实场景中物体表面属性通常平滑变化的物理事实相矛盾。通过隐式神经场(以坐标为输入输出splat特征)天然具备的空间连续性来正则化splat属性。
核心 idea:让隐式神经场为高斯体的属性提供空间连续性约束,使稀疏视图下的3DGS重建从"独立参数"变为"场预测"。
方法详解¶
整体框架¶
SplatFields在标准3DGS优化流程上增加一个隐式神经场模块。3D高斯体的位置仍然独立优化,但其他属性(球谐系数/颜色、不透明度、缩放、旋转等)通过一个以高斯体位置为输入的神经场来预测。优化过程中,梯度不仅更新高斯体的属性,还反传到神经场的权重中。神经场的连续性自然引入了空间正则化。对于4D场景,位置额外通过时间条件的变形MLP处理。
关键设计¶
-
基于神经场的Splat特征预测(Neural Field Feature Prediction):
- 功能:为3DGS引入空间自相关性正则化
- 核心思路:定义一个隐式神经场 \(f_\theta: \mathbb{R}^3 \rightarrow \mathbb{R}^d\),以高斯体的3D位置 \(\mu_i\) 为输入,预测其特征向量(包含颜色/球谐系数、不透明度、缩放和旋转参数)。输入位置通过多分辨率哈希编码(如Instant-NGP风格)映射到特征空间,经小型MLP解码。渲染时仍使用标准的3DGS splatting管线
- 设计动机:隐式神经场的本质特性是空间连续性——MLP对相近输入给出相近输出。这意味着空间相邻的高斯体将自动获得相似的属性值,从而在稀疏视图下起到正则化效果,防止单个高斯体过拟合少量训练视图
-
混合优化策略(Hybrid Optimization):
- 功能:平衡标准3DGS的灵活性和神经场正则化的约束
- 核心思路:高斯体的位置参数仍然直接优化(不经过神经场),以保持3DGS的位置调整灵活性。仅属性参数(外观和形状)通过神经场预测。在训练初期使用较强的神经场约束,后期逐渐放松以允许更精细的拟合。可选地在训练后期切换为标准3DGS的直接参数优化以恢复细节
- 设计动机:位置如果也通过神经场预测会严重限制高斯体的空间分布灵活性,因为密度化/剪枝操作需要直接操作位置。外观属性则天然应该具有空间平滑性
-
4D动态场景扩展:
- 功能:将SplatFields的正则化策略扩展到动态(4D)场景重建
- 核心思路:在3D静态版本基础上增加时间条件的变形场。每个时间步的高斯体位置通过学习的变形 \(\Delta \mu = g_\phi(\mu, t)\) 进行调整,同时特征神经场也接受时间条件输入 \(f_\theta(\mu + \Delta\mu, t)\)。变形场和特征场共享哈希编码的空间维度
- 设计动机:动态场景在稀疏相机阵列下的挑战更加严峻——不仅空间视图少,同一时间步的观测也少。时间维度的连续性约束对保持时间一致性至关重要
损失函数 / 训练策略¶
使用标准的3DGS训练损失(L1 + D-SSIM的加权组合)。关键区别在于梯度通过神经场反传来更新网络权重,从而实现隐式正则化。不需要额外的正则化损失项——正则化完全来自于神经场的架构归纳偏置。哈希编码使用多分辨率配置以捕捉不同尺度的空间变化。训练效率与标准3DGS相当,神经场的额外开销很小。
实验关键数据¶
主实验¶
DTU数据集上的稀疏视图重建(3个输入视图):
| 方法 | PSNR↑ | SSIM↑ | LPIPS↓ |
|---|---|---|---|
| 3DGS | 14.87 | 0.621 | 0.387 |
| FSGS | 17.21 | 0.715 | 0.312 |
| DNGaussian | 17.85 | 0.731 | 0.295 |
| SplatFields | 18.63 | 0.752 | 0.271 |
NeRF Synthetic数据集(8个输入视图):
| 方法 | PSNR↑ | SSIM↑ | LPIPS↓ |
|---|---|---|---|
| 3DGS | 25.12 | 0.926 | 0.054 |
| SplatFields (3DGS) | 26.45 | 0.938 | 0.043 |
| 3DGS + 深度监督 | 26.21 | 0.934 | 0.047 |
| SplatFields + 深度 | 27.12 | 0.945 | 0.038 |
动态场景(DNA-Rendering数据集,4个相机):
| 方法 | PSNR↑ | SSIM↑ |
|---|---|---|
| 4D-GS | 28.35 | 0.945 |
| SplatFields-4D | 29.87 | 0.958 |
消融实验¶
| 配置 | PSNR↑ | SSIM↑ | 说明 |
|---|---|---|---|
| 标准3DGS | 14.87 | 0.621 | 无正则化,严重过拟合 |
| +颜色神经场 | 16.42 | 0.691 | 仅颜色通过场预测 |
| +全属性神经场 | 18.12 | 0.740 | 颜色+不透明度+形状 |
| +哈希编码 | 18.63 | 0.752 | 完整SplatFields |
| +位置也通过场 | 17.95 | 0.728 | 位置约束过强反而降低 |
关键发现¶
- 空间自相关性确实是3DGS稀疏重建的关键瓶颈——单纯增加正则化损失不如从架构层面引入连续性
- 所有属性(颜色、不透明度、缩放、旋转)都从神经场预测时效果最好,但位置除外
- SplatFields与其他正则化方法(如深度监督)是互补的,可以叠加使用
- 在4D场景中提升更加显著——因为稀疏相机+时间维度使得过拟合更严重
- 神经场的额外计算开销不到10%,性价比极高
- 在稀疏程度越高时(3视图 vs 8视图),SplatFields相对于基线的优势越大
亮点与洞察¶
- 问题诊断精准:从"空间自相关性缺失"的角度分析3DGS稀疏重建的失败原因,而非简单归因于"数据不足"
- 方法优雅:不是添加显式正则化损失,而是通过神经场的架构归纳偏置隐式实现正则化
- 3D+4D统一:一套方法无缝适用于静态和动态场景
- 与已有方法互补:可以叠加在其他3DGS改进方法之上进一步提升
局限与展望¶
- 训练后期如果不切换回标准优化,可能限制对高频细节的拟合
- 神经场的分辨率设置需要根据场景复杂度调整
- 极端稀疏(1-2视图)时仍无法与专门的单视图重建方法竞争
- 未探索与3DGS密度控制改进(如Pixel-GS)的组合
- 可以研究更高效的神经场架构减少额外计算开销
相关工作与启发¶
- 3DGS:基础方法,独立参数化每个高斯体
- Instant-NGP:多分辨率哈希编码的隐式表示
- DNGaussian:使用深度先验正则化稀疏3DGS
- FSGS:少视图3DGS的特征感知方法
- 启发:显式和隐式表示可以互补——用隐式场的连续性正则化显式基元的参数,是一个有前途的混合表示思路
评分¶
- 新颖性: ⭐⭐⭐⭐ 从空间自相关性角度诊断问题并用神经场正则化,insight深刻
- 实验充分度: ⭐⭐⭐⭐ 覆盖多个3D/4D数据集,消融清晰
- 写作质量: ⭐⭐⭐⭐ 问题动机阐述清楚
- 价值: ⭐⭐⭐⭐ 通用的正则化策略,对稀疏3DGS社区有重要参考价值