跳转至

SplatFields: Neural Gaussian Splats for Sparse 3D and 4D Reconstruction

会议: ECCV 2024
arXiv: 2409.11211
代码: https://github.com/markomih/SplatFields
领域: 3D视觉
关键词: 3D高斯溅射, 稀疏视图重建, 隐式神经场正则化, 空间自相关, 动态重建

一句话总结

SplatFields发现3D高斯溅射(3DGS)在稀疏视图设置下的性能瓶颈源于splat特征缺乏空间自相关性,提出通过隐式神经场预测splat特征来引入空间正则化,在静态3D和动态4D的稀疏重建场景中一致提升了重建质量。

研究背景与动机

领域现状:3D Gaussian Splatting因其出色的重建质量、实时渲染能力和对主流工具的兼容性而迅速成为3D/4D重建领域的热门方法。然而3DGS的优异性能建立在大量输入视图(通常数十到数百张)的基础上。在实际应用中,获取大量视图往往成本高昂——这在动态场景捕捉中尤为突出,因为部署大规模相机阵列代价极高。

现有痛点:(1) 3DGS在稀疏视图设置下性能大幅下降,出现严重的过拟合和伪影,因为少量视图提供的监督信号不足以约束数万个自由参数。(2) 现有的3DGS正则化方法(如深度监督、法向量约束)通常针对特定场景设计,缺乏通用性。(3) 3DGS中每个高斯体的属性(位置、颜色、不透明度等)是独立优化的,相邻高斯体之间没有任何信息共享或一致性约束。(4) 这种独立参数化在稀疏视图下极易导致噪声化的、不连续的重建结果。

核心矛盾:3DGS的表达能力很强(每个高斯体有14+个自由参数),这在稠密视图下是优势,但在稀疏视图下变成劣势——过多的自由度导致严重过拟合。

本文目标 (1) 如何在不显著增加计算开销的情况下正则化3DGS的稀疏重建?(2) 如何让相邻高斯体具备空间一致性?(3) 方法是否能同时适用于静态3D和动态4D场景?

切入角度:作者观察到3DGS的splat特征(颜色、不透明度、形状等)在空间上缺乏自相关性——即相邻高斯体的属性可以完全不相关。这与真实场景中物体表面属性通常平滑变化的物理事实相矛盾。通过隐式神经场(以坐标为输入输出splat特征)天然具备的空间连续性来正则化splat属性。

核心 idea:让隐式神经场为高斯体的属性提供空间连续性约束,使稀疏视图下的3DGS重建从"独立参数"变为"场预测"。

方法详解

整体框架

SplatFields在标准3DGS优化流程上增加一个隐式神经场模块。3D高斯体的位置仍然独立优化,但其他属性(球谐系数/颜色、不透明度、缩放、旋转等)通过一个以高斯体位置为输入的神经场来预测。优化过程中,梯度不仅更新高斯体的属性,还反传到神经场的权重中。神经场的连续性自然引入了空间正则化。对于4D场景,位置额外通过时间条件的变形MLP处理。

关键设计

  1. 基于神经场的Splat特征预测(Neural Field Feature Prediction):

    • 功能:为3DGS引入空间自相关性正则化
    • 核心思路:定义一个隐式神经场 \(f_\theta: \mathbb{R}^3 \rightarrow \mathbb{R}^d\),以高斯体的3D位置 \(\mu_i\) 为输入,预测其特征向量(包含颜色/球谐系数、不透明度、缩放和旋转参数)。输入位置通过多分辨率哈希编码(如Instant-NGP风格)映射到特征空间,经小型MLP解码。渲染时仍使用标准的3DGS splatting管线
    • 设计动机:隐式神经场的本质特性是空间连续性——MLP对相近输入给出相近输出。这意味着空间相邻的高斯体将自动获得相似的属性值,从而在稀疏视图下起到正则化效果,防止单个高斯体过拟合少量训练视图
  2. 混合优化策略(Hybrid Optimization):

    • 功能:平衡标准3DGS的灵活性和神经场正则化的约束
    • 核心思路:高斯体的位置参数仍然直接优化(不经过神经场),以保持3DGS的位置调整灵活性。仅属性参数(外观和形状)通过神经场预测。在训练初期使用较强的神经场约束,后期逐渐放松以允许更精细的拟合。可选地在训练后期切换为标准3DGS的直接参数优化以恢复细节
    • 设计动机:位置如果也通过神经场预测会严重限制高斯体的空间分布灵活性,因为密度化/剪枝操作需要直接操作位置。外观属性则天然应该具有空间平滑性
  3. 4D动态场景扩展:

    • 功能:将SplatFields的正则化策略扩展到动态(4D)场景重建
    • 核心思路:在3D静态版本基础上增加时间条件的变形场。每个时间步的高斯体位置通过学习的变形 \(\Delta \mu = g_\phi(\mu, t)\) 进行调整,同时特征神经场也接受时间条件输入 \(f_\theta(\mu + \Delta\mu, t)\)。变形场和特征场共享哈希编码的空间维度
    • 设计动机:动态场景在稀疏相机阵列下的挑战更加严峻——不仅空间视图少,同一时间步的观测也少。时间维度的连续性约束对保持时间一致性至关重要

损失函数 / 训练策略

使用标准的3DGS训练损失(L1 + D-SSIM的加权组合)。关键区别在于梯度通过神经场反传来更新网络权重,从而实现隐式正则化。不需要额外的正则化损失项——正则化完全来自于神经场的架构归纳偏置。哈希编码使用多分辨率配置以捕捉不同尺度的空间变化。训练效率与标准3DGS相当,神经场的额外开销很小。

实验关键数据

主实验

DTU数据集上的稀疏视图重建(3个输入视图):

方法 PSNR↑ SSIM↑ LPIPS↓
3DGS 14.87 0.621 0.387
FSGS 17.21 0.715 0.312
DNGaussian 17.85 0.731 0.295
SplatFields 18.63 0.752 0.271

NeRF Synthetic数据集(8个输入视图):

方法 PSNR↑ SSIM↑ LPIPS↓
3DGS 25.12 0.926 0.054
SplatFields (3DGS) 26.45 0.938 0.043
3DGS + 深度监督 26.21 0.934 0.047
SplatFields + 深度 27.12 0.945 0.038

动态场景(DNA-Rendering数据集,4个相机):

方法 PSNR↑ SSIM↑
4D-GS 28.35 0.945
SplatFields-4D 29.87 0.958

消融实验

配置 PSNR↑ SSIM↑ 说明
标准3DGS 14.87 0.621 无正则化,严重过拟合
+颜色神经场 16.42 0.691 仅颜色通过场预测
+全属性神经场 18.12 0.740 颜色+不透明度+形状
+哈希编码 18.63 0.752 完整SplatFields
+位置也通过场 17.95 0.728 位置约束过强反而降低

关键发现

  • 空间自相关性确实是3DGS稀疏重建的关键瓶颈——单纯增加正则化损失不如从架构层面引入连续性
  • 所有属性(颜色、不透明度、缩放、旋转)都从神经场预测时效果最好,但位置除外
  • SplatFields与其他正则化方法(如深度监督)是互补的,可以叠加使用
  • 在4D场景中提升更加显著——因为稀疏相机+时间维度使得过拟合更严重
  • 神经场的额外计算开销不到10%,性价比极高
  • 在稀疏程度越高时(3视图 vs 8视图),SplatFields相对于基线的优势越大

亮点与洞察

  • 问题诊断精准:从"空间自相关性缺失"的角度分析3DGS稀疏重建的失败原因,而非简单归因于"数据不足"
  • 方法优雅:不是添加显式正则化损失,而是通过神经场的架构归纳偏置隐式实现正则化
  • 3D+4D统一:一套方法无缝适用于静态和动态场景
  • 与已有方法互补:可以叠加在其他3DGS改进方法之上进一步提升

局限与展望

  • 训练后期如果不切换回标准优化,可能限制对高频细节的拟合
  • 神经场的分辨率设置需要根据场景复杂度调整
  • 极端稀疏(1-2视图)时仍无法与专门的单视图重建方法竞争
  • 未探索与3DGS密度控制改进(如Pixel-GS)的组合
  • 可以研究更高效的神经场架构减少额外计算开销

相关工作与启发

  • 3DGS:基础方法,独立参数化每个高斯体
  • Instant-NGP:多分辨率哈希编码的隐式表示
  • DNGaussian:使用深度先验正则化稀疏3DGS
  • FSGS:少视图3DGS的特征感知方法
  • 启发:显式和隐式表示可以互补——用隐式场的连续性正则化显式基元的参数,是一个有前途的混合表示思路

评分

  • 新颖性: ⭐⭐⭐⭐ 从空间自相关性角度诊断问题并用神经场正则化,insight深刻
  • 实验充分度: ⭐⭐⭐⭐ 覆盖多个3D/4D数据集,消融清晰
  • 写作质量: ⭐⭐⭐⭐ 问题动机阐述清楚
  • 价值: ⭐⭐⭐⭐ 通用的正则化策略,对稀疏3DGS社区有重要参考价值