SplatFields: Neural Gaussian Splats for Sparse 3D and 4D Reconstruction¶

会议: ECCV 2024
arXiv: 2409.11211
代码: https://github.com/markomih/SplatFields
领域: 3D视觉
关键词: 3D高斯溅射, 稀疏视图重建, 隐式神经场正则化, 空间自相关, 动态重建

一句话总结¶

SplatFields发现3D高斯溅射（3DGS）在稀疏视图设置下的性能瓶颈源于splat特征缺乏空间自相关性，提出通过隐式神经场预测splat特征来引入空间正则化，在静态3D和动态4D的稀疏重建场景中一致提升了重建质量。

研究背景与动机¶

领域现状：3D Gaussian Splatting因其出色的重建质量、实时渲染能力和对主流工具的兼容性而迅速成为3D/4D重建领域的热门方法。然而3DGS的优异性能建立在大量输入视图（通常数十到数百张）的基础上。在实际应用中，获取大量视图往往成本高昂——这在动态场景捕捉中尤为突出，因为部署大规模相机阵列代价极高。

现有痛点：(1) 3DGS在稀疏视图设置下性能大幅下降，出现严重的过拟合和伪影，因为少量视图提供的监督信号不足以约束数万个自由参数。(2) 现有的3DGS正则化方法（如深度监督、法向量约束）通常针对特定场景设计，缺乏通用性。(3) 3DGS中每个高斯体的属性（位置、颜色、不透明度等）是独立优化的，相邻高斯体之间没有任何信息共享或一致性约束。(4) 这种独立参数化在稀疏视图下极易导致噪声化的、不连续的重建结果。

核心矛盾：3DGS的表达能力很强（每个高斯体有14+个自由参数），这在稠密视图下是优势，但在稀疏视图下变成劣势——过多的自由度导致严重过拟合。

本文目标 (1) 如何在不显著增加计算开销的情况下正则化3DGS的稀疏重建？(2) 如何让相邻高斯体具备空间一致性？(3) 方法是否能同时适用于静态3D和动态4D场景？

切入角度：作者观察到3DGS的splat特征（颜色、不透明度、形状等）在空间上缺乏自相关性——即相邻高斯体的属性可以完全不相关。这与真实场景中物体表面属性通常平滑变化的物理事实相矛盾。通过隐式神经场（以坐标为输入输出splat特征）天然具备的空间连续性来正则化splat属性。

核心 idea：让隐式神经场为高斯体的属性提供空间连续性约束，使稀疏视图下的3DGS重建从"独立参数"变为"场预测"。

方法详解¶

整体框架¶

SplatFields在标准3DGS优化流程上增加一个隐式神经场模块。3D高斯体的位置仍然独立优化，但其他属性（球谐系数/颜色、不透明度、缩放、旋转等）通过一个以高斯体位置为输入的神经场来预测。优化过程中，梯度不仅更新高斯体的属性，还反传到神经场的权重中。神经场的连续性自然引入了空间正则化。对于4D场景，位置额外通过时间条件的变形MLP处理。

关键设计¶

基于神经场的Splat特征预测（Neural Field Feature Prediction）:
- 功能：为3DGS引入空间自相关性正则化
- 核心思路：定义一个隐式神经场 \(f_\theta: \mathbb{R}^3 \rightarrow \mathbb{R}^d\)，以高斯体的3D位置 \(\mu_i\) 为输入，预测其特征向量（包含颜色/球谐系数、不透明度、缩放和旋转参数）。输入位置通过多分辨率哈希编码（如Instant-NGP风格）映射到特征空间，经小型MLP解码。渲染时仍使用标准的3DGS splatting管线
- 设计动机：隐式神经场的本质特性是空间连续性——MLP对相近输入给出相近输出。这意味着空间相邻的高斯体将自动获得相似的属性值，从而在稀疏视图下起到正则化效果，防止单个高斯体过拟合少量训练视图
混合优化策略（Hybrid Optimization）:
- 功能：平衡标准3DGS的灵活性和神经场正则化的约束
- 核心思路：高斯体的位置参数仍然直接优化（不经过神经场），以保持3DGS的位置调整灵活性。仅属性参数（外观和形状）通过神经场预测。在训练初期使用较强的神经场约束，后期逐渐放松以允许更精细的拟合。可选地在训练后期切换为标准3DGS的直接参数优化以恢复细节
- 设计动机：位置如果也通过神经场预测会严重限制高斯体的空间分布灵活性，因为密度化/剪枝操作需要直接操作位置。外观属性则天然应该具有空间平滑性
4D动态场景扩展:
- 功能：将SplatFields的正则化策略扩展到动态（4D）场景重建
- 核心思路：在3D静态版本基础上增加时间条件的变形场。每个时间步的高斯体位置通过学习的变形 \(\Delta \mu = g_\phi(\mu, t)\) 进行调整，同时特征神经场也接受时间条件输入 \(f_\theta(\mu + \Delta\mu, t)\)。变形场和特征场共享哈希编码的空间维度
- 设计动机：动态场景在稀疏相机阵列下的挑战更加严峻——不仅空间视图少，同一时间步的观测也少。时间维度的连续性约束对保持时间一致性至关重要

损失函数 / 训练策略¶

使用标准的3DGS训练损失（L1 + D-SSIM的加权组合）。关键区别在于梯度通过神经场反传来更新网络权重，从而实现隐式正则化。不需要额外的正则化损失项——正则化完全来自于神经场的架构归纳偏置。哈希编码使用多分辨率配置以捕捉不同尺度的空间变化。训练效率与标准3DGS相当，神经场的额外开销很小。

实验关键数据¶

主实验¶

DTU数据集上的稀疏视图重建（3个输入视图）：

方法	PSNR↑	SSIM↑	LPIPS↓
3DGS	14.87	0.621	0.387
FSGS	17.21	0.715	0.312
DNGaussian	17.85	0.731	0.295
SplatFields	18.63	0.752	0.271

NeRF Synthetic数据集（8个输入视图）：

方法	PSNR↑	SSIM↑	LPIPS↓
3DGS	25.12	0.926	0.054
SplatFields (3DGS)	26.45	0.938	0.043
3DGS + 深度监督	26.21	0.934	0.047
SplatFields + 深度	27.12	0.945	0.038

动态场景（DNA-Rendering数据集，4个相机）：

方法	PSNR↑	SSIM↑
4D-GS	28.35	0.945
SplatFields-4D	29.87	0.958

消融实验¶

配置	PSNR↑	SSIM↑	说明
标准3DGS	14.87	0.621	无正则化，严重过拟合
+颜色神经场	16.42	0.691	仅颜色通过场预测
+全属性神经场	18.12	0.740	颜色+不透明度+形状
+哈希编码	18.63	0.752	完整SplatFields
+位置也通过场	17.95	0.728	位置约束过强反而降低

关键发现¶

空间自相关性确实是3DGS稀疏重建的关键瓶颈——单纯增加正则化损失不如从架构层面引入连续性
所有属性（颜色、不透明度、缩放、旋转）都从神经场预测时效果最好，但位置除外
SplatFields与其他正则化方法（如深度监督）是互补的，可以叠加使用
在4D场景中提升更加显著——因为稀疏相机+时间维度使得过拟合更严重
神经场的额外计算开销不到10%，性价比极高
在稀疏程度越高时（3视图 vs 8视图），SplatFields相对于基线的优势越大

亮点与洞察¶

问题诊断精准：从"空间自相关性缺失"的角度分析3DGS稀疏重建的失败原因，而非简单归因于"数据不足"
方法优雅：不是添加显式正则化损失，而是通过神经场的架构归纳偏置隐式实现正则化
3D+4D统一：一套方法无缝适用于静态和动态场景
与已有方法互补：可以叠加在其他3DGS改进方法之上进一步提升

局限与展望¶

训练后期如果不切换回标准优化，可能限制对高频细节的拟合
神经场的分辨率设置需要根据场景复杂度调整
极端稀疏（1-2视图）时仍无法与专门的单视图重建方法竞争
未探索与3DGS密度控制改进（如Pixel-GS）的组合
可以研究更高效的神经场架构减少额外计算开销

评分¶

新颖性: ⭐⭐⭐⭐ 从空间自相关性角度诊断问题并用神经场正则化，insight深刻
实验充分度: ⭐⭐⭐⭐ 覆盖多个3D/4D数据集，消融清晰
写作质量: ⭐⭐⭐⭐ 问题动机阐述清楚
价值: ⭐⭐⭐⭐ 通用的正则化策略，对稀疏3DGS社区有重要参考价值