Sparse4DGS: 4D Gaussian Splatting for Sparse-Frame Dynamic Scene Reconstruction¶
会议: AAAI 2026
arXiv: 2511.07122
代码: 项目页面
领域: 3D视觉
关键词: 动态场景重建, 4D高斯溅射, 稀疏帧, 纹理感知, 随机梯度朗之万动力学
一句话总结¶
提出 Sparse4DGS,首个面向稀疏帧输入的4D动态场景重建方法,通过纹理感知的变形正则化(TADR)和纹理感知的规范优化(TACO)两大核心模块,引导高斯分布聚焦纹理丰富区域,在仅5-30帧稀疏输入下实现高质量动态新视角合成。
研究背景与动机¶
动态高斯溅射方法在4D场景重建中取得了显著进展,但现有方法如 Deformable3DGS 和 4DGaussians 严重依赖密集帧视频序列(通常需要数百帧)。在真实世界中,由于设备限制(如低帧率摄像头),往往只能获取稀疏帧。
作者发现,当输入帧数从密集降为稀疏时,现有方法在纹理丰富区域出现严重退化。这是因为: 1. 变形空间退化:稀疏输入提供的时间约束不足,导致变形网络在高频纹理区域无法准确建模几何变化 2. 规范空间退化:规范高斯场缺乏足够的监督信号,在纹理复杂区域容易出现几何坍缩
核心直觉是:稀疏帧输入本质上提供了有限的信息,此时高频纹理信号成为丰富细节和动态线索的主要来源。因此,应当引导高斯关注纹理丰富区域,从而更好地建模底层结构。
方法详解¶
整体框架¶
Sparse4DGS 基于规范高斯场+变形网络的动态重建范式。输入稀疏帧序列后: 1. 使用 Sobel 算子提取每帧的2D纹理强度(TI)图 2. 使用单目深度估计器(DPT)获取深度图 3. 将纹理强度嵌入3D高斯属性中 4. 通过 TADR 正则化变形网络 5. 通过 TACO 优化规范高斯场
关键设计¶
1. 纹理强度高斯场(TI Gaussian Field):将纹理丰富度信息嵌入3D高斯¶
首先通过 Sobel 算子计算每个输入 RGB 图像的水平和垂直梯度图 \(TI_x\) 和 \(TI_y\),然后得到逐像素梯度幅值作为纹理强度的显式度量:
为了在3D空间表示纹理丰富度,为每个高斯引入新属性 \(TI\),通过可微光栅化器渲染成纹理图 \(TI_{render}\)。
关键创新:使用皮尔逊相关系数(PCC)而非常规 L1 损失来对齐渲染纹理图与真值纹理图。这是因为 Sobel 算子独立应用于每张图像会导致空间不一致性,而 PCC 关注相对变化率,能有效缓解这一问题:
2. 纹理感知变形正则化(TADR):约束变形网络的几何结构¶
TADR 的核心思想是利用深度图的纹理一致性来约束变形场。传统方法直接对比渲染深度和单目深度的图像级 PCC,但这无法捕获局部深度变化。
TADR 的做法是: - 先用 Sobel 对渲染深度 \(D_{render}\) 和 DPT 深度 \(D_{dpt}\) 分别提取纹理强度图 - 然后对这两个深度纹理图计算 PCC 损失
这种"纹理化"的深度对齐方式更关注局部深度变化的一致性,而非全局深度分布。
3. 纹理感知规范优化(TACO):重构规范高斯的梯度下降过程¶
TACO 基于随机梯度朗之万动力学(SGLD),在每次迭代中引入基于纹理强度的噪声项,驱动高斯向纹理丰富区域收敛:
其中纹理噪声项为: $\(\epsilon_{tex} = \sigma(-k(TI - t)) \cdot \sum \eta\)$
当高斯到达纹理丰富区域时,\(TI\) 值趋近于1,\(\epsilon_{tex}\) 趋近于0,噪声自然停止。这意味着噪声会持续扰动优化过程,直到高斯收敛到纹理丰富区域。\(\epsilon_o\) 则用于减少低不透明度的模糊高斯(floaters)。
损失函数 / 训练策略¶
总训练损失为: $\(L = L_{rgb} + \lambda_1 \cdot L_{tex} + \lambda_2 \cdot L_{tadr}\)$
其中 \(L_{rgb}\) 为标准的 MSE + SSIM 损失。最优超参数为 \(\lambda_1 = \lambda_2 = 0.01\)。
训练过程使用 TACO 替代标准 SGD 更新规范高斯参数。此方法适用于从5 FPS到30 FPS的不同帧率视频。
实验关键数据¶
主实验¶
| 数据集 | 指标 | Sparse4DGS | Deformable3DGS | 4DGaussians | CoRGS | 提升 |
|---|---|---|---|---|---|---|
| NeRF-Synthetic (20帧) | PSNR↑ | 25.31 | 22.65 | 22.47 | 20.15 | +2.66 |
| NeRF-Synthetic (20帧) | SSIM↑ | 0.944 | 0.927 | 0.931 | 0.920 | +0.013 |
| NeRF-DS (20帧) | PSNR↑ | 22.34 | 20.81 | 19.70 | 19.86 | +1.53 |
| NeRF-DS (20帧) | LPIPS↓ | 0.233 | 0.301 | 0.350 | 0.319 | -0.068 |
| HyperNeRF (30帧) | PSNR↑ | 23.91 | 22.41 | 20.64 | 20.50 | +1.50 |
| iPhone-4D (30FPS) | PSNR↑ | 29.81 | 27.01 | 28.79 | 21.58 | +1.02 |
| iPhone-4D (5FPS) | PSNR↑ | 27.51 | 21.12 | 16.37 | 16.81 | +6.39 |
在所有数据集上均大幅领先,尤其在极端稀疏的5FPS场景中,PSNR提升超过6dB。
消融实验¶
| 配置 | PSNR↑ | SSIM↑ | LPIPS↓ | 说明 |
|---|---|---|---|---|
| Baseline(无TADR+TACO) | 20.81 | 0.753 | 0.301 | 基线方法 |
| w/o TADR | 21.89 | 0.792 | 0.245 | 去除变形正则化,PSNR降0.45 |
| w/o TACO | 21.33 | 0.773 | 0.271 | 去除规范优化,PSNR降1.01 |
| 完整方法 | 22.34 | 0.801 | 0.233 | TACO贡献更大 |
| TACO w/o \(\epsilon_o\) | 21.81 | 0.792 | 0.246 | 去除不透明度噪声项 |
| TACO w/o \(\epsilon_{tex}\) | 21.57 | 0.783 | 0.260 | 去除纹理噪声项 |
| \(L_{tex}\) w/o PCC | 21.71 | 0.789 | 0.245 | PCC换L1,降0.6 |
| w/o texture-aware depth | 21.46 | 0.775 | 0.277 | 常规深度正则化 |
关键发现¶
- TACO 的贡献大于 TADR(1.01 vs 0.45 PSNR提升),说明规范空间优化是稀疏帧重建的瓶颈
- PCC 损失相比 L1 损失在纹理嵌入和深度对齐中均有显著优势
- 纹理感知的深度损失相比直接深度 PCC 对齐提升0.88 PSNR
- 在5FPS极端稀疏场景下优势最为显著(+6.39 PSNR)
亮点与洞察¶
- 问题定义新颖:首次定义并系统研究稀疏帧4D动态场景重建问题
- 纹理驱动的优化策略:观察到稀疏帧下退化集中在纹理丰富区域,并基于此设计了完整的解决方案
- SGLD框架的创新应用:将随机梯度朗之万动力学引入动态高斯优化,纹理引导的噪声项设计优雅且有效
- PCC替代L1:在存在空间不一致性的场景中,PCC作为相关性度量比L1更鲁棒
- 真实场景验证:提出 iPhone-4D 数据集,展示了在手机拍摄视频上的实际应用潜力
局限与展望¶
- 当场景中纹理信息极度匮乏时(如纯色墙壁),方法效果可能受限
- 依赖 DPT 单目深度估计器的精度,预训练深度模型的误差会传播
- iPhone-4D 数据集规模较小(仅4个场景),验证范围有限
- 未探索极短序列(如2-3帧)的情况
- TACO 的噪声超参数可能需要针对不同场景调优
相关工作与启发¶
- 动态高斯溅射:Deformable3DGS、4DGaussians 提供了标准的规范场+变形网络框架
- 少样本高斯溅射:DNGaussian 提出深度正则化,CoRGS 改进训练过程,FSGS 解决稀疏初始化
- SGLD在3DGS中的应用:Kheradmand et al. 首次将SGLD引入高斯溅射优化
- 启发:纹理引导的优化思路可推广到其他稀疏输入的3D重建任务
评分¶
- 新颖性: ⭐⭐⭐⭐ — 首个稀疏帧动态重建,纹理感知策略新颖
- 实验充分度: ⭐⭐⭐⭐ — 四个数据集,详尽消融实验
- 写作质量: ⭐⭐⭐⭐ — 动机清晰,方法推导严谨
- 实用价值: ⭐⭐⭐⭐ — 对低帧率视频的动态重建有直接应用价值