ICCV 2025 3D视觉 3D高斯溅射动态场景重建多视角局部空间建模静态-动态解耦时序高斯

LocalDyGS: Multi-view Global Dynamic Scene Modeling via Adaptive Local Implicit Feature Decoupling¶

会议: ICCV 2025
arXiv: 2507.02363
领域: 3D视觉
关键词: 3D高斯溅射, 动态场景重建, 多视角, 局部空间建模, 静态-动态解耦, 时序高斯

一句话总结¶

提出 LocalDyGS——将全局复杂动态场景分解为种子点定义的局部空间、并通过静态-动态特征解耦生成时序高斯来建模各局部运动的框架，首次实现了大尺度复杂动态场景的高质量重建。

研究背景与动机¶

多视角动态场景重建是 3D 视觉的关键问题，应用于自由视点体育直播、AR/VR、游戏等。现有方法面临：

变形场方法（4DGaussian）：从 canonical 映射到变形场，难处理大尺度运动
轨迹跟踪方法（SpaceTimeGS）：多项式/傅里叶级数表示轨迹，大规模运动中模糊闪烁
在线流式方法（3DGStream）：逐帧建模，大范围运动能力有限
存储问题：3DGStream 300帧需 1230MB，RealTimeGS 超 1000MB

核心问题：显式跟踪每个高斯点的长期运动在大尺度复杂运动下不可行。

核心思路：将全局动态场景分解为局部空间，每个种子点独立建模短程运动。移动物体被多个种子表示——种子在物体经过时激活，离开后失活。

方法详解¶

整体框架¶

两大组件： 1. 全局→局部空间分解：融合多帧 SfM 点云初始化种子 2. 局部空间时序高斯生成：静态-动态解耦 + MLP 解码

关键设计¶

1. 全局种子初始化

采样 N 帧提取并融合 SfM 点云初始化种子位置 μ。每个种子含： - 位置 μ（全局参数） - 静态特征 f_s ∈ R^64（跨时间步共享，初始化为0） - 局部空间尺度 v ∈ R^3（初始化为3个最近邻种子平均距离）

2. 特征解耦的时空场

静态特征 f_s：每个局部空间独立优化，承载大部分场景信息
动态残差场 F_d：多分辨率 4D 哈希编码(位置+时间) + 浅层 MLP
- 哈希表 2^17，L个分辨率级拼接后MLP融合
- 输入 (μ, t) ∈ R^4
权重场 F_w：预测 w_s, w_d 平衡静态和动态
加权特征：f_w = w_s · f_s + w_d · f_d
关键发现：动态残差值趋近零，大部分信息由静态特征承载

3. 时序高斯生成

每种子生成 k=10 个时序高斯： - 位置：μ_t = μ + v · F_μ(f_w) - 不透明度：Sigmoid(F_o(f_w, d))，d为相机方向 - 旋转、缩放、颜色通过独立 MLP 解码 - 失活机制：σ < τ_α=0.01 时失活，减少计算量

4. 自适应种子增长（ASG）

记录时序高斯在 n 次迭代中的最大 2D 投影梯度及 3D 位置
∇_max > τ_g=0.001 时添加新种子
3000-15000迭代，每100次执行

损失函数¶

L = (1 - 0.2)·L1 + 0.2·L_SSIM + 0.001·L_v - L_v = Σ Prod(s_t^i)：体积正则化，鼓励小尺寸保持局部性 - Adam 优化器，30000 次迭代

实验关键数据¶

N3DV 数据集（21相机，细粒度运动）¶

方法	PSNR↑	LPIPS↓	FPS↑	时间↓	存储↓
4DGaussian	31.02	0.150	30	0.67h	90MB
SpaceTimeGS	32.05	0.044	140	>5h	200MB
3DGStream	31.67	-	215	1.0h	1230MB
RealTimeGS	32.01	0.055	114	9.0h	>1000MB
LocalDyGS	32.28	0.043	105	0.58h	100MB

MeetRoom 数据集（13相机，稀疏视角）¶

方法	PSNR↑	时间↓	存储↓
3DGS(逐帧)	31.31	13h	6330MB
3DGStream	30.79	0.6h	1230MB
LocalDyGS	32.45	0.36h	90MB

VRU 篮球场（34相机，大尺度复杂运动）¶

方法	PSNR↑	SSIM↑	LPIPS↓
4DGS	28.32	0.930	0.186
SpaceTimeGS	27.42	0.926	0.193
LocalDyGS	30.58	0.944	0.173

超越动态方法 2dB 以上，接近静态 3DGS 上界。

消融实验¶

组件	效果
ASG 种子增长	PSNR 31.81→33.02（+1.21dB）
去除静态特征	29.46 vs 31.40（-1.94dB）
去除失活	FPS 89→105，PSNR 几乎不变
N=6 vs N=30	性能几乎相同（32.28 vs 32.30）
N=1	31.84（-0.44dB），覆盖不足
k=5/10/20	k=10 最优平衡

关键发现¶

首次成功处理 VRU 篮球场等大尺度动态数据集
静态-动态解耦贡献最大（-1.94dB if removed）
仅 6 帧 SfM 即可达最优，对初始点云不敏感
35 分钟训练（单卡 RTX 3090）
100MB/300帧 vs 3DGStream 1230MB

亮点与洞察¶

局部分解核心思想：将全局长程跟踪简化为局部短程建模，大尺度动态场景的关键突破
静态-动态解耦有效性：动态残差趋近零，解耦大幅降低建模难度
极致效率：最优质量+35分钟训练+100MB存储
首次大尺度动态场景：VRU篮球场验证实用性
ScaffoldGS 巧妙动态扩展：继承锚点结构，加入时间维度
失活机制类比 MoE：稀疏激活减少计算量

局限性¶

依赖多帧 SfM 初始化，快速运动/无纹理区域可能覆盖不足
渲染 105 FPS 低于 3DGStream 215 FPS
假设相机参数已知且标定准确
体积正则可能限制大尺度物体表示
4D 哈希编码内存随分辨率增长

评分¶

新颖性: ★★★★☆ — 局部空间分解+特征解耦是动态场景建模新思路
技术深度: ★★★★★ — 三个不同运动尺度数据集，消融极详尽
实验充分度: ★★★★★ — 定量定性全面，首次大尺度验证
实用性: ★★★★★ — 训练快/存储小/质量高/首次大尺度动态
总分: 9.0/10