LocalDyGS: Multi-view Global Dynamic Scene Modeling via Adaptive Local Implicit Feature Decoupling¶
会议: ICCV 2025
arXiv: 2507.02363
领域: 3D视觉
关键词: 3D高斯溅射, 动态场景重建, 多视角, 局部空间建模, 静态-动态解耦, 时序高斯
一句话总结¶
提出 LocalDyGS——将全局复杂动态场景分解为种子点定义的局部空间、并通过静态-动态特征解耦生成时序高斯来建模各局部运动的框架,首次实现了大尺度复杂动态场景的高质量重建。
研究背景与动机¶
多视角动态场景重建是 3D 视觉的关键问题,应用于自由视点体育直播、AR/VR、游戏等。现有方法面临:
- 变形场方法(4DGaussian):从 canonical 映射到变形场,难处理大尺度运动
- 轨迹跟踪方法(SpaceTimeGS):多项式/傅里叶级数表示轨迹,大规模运动中模糊闪烁
- 在线流式方法(3DGStream):逐帧建模,大范围运动能力有限
- 存储问题:3DGStream 300帧需 1230MB,RealTimeGS 超 1000MB
核心问题:显式跟踪每个高斯点的长期运动在大尺度复杂运动下不可行。
核心思路:将全局动态场景分解为局部空间,每个种子点独立建模短程运动。移动物体被多个种子表示——种子在物体经过时激活,离开后失活。
方法详解¶
整体框架¶
两大组件: 1. 全局→局部空间分解:融合多帧 SfM 点云初始化种子 2. 局部空间时序高斯生成:静态-动态解耦 + MLP 解码
关键设计¶
1. 全局种子初始化
采样 N 帧提取并融合 SfM 点云初始化种子位置 μ。每个种子含: - 位置 μ(全局参数) - 静态特征 f_s ∈ R^64(跨时间步共享,初始化为0) - 局部空间尺度 v ∈ R^3(初始化为3个最近邻种子平均距离)
2. 特征解耦的时空场
- 静态特征 f_s:每个局部空间独立优化,承载大部分场景信息
- 动态残差场 F_d:多分辨率 4D 哈希编码(位置+时间) + 浅层 MLP
- 哈希表 2^17,L个分辨率级拼接后MLP融合
- 输入 (μ, t) ∈ R^4
- 权重场 F_w:预测 w_s, w_d 平衡静态和动态
- 加权特征:f_w = w_s · f_s + w_d · f_d
- 关键发现:动态残差值趋近零,大部分信息由静态特征承载
3. 时序高斯生成
每种子生成 k=10 个时序高斯: - 位置:μ_t = μ + v · F_μ(f_w) - 不透明度:Sigmoid(F_o(f_w, d)),d为相机方向 - 旋转、缩放、颜色通过独立 MLP 解码 - 失活机制:σ < τ_α=0.01 时失活,减少计算量
4. 自适应种子增长(ASG)
- 记录时序高斯在 n 次迭代中的最大 2D 投影梯度及 3D 位置
- ∇_max > τ_g=0.001 时添加新种子
- 3000-15000迭代,每100次执行
损失函数¶
L = (1 - 0.2)·L1 + 0.2·L_SSIM + 0.001·L_v - L_v = Σ Prod(s_t^i):体积正则化,鼓励小尺寸保持局部性 - Adam 优化器,30000 次迭代
实验关键数据¶
N3DV 数据集(21相机,细粒度运动)¶
| 方法 | PSNR↑ | LPIPS↓ | FPS↑ | 时间↓ | 存储↓ |
|---|---|---|---|---|---|
| 4DGaussian | 31.02 | 0.150 | 30 | 0.67h | 90MB |
| SpaceTimeGS | 32.05 | 0.044 | 140 | >5h | 200MB |
| 3DGStream | 31.67 | - | 215 | 1.0h | 1230MB |
| RealTimeGS | 32.01 | 0.055 | 114 | 9.0h | >1000MB |
| LocalDyGS | 32.28 | 0.043 | 105 | 0.58h | 100MB |
MeetRoom 数据集(13相机,稀疏视角)¶
| 方法 | PSNR↑ | 时间↓ | 存储↓ |
|---|---|---|---|
| 3DGS(逐帧) | 31.31 | 13h | 6330MB |
| 3DGStream | 30.79 | 0.6h | 1230MB |
| LocalDyGS | 32.45 | 0.36h | 90MB |
VRU 篮球场(34相机,大尺度复杂运动)¶
| 方法 | PSNR↑ | SSIM↑ | LPIPS↓ |
|---|---|---|---|
| 4DGS | 28.32 | 0.930 | 0.186 |
| SpaceTimeGS | 27.42 | 0.926 | 0.193 |
| LocalDyGS | 30.58 | 0.944 | 0.173 |
超越动态方法 2dB 以上,接近静态 3DGS 上界。
消融实验¶
| 组件 | 效果 |
|---|---|
| ASG 种子增长 | PSNR 31.81→33.02(+1.21dB) |
| 去除静态特征 | 29.46 vs 31.40(-1.94dB) |
| 去除失活 | FPS 89→105,PSNR 几乎不变 |
| N=6 vs N=30 | 性能几乎相同(32.28 vs 32.30) |
| N=1 | 31.84(-0.44dB),覆盖不足 |
| k=5/10/20 | k=10 最优平衡 |
关键发现¶
- 首次成功处理 VRU 篮球场等大尺度动态数据集
- 静态-动态解耦贡献最大(-1.94dB if removed)
- 仅 6 帧 SfM 即可达最优,对初始点云不敏感
- 35 分钟训练(单卡 RTX 3090)
- 100MB/300帧 vs 3DGStream 1230MB
亮点与洞察¶
- 局部分解核心思想:将全局长程跟踪简化为局部短程建模,大尺度动态场景的关键突破
- 静态-动态解耦有效性:动态残差趋近零,解耦大幅降低建模难度
- 极致效率:最优质量+35分钟训练+100MB存储
- 首次大尺度动态场景:VRU篮球场验证实用性
- ScaffoldGS 巧妙动态扩展:继承锚点结构,加入时间维度
- 失活机制类比 MoE:稀疏激活减少计算量
局限性¶
- 依赖多帧 SfM 初始化,快速运动/无纹理区域可能覆盖不足
- 渲染 105 FPS 低于 3DGStream 215 FPS
- 假设相机参数已知且标定准确
- 体积正则可能限制大尺度物体表示
- 4D 哈希编码内存随分辨率增长
相关工作¶
- 静态合成:3DGS 实时渲染;ScaffoldGS 锚点表示
- 变形场方法:4DGaussian canonical→deformation映射
- 轨迹跟踪:SpaceTimeGS 多项式控制
- 流式方法:3DGStream 逐帧在线重建
- 4DGS 扩展:4D空间拟合高斯,高存储高计算
评分¶
- 新颖性: ★★★★☆ — 局部空间分解+特征解耦是动态场景建模新思路
- 技术深度: ★★★★★ — 三个不同运动尺度数据集,消融极详尽
- 实验充分度: ★★★★★ — 定量定性全面,首次大尺度验证
- 实用性: ★★★★★ — 训练快/存储小/质量高/首次大尺度动态
- 总分: 9.0/10