HAIF-GS: Hierarchical and Induced Flow-Guided Gaussian Splatting for Dynamic Scene¶
会议: NeurIPS 2025
arXiv: 2506.09518
代码: 待确认
领域: 3D视觉
关键词: 动态场景重建, 3D高斯溅射, 运动锚点, 场景流, 分层变形
一句话总结¶
HAIF-GS 提出基于稀疏运动锚点的动态 3DGS 框架,通过锚点过滤器区分动静区域、自监督诱导场景流引导时序一致变形、以及分层锚点加密捕捉精细非刚性运动,在 NeRF-DS 和 D-NeRF 基准上取得 SOTA 渲染质量。
研究背景与动机¶
领域现状:3D 高斯溅射(3DGS)在静态场景中实现了实时高质量渲染。将其扩展到动态场景,主流方法是学习变形场来预测高斯参数随时间的变化(如位置、旋转等)。
现有痛点: - 冗余高斯更新:直接为每个高斯预测变形(如 Deformable 3DGS)需要在每个时间步查询和更新大量高斯,计算冗余严重。 - 运动监督不足:训练仅依赖图像重建损失,缺乏显式的运动引导或结构约束,导致时序不一致和伪影。 - 非刚性建模能力弱:稀疏控制点方法(如 SC-GS)通过插值驱动高斯运动提高了效率,但简单的 MLP 变形场难以捕捉关节运动和空间变化的复杂变形。
核心矛盾:效率(稀疏表示)和表达力(精细变形)之间的权衡。稀疏控制点高效但表达力不足,密集逐高斯变形表达力强但冗余。
本文目标 (1) 如何高效地聚焦于真正需要变形建模的区域?(2) 如何在无外部流监督的情况下提升时序一致性?(3) 如何在保持稀疏性的同时捕捉精细非刚性变形?
切入角度:以稀疏运动锚点为核心变形单元,引入动静分解过滤非必要更新,用自监督场景流提供隐式运动指导,通过分层加密在运动复杂区域增加锚点分辨率。
核心 idea:稀疏锚点 + 动态过滤 + 诱导流引导 + 分层加密 = 高效且精细的动态场景变形建模。
方法详解¶
整体框架¶
输入为单目视频序列及相机位姿。在规范空间中通过最远点采样初始化稀疏运动锚点集 \(\mathcal{A} = \{(x_i, \rho_i)\}_{i=1}^{M}\)。Pipeline 为:(1) 锚点过滤器预测动态置信度,筛选运动相关锚点;(2) 诱导流引导变形模块聚合多帧特征预测锚点时空变换;(3) 分层锚点加密在运动复杂区域增加锚点密度并逐层传播变换;(4) 通过空间插值将锚点变换传递到各高斯,渲染得到图像。
关键设计¶
-
稀疏运动锚点与动静分解:
- 功能:用少量锚点代替逐高斯变形,并区分动静区域避免冗余计算。
- 核心思路:锚点通过最远点采样初始化,每个锚点有位置 \(x_i\) 和影响范围 \(\rho_i\)。高斯 \(g_j\) 从其 K 近邻锚点聚合变换,权重为归一化高斯核:\(\omega_{ij} = \frac{\exp(-\|\mu_j - x_i\|^2 / \rho_i^2)}{\sum_{x_k \in \mathcal{A}_j} \exp(-\|\mu_j - x_k\|^2 / \rho_k^2)}\)。锚点过滤器(轻量 MLP)根据位置和时间编码预测动态置信度 \(\alpha_i \in [0,1]\),训练分两阶段:先用软权重调制让梯度传播,再硬阈值只保留动态锚点。
- 设计动机:静态背景不需要变形建模。显式分解避免了对静态区域的无用计算,同时让变形学习聚焦在真正有运动的地方。
-
诱导流引导变形 (IFGD):
- 功能:在无外部光流标签的情况下,通过多帧特征聚合隐式诱导场景流,增强时序一致性。
- 核心思路:
- 诱导流 MLP 预测前向/后向场景流 \((\bm{F}^{t-1}, \bm{F}^{t+1}) = \text{MLP}_{\text{flow}}(x, t)\)。
- 构建三个时间偏移查询:\(q_{t-1} = (x + \bm{F}^{t-1}, t-1)\),\(q_t = (x, t)\),\(q_{t+1} = (x + \bm{F}^{t+1}, t+1)\)。
- 变形 MLP 将每个查询映射为特征嵌入,加权融合得到时序一致特征:\(\tilde{\bm{f}^t} = \lambda \bm{f}^{t-1} + (1-2\lambda) \bm{f}^t + \lambda \bm{f}^{t+1}\)(\(\lambda=0.25\))。
- 多个独立变换头从融合特征预测旋转 \(\Delta R_i^t\) 和平移 \(\Delta T_i^t\)。
- 设计动机:仅用重建损失训练缺乏运动结构约束。诱导流在联合优化中自然收敛到一致的运动模式,无需外部流标签就能提供隐式运动监督。
-
分层锚点加密 (HAD):
- 功能:在运动复杂区域自适应增加锚点密度,形成多尺度层级结构捕捉精细变形。
- 核心思路:计算每个锚点在随机采样的 \(N_t=16\) 个时间步上的平移方差 \(var(a_i) = \frac{1}{N_t} \sum_t \|\Delta T_i^t - \overline{\Delta T_i}\|_2^2\)。方差超过阈值 \(\tau\) 的锚点被标记为需要细化,通过带小偏移的复制产生子锚点。子锚点编码自身位置、时间和父级平移,实现跨层运动传播。各层共享变形 MLP,但使用层特定的特征提取器。
- 设计动机:全局稀疏锚点难以捕捉手指运动等精细非刚性变形。分层结构只在需要的地方增加分辨率,避免全局锚点过多增加的计算开销。
损失函数 / 训练策略¶
总损失为:\(\mathcal{L} = \lambda \mathcal{L}_1 + (1-\lambda) \mathcal{L}_{\text{D-SSIM}} + \lambda_1 \mathcal{L}_{\text{cycle}} + \lambda_2 \mathcal{L}_{\text{entropy}} + \lambda_3 \mathcal{L}_{\text{sparsity}}\)
- 循环一致性损失 \(\mathcal{L}_{\text{cycle}}\):前向流 + 反向流应回到原位,鼓励双向一致的运动模式。
- 稀疏性损失 \(\mathcal{L}_{\text{sparsity}} = \mathbb{E}_i[\alpha_i]\):鼓励尽可能少的动态锚点(奥卡姆剃刀原则)。
- 熵损失 \(\mathcal{L}_{\text{entropy}} = \mathbb{E}_i[\alpha_i(1-\alpha_i)]\):惩罚接近 0.5 的不确定置信度,促进二值化决策。
超参设置:\(\lambda=0.8\),\(\lambda_1=0.01\),\(\lambda_2=0.2\),\(\lambda_3=0.5\)。
实验关键数据¶
主实验 — NeRF-DS 数据集(真实世界,480×270)¶
| 场景 | 方法 | PSNR↑ | MS-SSIM↑ | LPIPS↓ |
|---|---|---|---|---|
| Mean | 3DGS | 20.29 | 0.7816 | 0.2920 |
| Mean | HyperNeRF | 23.45 | 0.8488 | 0.1990 |
| Mean | 4DGS | 24.18 | 0.8845 | 0.1405 |
| Mean | SC-GS | 24.05 | 0.8848 | 0.1439 |
| Mean | HAIF-GS | 24.63 | 0.9014 | 0.1342 |
在 7 个场景的平均结果上,HAIF-GS PSNR 超过 4DGS +0.45 dB,MS-SSIM 从 0.8845 提升到 0.9014,LPIPS 从 0.1405 降到 0.1342。
消融实验¶
| 配置 | 关键指标 | 说明 |
|---|---|---|
| Full model (HAIF-GS) | 24.63 PSNR / 0.9014 MS-SSIM | 完整模型 |
| 无锚点过滤器 | PSNR 下降 | 静态区域引入冗余变形扰动 |
| 无诱导流引导 | 时序一致性下降 | 失去隐式运动监督 |
| 无分层加密 | 精细运动区域质量下降 | 如手指、舌头等高动态区域细节丢失 |
| 无循环一致性损失 | 流场一致性差 | 前后向预测不一致 |
关键发现¶
- HAIF-GS 在所有 NeRF-DS 场景上都超越了 SC-GS 和 4DGS,尤其在存在反光和精细运动的场景(如 As、Bell)改善明显。
- 分层锚点加密对非刚性变形区域(如 D-NeRF 的手部动作)贡献最大。
- 诱导流模块虽然不需要外部流标签,但通过循环一致性自监督仍然学到了连贯的运动表示。
亮点与洞察¶
- 诱导流的自监督设计:通过多帧特征聚合"诱导"场景流的产生,无需光流预提取或额外标注,但在联合优化中自然收敛到一致的运动模式。这个设计可以迁移到任何需要运动正则化的变形建模任务。
- 动静分解的简洁实现:一个轻量 MLP 的置信度预测 + 两阶段(软→硬)训练策略,简单有效地将计算聚焦到动态区域。
- 分层加密的按需策略:基于运动方差触发加密,只在真正需要的局部区域增加分辨率,计算开销可控。
局限与展望¶
- 方法假设相机位姿已知,对位姿估计误差的鲁棒性未验证。
- 分层锚点数量和加密阈值需要手动设定,自适应调节可能更优。
- 在极端拓扑变化(如物体出现/消失)的场景中效果未知。
- 诱导流仅利用三帧(\(t-1, t, t+1\)),更长范围的时序信息可能进一步提升一致性。
- 实验仅在 D-NeRF(合成)和 NeRF-DS(真实但规模较小)上评估,缺少大规模真实动态场景验证。
相关工作与启发¶
- vs Deformable 3DGS: 逐高斯的 MLP 变形场计算冗余,HAIF-GS 通过稀疏锚点插值大幅提高效率。
- vs SC-GS: 同样使用稀疏控制点,但 SC-GS 缺少运动监督和分层结构,在精细变形区域表现较差。HAIF-GS 的诱导流和分层加密补齐了这些短板。
- vs 4DGS: 4DGS 使用平面编码建模时变场景,HAIF-GS 通过显式锚点结构 + 分层设计取得了更好的定量结果。
评分¶
- 新颖性: ⭐⭐⭐⭐ 诱导流自监督和分层按需加密都有新意,但整体框架是稀疏控制点的自然延伸
- 实验充分度: ⭐⭐⭐⭐ 标准基准上的全面对比和消融,但缺少大规模场景实验
- 写作质量: ⭐⭐⭐⭐ 框架描述清晰,公式严谨,但部分模块(如分层传播细节)可以更详细
- 价值: ⭐⭐⭐⭐ 对动态 3DGS 的效率和精度均有提升,组件设计可复用性强