HAIF-GS: Hierarchical and Induced Flow-Guided Gaussian Splatting for Dynamic Scene¶

会议: NeurIPS 2025
arXiv: 2506.09518
代码: 待确认
领域: 3D视觉
关键词: 动态场景重建, 3D高斯溅射, 运动锚点, 场景流, 分层变形

一句话总结¶

HAIF-GS 提出基于稀疏运动锚点的动态 3DGS 框架，通过锚点过滤器区分动静区域、自监督诱导场景流引导时序一致变形、以及分层锚点加密捕捉精细非刚性运动，在 NeRF-DS 和 D-NeRF 基准上取得 SOTA 渲染质量。

研究背景与动机¶

领域现状：3D 高斯溅射（3DGS）在静态场景中实现了实时高质量渲染。将其扩展到动态场景，主流方法是学习变形场来预测高斯参数随时间的变化（如位置、旋转等）。

现有痛点： - 冗余高斯更新：直接为每个高斯预测变形（如 Deformable 3DGS）需要在每个时间步查询和更新大量高斯，计算冗余严重。 - 运动监督不足：训练仅依赖图像重建损失，缺乏显式的运动引导或结构约束，导致时序不一致和伪影。 - 非刚性建模能力弱：稀疏控制点方法（如 SC-GS）通过插值驱动高斯运动提高了效率，但简单的 MLP 变形场难以捕捉关节运动和空间变化的复杂变形。

核心矛盾：效率（稀疏表示）和表达力（精细变形）之间的权衡。稀疏控制点高效但表达力不足，密集逐高斯变形表达力强但冗余。

本文目标 (1) 如何高效地聚焦于真正需要变形建模的区域？(2) 如何在无外部流监督的情况下提升时序一致性？(3) 如何在保持稀疏性的同时捕捉精细非刚性变形？

切入角度：以稀疏运动锚点为核心变形单元，引入动静分解过滤非必要更新，用自监督场景流提供隐式运动指导，通过分层加密在运动复杂区域增加锚点分辨率。

核心 idea：稀疏锚点 + 动态过滤 + 诱导流引导 + 分层加密 = 高效且精细的动态场景变形建模。

方法详解¶

整体框架¶

输入为单目视频序列及相机位姿。在规范空间中通过最远点采样初始化稀疏运动锚点集 \(\mathcal{A} = \{(x_i, \rho_i)\}_{i=1}^{M}\)。Pipeline 为：(1) 锚点过滤器预测动态置信度，筛选运动相关锚点；(2) 诱导流引导变形模块聚合多帧特征预测锚点时空变换；(3) 分层锚点加密在运动复杂区域增加锚点密度并逐层传播变换；(4) 通过空间插值将锚点变换传递到各高斯，渲染得到图像。

关键设计¶

稀疏运动锚点与动静分解:
- 功能：用少量锚点代替逐高斯变形，并区分动静区域避免冗余计算。
- 核心思路：锚点通过最远点采样初始化，每个锚点有位置 \(x_i\) 和影响范围 \(\rho_i\)。高斯 \(g_j\) 从其 K 近邻锚点聚合变换，权重为归一化高斯核：\(\omega_{ij} = \frac{\exp(-\|\mu_j - x_i\|^2 / \rho_i^2)}{\sum_{x_k \in \mathcal{A}_j} \exp(-\|\mu_j - x_k\|^2 / \rho_k^2)}\)。锚点过滤器（轻量 MLP）根据位置和时间编码预测动态置信度 \(\alpha_i \in [0,1]\)，训练分两阶段：先用软权重调制让梯度传播，再硬阈值只保留动态锚点。
- 设计动机：静态背景不需要变形建模。显式分解避免了对静态区域的无用计算，同时让变形学习聚焦在真正有运动的地方。
诱导流引导变形 (IFGD):
- 功能：在无外部光流标签的情况下，通过多帧特征聚合隐式诱导场景流，增强时序一致性。
- 核心思路：
  - 诱导流 MLP 预测前向/后向场景流 \((\bm{F}^{t-1}, \bm{F}^{t+1}) = \text{MLP}_{\text{flow}}(x, t)\)。
  - 构建三个时间偏移查询：\(q_{t-1} = (x + \bm{F}^{t-1}, t-1)\)，\(q_t = (x, t)\)，\(q_{t+1} = (x + \bm{F}^{t+1}, t+1)\)。
  - 变形 MLP 将每个查询映射为特征嵌入，加权融合得到时序一致特征：\(\tilde{\bm{f}^t} = \lambda \bm{f}^{t-1} + (1-2\lambda) \bm{f}^t + \lambda \bm{f}^{t+1}\)（\(\lambda=0.25\)）。
  - 多个独立变换头从融合特征预测旋转 \(\Delta R_i^t\) 和平移 \(\Delta T_i^t\)。
- 设计动机：仅用重建损失训练缺乏运动结构约束。诱导流在联合优化中自然收敛到一致的运动模式，无需外部流标签就能提供隐式运动监督。
分层锚点加密 (HAD):
- 功能：在运动复杂区域自适应增加锚点密度，形成多尺度层级结构捕捉精细变形。
- 核心思路：计算每个锚点在随机采样的 \(N_t=16\) 个时间步上的平移方差 \(var(a_i) = \frac{1}{N_t} \sum_t \|\Delta T_i^t - \overline{\Delta T_i}\|_2^2\)。方差超过阈值 \(\tau\) 的锚点被标记为需要细化，通过带小偏移的复制产生子锚点。子锚点编码自身位置、时间和父级平移，实现跨层运动传播。各层共享变形 MLP，但使用层特定的特征提取器。
- 设计动机：全局稀疏锚点难以捕捉手指运动等精细非刚性变形。分层结构只在需要的地方增加分辨率，避免全局锚点过多增加的计算开销。

损失函数 / 训练策略¶

总损失为：\(\mathcal{L} = \lambda \mathcal{L}_1 + (1-\lambda) \mathcal{L}_{\text{D-SSIM}} + \lambda_1 \mathcal{L}_{\text{cycle}} + \lambda_2 \mathcal{L}_{\text{entropy}} + \lambda_3 \mathcal{L}_{\text{sparsity}}\)

循环一致性损失 \(\mathcal{L}_{\text{cycle}}\)：前向流 + 反向流应回到原位，鼓励双向一致的运动模式。
稀疏性损失 \(\mathcal{L}_{\text{sparsity}} = \mathbb{E}_i[\alpha_i]\)：鼓励尽可能少的动态锚点（奥卡姆剃刀原则）。
熵损失 \(\mathcal{L}_{\text{entropy}} = \mathbb{E}_i[\alpha_i(1-\alpha_i)]\)：惩罚接近 0.5 的不确定置信度，促进二值化决策。

超参设置：\(\lambda=0.8\)，\(\lambda_1=0.01\)，\(\lambda_2=0.2\)，\(\lambda_3=0.5\)。

实验关键数据¶

主实验 — NeRF-DS 数据集（真实世界，480×270）¶

场景	方法	PSNR↑	MS-SSIM↑	LPIPS↓
Mean	3DGS	20.29	0.7816	0.2920
Mean	HyperNeRF	23.45	0.8488	0.1990
Mean	4DGS	24.18	0.8845	0.1405
Mean	SC-GS	24.05	0.8848	0.1439
Mean	HAIF-GS	24.63	0.9014	0.1342

在 7 个场景的平均结果上，HAIF-GS PSNR 超过 4DGS +0.45 dB，MS-SSIM 从 0.8845 提升到 0.9014，LPIPS 从 0.1405 降到 0.1342。

消融实验¶

配置	关键指标	说明
Full model (HAIF-GS)	24.63 PSNR / 0.9014 MS-SSIM	完整模型
无锚点过滤器	PSNR 下降	静态区域引入冗余变形扰动
无诱导流引导	时序一致性下降	失去隐式运动监督
无分层加密	精细运动区域质量下降	如手指、舌头等高动态区域细节丢失
无循环一致性损失	流场一致性差	前后向预测不一致

关键发现¶

HAIF-GS 在所有 NeRF-DS 场景上都超越了 SC-GS 和 4DGS，尤其在存在反光和精细运动的场景（如 As、Bell）改善明显。
分层锚点加密对非刚性变形区域（如 D-NeRF 的手部动作）贡献最大。
诱导流模块虽然不需要外部流标签，但通过循环一致性自监督仍然学到了连贯的运动表示。

亮点与洞察¶

诱导流的自监督设计：通过多帧特征聚合"诱导"场景流的产生，无需光流预提取或额外标注，但在联合优化中自然收敛到一致的运动模式。这个设计可以迁移到任何需要运动正则化的变形建模任务。
动静分解的简洁实现：一个轻量 MLP 的置信度预测 + 两阶段（软→硬）训练策略，简单有效地将计算聚焦到动态区域。
分层加密的按需策略：基于运动方差触发加密，只在真正需要的局部区域增加分辨率，计算开销可控。

局限与展望¶

方法假设相机位姿已知，对位姿估计误差的鲁棒性未验证。
分层锚点数量和加密阈值需要手动设定，自适应调节可能更优。
在极端拓扑变化（如物体出现/消失）的场景中效果未知。
诱导流仅利用三帧（\(t-1, t, t+1\)），更长范围的时序信息可能进一步提升一致性。
实验仅在 D-NeRF（合成）和 NeRF-DS（真实但规模较小）上评估，缺少大规模真实动态场景验证。

评分¶

新颖性: ⭐⭐⭐⭐ 诱导流自监督和分层按需加密都有新意，但整体框架是稀疏控制点的自然延伸
实验充分度: ⭐⭐⭐⭐ 标准基准上的全面对比和消融，但缺少大规模场景实验
写作质量: ⭐⭐⭐⭐ 框架描述清晰，公式严谨，但部分模块（如分层传播细节）可以更详细
价值: ⭐⭐⭐⭐ 对动态 3DGS 的效率和精度均有提升，组件设计可复用性强