跳转至

Motion4D: Learning 3D-Consistent Motion and Semantics for 4D Scene Understanding

会议: NeurIPS 2025
arXiv: 2512.03601
代码: GitHub
领域: 3D视觉
关键词: 4D场景理解, 3D高斯溅射, 运动估计, 语义分割, 视频对象分割

一句话总结

Motion4D提出了一个统一的4D高斯溅射框架,通过迭代优化策略将2D基础模型的先验(语义掩码、点追踪、深度)融入3D表示,实现了时空一致的运动和语义建模,在视频对象分割、点追踪和新视角合成任务上显著超越了现有方法。

研究背景与动机

近年来,2D视觉基础模型(如SAM2、Track Any Point、Depth Anything)在单帧处理上取得了令人瞩目的成果,但这些模型本质上缺乏3D一致性。在实际动态场景中,SAM2等模型经常出现空间错位(spatial misalignment)和时间闪烁(temporal flickering),因为它们依赖逐帧处理,缺少显式的3D推理能力。

现有将2D模型提升到3D的方法主要面临两个问题:

大多方法仅适用于静态场景:通过多视角分割融合到3DGS/NeRF中,但无法处理动态环境中的运动复杂性和遮挡问题。

语义与运动的解耦建模:现有动态方法(如Semantic Flow、SADG)要么独立于3D模型学习特征场,要么将语义理解和运动估计分开处理,导致缺乏一致性。

Motion4D的核心动机是:构建一个统一的动态表示,从单目视频中同时建模运动和语义,通过迭代优化策略让2D先验和3D表示相互增强。

方法详解

整体框架

Motion4D采用两阶段迭代优化框架: - 顺序优化(Sequential Optimization):在短时间窗口内依次更新运动场和语义场,维持局部一致性 - 全局优化(Global Optimization):联合优化所有属性以确保长期连贯性

输入为一段带有位姿的RGB视频 \(\{I_t\}\),以及由2D预训练模型生成的先验:对象掩码 \(\mathbf{M}_t\)、2D点轨迹 \(\mathbf{U}_{t \to t'}\)、单目深度 \(\mathbf{D}_t\)。目标是估计时空一致的语义 \(\hat{\mathbf{M}}_t\) 和运动 \(\{\hat{\mathbf{U}}_{t \to t'}, \hat{\mathbf{D}}_t\}\)

关键设计

  1. 4D场景理解表示:在标准3DGS基础上,扩展了运动场和语义场。运动场通过一组全局运动基 \(\{\hat{\mathbf{T}}_b^{0 \to t}\}_{b=1}^{B}\) 和每个高斯的系数 \(w_i^b\) 来建模刚性变换,将canonical帧变换到目标帧:\(\mathbf{T}_i^{0 \to t} = \sum_{b=0}^{B} w_i^b \hat{\mathbf{T}}_b^{0 \to t}\)。语义场则直接嵌入到每个高斯上,通过与颜色类似的体渲染方式生成逐像素语义特征。这种设计使几何、运动和语义在同一表示中联合建模。

  2. 迭代运动精炼(Iterative Motion Refinement):核心创新在于引入3D置信度图和自适应重采样。由于2D追踪网络不支持交互式修正,Motion4D通过为每个高斯添加不确定性场 \(u_i \in \mathbb{R}\),渲染出逐像素的置信权重 \(w(p)\),对追踪损失和深度损失进行加权监督:\(\mathcal{L}_{\text{track}} = \frac{1}{|I_t|} \sum_{p \in I_t} w(p) \|\hat{\mathbf{U}}_{t \to t'}(p) - \mathbf{U}_{t \to t'}(p)\|\)。置信权重的真值通过颜色和语义的时间自一致性来评估——若像素在不同帧之间的颜色和语义都一致,则置信度高。此外,自适应重采样通过计算RGB误差 \(e_{\text{rgb}}(p)\) 和语义误差 \(e_{\text{sem}}(p)\),在误差超过阈值的区域采样新的2D点、投影到3D并初始化新的高斯,有效恢复了运动估计不准确导致的模糊或缺失区域。

  3. 迭代语义精炼(Iterative Semantic Refinement):利用SAM2的可提示特性,在每次迭代中将3D渲染的语义掩码 \(\hat{\mathbf{M}}_t^s\) 与上一轮的2D掩码 \(\mathbf{M}_t^{s-1}\) 进行对比,找出不匹配区域。然后为每个对象生成额外的提示:(1) 3D掩码的精确边界框;(2) 在最大距离变换值处放置正/负提示点。值得注意的是,故意避免直接使用3D掩码作为提示输入,因为SAM2倾向于严格遵循掩码输入,从而限制了其修正能力。3D掩码提供更强的一致性,而SAM2擅长保持高分辨率细节,二者互补。

损失函数 / 训练策略

总损失函数为多项加权和:

\[\mathcal{L} = \lambda_{\text{rgb}} L_{\text{rgb}} + \lambda_{\text{sem}} L_{\text{sem}} + \lambda_{\text{track}} L_{\text{track}} + \lambda_{\text{depth}} L_{\text{depth}} + \lambda_w L_w\]

训练分为三个阶段: - Stage 1(顺序-运动):在短时间窗口内优化运动场,每个窗口 \(\mathcal{S}_i = \{I_t \mid t \in [iL, (i+1)L)\}\) 内应用迭代运动精炼 - Stage 2(顺序-语义):固定运动场,优化语义场并通过迭代精炼更新SAM2的输入 - Stage 3(全局):联合训练所有场,覆盖全部视频帧,确保跨场的一致性和连贯性

顺序优化至关重要,因为2D网络依赖短期记忆,容易随时间累积误差(如SAM2在初始帧准确但逐渐跟丢)。

实验关键数据

主实验

视频对象分割结果(DyCheck-VOS和DAVIS):

方法 表示 DyCheck-VOS \(\mathcal{J}\&\mathcal{F}\) DAVIS \(\mathcal{J}\&\mathcal{F}\)
SAM2 2D 89.4 90.7
SADG 3D + SAM2 81.8 75.0
Semantic Flow 3D + SAM2 76.9 72.2
Motion4D 3D + SAM2 91.0 89.7
Motion4D + SAM2 3D + SAM2 91.7 90.8

2D点追踪结果(DyCheck数据集):

方法 AJ ↑ \(<\delta_{\text{avg}}\) OA ↑
CoTracker3 31.0 44.4 79.9
Shape of Motion 34.4 47.0 86.6
Motion4D 37.3 50.4 87.1

3D点追踪与新视角合成(DyCheck):

方法 EPE ↓ \(\delta_{3D}^{.05}\) PSNR ↑
Shape of Motion 0.082 43.0 16.72
Motion4D 0.072 46.7 17.91

消融实验

配置 \(\mathcal{J}\&\mathcal{F}\) AJ ↑ OA ↑ 说明
完整模型 91.7 37.3 87.1 全部组件
无迭代精炼 87.6 34.6 86.5 不更新2D先验
无自适应采样 88.9 35.1 84.2 不基于误差密集化
全序列初始化 88.0 34.9 87.0 不用顺序优化
无全局优化 90.3 36.5 86.6 仅用顺序更新

关键发现

  • 迭代精炼对分割和追踪性能都至关重要,移除后 \(\mathcal{J}\&\mathcal{F}\) 下降4.1
  • 自适应采样主要提升运动一致性(OA下降2.9),帮助恢复运动估计不足的区域
  • 顺序优化防止2D先验的长期误差累积,对稳定训练很关键
  • 全局优化进一步提升跨时间段的一致性

亮点与洞察

  • 2D与3D互补增强的闭环设计:3D表示提供一致性约束,2D基础模型提供丰富细节先验,通过迭代优化形成正反馈循环
  • 置信度加权机制巧妙地解决了2D追踪先验无法直接修正的问题,通过自一致性指标自动抑制噪声监督
  • 提出了DyCheck-VOS基准,填补了动态场景中VOS评估的空白
  • 该方法是第一个在动态场景中同时显著超越2D基础模型和3D方法的工作

局限与展望

  • 依赖底层3D重建质量:严重遮挡、低纹理区域或不准确深度估计会影响性能
  • 需要已知的相机位姿作为输入
  • 运动场假设刚性变换的加权组合,对高度非刚性运动的建模可能受限
  • 计算开销较大:多阶段优化+迭代精炼的流程耗时

相关工作与启发

  • Shape of Motion是最接近的3D方法,Motion4D在其基础上增加了语义场和迭代精炼
  • SAM2的可提示特性使得语义场的迭代精炼成为可能,这种设计思路可扩展到其他可提示模型
  • 置信度加权+自适应采样的思路对其他需要融合噪声先验的任务有借鉴意义

评分

  • 新颖性: ⭐⭐⭐⭐ 将多种2D先验统一融入4DGS并设计闭环迭代精炼,思路清晰且有效
  • 实验充分度: ⭐⭐⭐⭐⭐ 三个任务、多个数据集、完整消融,还提出了新benchmark
  • 写作质量: ⭐⭐⭐⭐ 方法描述清晰,图表丰富
  • 价值: ⭐⭐⭐⭐ 为动态场景理解提供了统一框架,具有较强实用性