Motion4D: Learning 3D-Consistent Motion and Semantics for 4D Scene Understanding¶
会议: NeurIPS 2025
arXiv: 2512.03601
代码: GitHub
领域: 3D视觉
关键词: 4D场景理解, 3D高斯溅射, 运动估计, 语义分割, 视频对象分割
一句话总结¶
Motion4D提出了一个统一的4D高斯溅射框架,通过迭代优化策略将2D基础模型的先验(语义掩码、点追踪、深度)融入3D表示,实现了时空一致的运动和语义建模,在视频对象分割、点追踪和新视角合成任务上显著超越了现有方法。
研究背景与动机¶
近年来,2D视觉基础模型(如SAM2、Track Any Point、Depth Anything)在单帧处理上取得了令人瞩目的成果,但这些模型本质上缺乏3D一致性。在实际动态场景中,SAM2等模型经常出现空间错位(spatial misalignment)和时间闪烁(temporal flickering),因为它们依赖逐帧处理,缺少显式的3D推理能力。
现有将2D模型提升到3D的方法主要面临两个问题:
大多方法仅适用于静态场景:通过多视角分割融合到3DGS/NeRF中,但无法处理动态环境中的运动复杂性和遮挡问题。
语义与运动的解耦建模:现有动态方法(如Semantic Flow、SADG)要么独立于3D模型学习特征场,要么将语义理解和运动估计分开处理,导致缺乏一致性。
Motion4D的核心动机是:构建一个统一的动态表示,从单目视频中同时建模运动和语义,通过迭代优化策略让2D先验和3D表示相互增强。
方法详解¶
整体框架¶
Motion4D采用两阶段迭代优化框架: - 顺序优化(Sequential Optimization):在短时间窗口内依次更新运动场和语义场,维持局部一致性 - 全局优化(Global Optimization):联合优化所有属性以确保长期连贯性
输入为一段带有位姿的RGB视频 \(\{I_t\}\),以及由2D预训练模型生成的先验:对象掩码 \(\mathbf{M}_t\)、2D点轨迹 \(\mathbf{U}_{t \to t'}\)、单目深度 \(\mathbf{D}_t\)。目标是估计时空一致的语义 \(\hat{\mathbf{M}}_t\) 和运动 \(\{\hat{\mathbf{U}}_{t \to t'}, \hat{\mathbf{D}}_t\}\)。
关键设计¶
-
4D场景理解表示:在标准3DGS基础上,扩展了运动场和语义场。运动场通过一组全局运动基 \(\{\hat{\mathbf{T}}_b^{0 \to t}\}_{b=1}^{B}\) 和每个高斯的系数 \(w_i^b\) 来建模刚性变换,将canonical帧变换到目标帧:\(\mathbf{T}_i^{0 \to t} = \sum_{b=0}^{B} w_i^b \hat{\mathbf{T}}_b^{0 \to t}\)。语义场则直接嵌入到每个高斯上,通过与颜色类似的体渲染方式生成逐像素语义特征。这种设计使几何、运动和语义在同一表示中联合建模。
-
迭代运动精炼(Iterative Motion Refinement):核心创新在于引入3D置信度图和自适应重采样。由于2D追踪网络不支持交互式修正,Motion4D通过为每个高斯添加不确定性场 \(u_i \in \mathbb{R}\),渲染出逐像素的置信权重 \(w(p)\),对追踪损失和深度损失进行加权监督:\(\mathcal{L}_{\text{track}} = \frac{1}{|I_t|} \sum_{p \in I_t} w(p) \|\hat{\mathbf{U}}_{t \to t'}(p) - \mathbf{U}_{t \to t'}(p)\|\)。置信权重的真值通过颜色和语义的时间自一致性来评估——若像素在不同帧之间的颜色和语义都一致,则置信度高。此外,自适应重采样通过计算RGB误差 \(e_{\text{rgb}}(p)\) 和语义误差 \(e_{\text{sem}}(p)\),在误差超过阈值的区域采样新的2D点、投影到3D并初始化新的高斯,有效恢复了运动估计不准确导致的模糊或缺失区域。
-
迭代语义精炼(Iterative Semantic Refinement):利用SAM2的可提示特性,在每次迭代中将3D渲染的语义掩码 \(\hat{\mathbf{M}}_t^s\) 与上一轮的2D掩码 \(\mathbf{M}_t^{s-1}\) 进行对比,找出不匹配区域。然后为每个对象生成额外的提示:(1) 3D掩码的精确边界框;(2) 在最大距离变换值处放置正/负提示点。值得注意的是,故意避免直接使用3D掩码作为提示输入,因为SAM2倾向于严格遵循掩码输入,从而限制了其修正能力。3D掩码提供更强的一致性,而SAM2擅长保持高分辨率细节,二者互补。
损失函数 / 训练策略¶
总损失函数为多项加权和:
训练分为三个阶段: - Stage 1(顺序-运动):在短时间窗口内优化运动场,每个窗口 \(\mathcal{S}_i = \{I_t \mid t \in [iL, (i+1)L)\}\) 内应用迭代运动精炼 - Stage 2(顺序-语义):固定运动场,优化语义场并通过迭代精炼更新SAM2的输入 - Stage 3(全局):联合训练所有场,覆盖全部视频帧,确保跨场的一致性和连贯性
顺序优化至关重要,因为2D网络依赖短期记忆,容易随时间累积误差(如SAM2在初始帧准确但逐渐跟丢)。
实验关键数据¶
主实验¶
视频对象分割结果(DyCheck-VOS和DAVIS):
| 方法 | 表示 | DyCheck-VOS \(\mathcal{J}\&\mathcal{F}\) | DAVIS \(\mathcal{J}\&\mathcal{F}\) |
|---|---|---|---|
| SAM2 | 2D | 89.4 | 90.7 |
| SADG | 3D + SAM2 | 81.8 | 75.0 |
| Semantic Flow | 3D + SAM2 | 76.9 | 72.2 |
| Motion4D | 3D + SAM2 | 91.0 | 89.7 |
| Motion4D + SAM2 | 3D + SAM2 | 91.7 | 90.8 |
2D点追踪结果(DyCheck数据集):
| 方法 | AJ ↑ | \(<\delta_{\text{avg}}\) ↑ | OA ↑ |
|---|---|---|---|
| CoTracker3 | 31.0 | 44.4 | 79.9 |
| Shape of Motion | 34.4 | 47.0 | 86.6 |
| Motion4D | 37.3 | 50.4 | 87.1 |
3D点追踪与新视角合成(DyCheck):
| 方法 | EPE ↓ | \(\delta_{3D}^{.05}\) ↑ | PSNR ↑ |
|---|---|---|---|
| Shape of Motion | 0.082 | 43.0 | 16.72 |
| Motion4D | 0.072 | 46.7 | 17.91 |
消融实验¶
| 配置 | \(\mathcal{J}\&\mathcal{F}\) ↑ | AJ ↑ | OA ↑ | 说明 |
|---|---|---|---|---|
| 完整模型 | 91.7 | 37.3 | 87.1 | 全部组件 |
| 无迭代精炼 | 87.6 | 34.6 | 86.5 | 不更新2D先验 |
| 无自适应采样 | 88.9 | 35.1 | 84.2 | 不基于误差密集化 |
| 全序列初始化 | 88.0 | 34.9 | 87.0 | 不用顺序优化 |
| 无全局优化 | 90.3 | 36.5 | 86.6 | 仅用顺序更新 |
关键发现¶
- 迭代精炼对分割和追踪性能都至关重要,移除后 \(\mathcal{J}\&\mathcal{F}\) 下降4.1
- 自适应采样主要提升运动一致性(OA下降2.9),帮助恢复运动估计不足的区域
- 顺序优化防止2D先验的长期误差累积,对稳定训练很关键
- 全局优化进一步提升跨时间段的一致性
亮点与洞察¶
- 2D与3D互补增强的闭环设计:3D表示提供一致性约束,2D基础模型提供丰富细节先验,通过迭代优化形成正反馈循环
- 置信度加权机制巧妙地解决了2D追踪先验无法直接修正的问题,通过自一致性指标自动抑制噪声监督
- 提出了DyCheck-VOS基准,填补了动态场景中VOS评估的空白
- 该方法是第一个在动态场景中同时显著超越2D基础模型和3D方法的工作
局限与展望¶
- 依赖底层3D重建质量:严重遮挡、低纹理区域或不准确深度估计会影响性能
- 需要已知的相机位姿作为输入
- 运动场假设刚性变换的加权组合,对高度非刚性运动的建模可能受限
- 计算开销较大:多阶段优化+迭代精炼的流程耗时
相关工作与启发¶
- Shape of Motion是最接近的3D方法,Motion4D在其基础上增加了语义场和迭代精炼
- SAM2的可提示特性使得语义场的迭代精炼成为可能,这种设计思路可扩展到其他可提示模型
- 置信度加权+自适应采样的思路对其他需要融合噪声先验的任务有借鉴意义
评分¶
- 新颖性: ⭐⭐⭐⭐ 将多种2D先验统一融入4DGS并设计闭环迭代精炼,思路清晰且有效
- 实验充分度: ⭐⭐⭐⭐⭐ 三个任务、多个数据集、完整消融,还提出了新benchmark
- 写作质量: ⭐⭐⭐⭐ 方法描述清晰,图表丰富
- 价值: ⭐⭐⭐⭐ 为动态场景理解提供了统一框架,具有较强实用性