Motion4D: Learning 3D-Consistent Motion and Semantics for 4D Scene Understanding¶

会议: NeurIPS 2025
arXiv: 2512.03601
代码: GitHub
领域: 3D视觉
关键词: 4D场景理解, 3D高斯溅射, 运动估计, 语义分割, 视频对象分割

一句话总结¶

Motion4D提出了一个统一的4D高斯溅射框架，通过迭代优化策略将2D基础模型的先验（语义掩码、点追踪、深度）融入3D表示，实现了时空一致的运动和语义建模，在视频对象分割、点追踪和新视角合成任务上显著超越了现有方法。

研究背景与动机¶

近年来，2D视觉基础模型（如SAM2、Track Any Point、Depth Anything）在单帧处理上取得了令人瞩目的成果，但这些模型本质上缺乏3D一致性。在实际动态场景中，SAM2等模型经常出现空间错位（spatial misalignment）和时间闪烁（temporal flickering），因为它们依赖逐帧处理，缺少显式的3D推理能力。

现有将2D模型提升到3D的方法主要面临两个问题：

大多方法仅适用于静态场景：通过多视角分割融合到3DGS/NeRF中，但无法处理动态环境中的运动复杂性和遮挡问题。

语义与运动的解耦建模：现有动态方法（如Semantic Flow、SADG）要么独立于3D模型学习特征场，要么将语义理解和运动估计分开处理，导致缺乏一致性。

Motion4D的核心动机是：构建一个统一的动态表示，从单目视频中同时建模运动和语义，通过迭代优化策略让2D先验和3D表示相互增强。

方法详解¶

整体框架¶

Motion4D采用两阶段迭代优化框架： - 顺序优化（Sequential Optimization）：在短时间窗口内依次更新运动场和语义场，维持局部一致性 - 全局优化（Global Optimization）：联合优化所有属性以确保长期连贯性

输入为一段带有位姿的RGB视频 \(\{I_t\}\)，以及由2D预训练模型生成的先验：对象掩码 \(\mathbf{M}_t\)、2D点轨迹 \(\mathbf{U}_{t \to t'}\)、单目深度 \(\mathbf{D}_t\)。目标是估计时空一致的语义 \(\hat{\mathbf{M}}_t\) 和运动 \(\{\hat{\mathbf{U}}_{t \to t'}, \hat{\mathbf{D}}_t\}\)。

关键设计¶

4D场景理解表示：在标准3DGS基础上，扩展了运动场和语义场。运动场通过一组全局运动基 \(\{\hat{\mathbf{T}}_b^{0 \to t}\}_{b=1}^{B}\) 和每个高斯的系数 \(w_i^b\) 来建模刚性变换，将canonical帧变换到目标帧：\(\mathbf{T}_i^{0 \to t} = \sum_{b=0}^{B} w_i^b \hat{\mathbf{T}}_b^{0 \to t}\)。语义场则直接嵌入到每个高斯上，通过与颜色类似的体渲染方式生成逐像素语义特征。这种设计使几何、运动和语义在同一表示中联合建模。
迭代运动精炼（Iterative Motion Refinement）：核心创新在于引入3D置信度图和自适应重采样。由于2D追踪网络不支持交互式修正，Motion4D通过为每个高斯添加不确定性场 \(u_i \in \mathbb{R}\)，渲染出逐像素的置信权重 \(w(p)\)，对追踪损失和深度损失进行加权监督：\(\mathcal{L}_{\text{track}} = \frac{1}{|I_t|} \sum_{p \in I_t} w(p) \|\hat{\mathbf{U}}_{t \to t'}(p) - \mathbf{U}_{t \to t'}(p)\|\)。置信权重的真值通过颜色和语义的时间自一致性来评估——若像素在不同帧之间的颜色和语义都一致，则置信度高。此外，自适应重采样通过计算RGB误差 \(e_{\text{rgb}}(p)\) 和语义误差 \(e_{\text{sem}}(p)\)，在误差超过阈值的区域采样新的2D点、投影到3D并初始化新的高斯，有效恢复了运动估计不准确导致的模糊或缺失区域。
迭代语义精炼（Iterative Semantic Refinement）：利用SAM2的可提示特性，在每次迭代中将3D渲染的语义掩码 \(\hat{\mathbf{M}}_t^s\) 与上一轮的2D掩码 \(\mathbf{M}_t^{s-1}\) 进行对比，找出不匹配区域。然后为每个对象生成额外的提示：(1) 3D掩码的精确边界框；(2) 在最大距离变换值处放置正/负提示点。值得注意的是，故意避免直接使用3D掩码作为提示输入，因为SAM2倾向于严格遵循掩码输入，从而限制了其修正能力。3D掩码提供更强的一致性，而SAM2擅长保持高分辨率细节，二者互补。

损失函数 / 训练策略¶

总损失函数为多项加权和：

\[\mathcal{L} = \lambda_{\text{rgb}} L_{\text{rgb}} + \lambda_{\text{sem}} L_{\text{sem}} + \lambda_{\text{track}} L_{\text{track}} + \lambda_{\text{depth}} L_{\text{depth}} + \lambda_w L_w\]

训练分为三个阶段： - Stage 1（顺序-运动）：在短时间窗口内优化运动场，每个窗口 \(\mathcal{S}_i = \{I_t \mid t \in [iL, (i+1)L)\}\) 内应用迭代运动精炼 - Stage 2（顺序-语义）：固定运动场，优化语义场并通过迭代精炼更新SAM2的输入 - Stage 3（全局）：联合训练所有场，覆盖全部视频帧，确保跨场的一致性和连贯性

顺序优化至关重要，因为2D网络依赖短期记忆，容易随时间累积误差（如SAM2在初始帧准确但逐渐跟丢）。

实验关键数据¶

主实验¶

视频对象分割结果（DyCheck-VOS和DAVIS）：

方法	表示	DyCheck-VOS \(\mathcal{J}\&\mathcal{F}\)	DAVIS \(\mathcal{J}\&\mathcal{F}\)
SAM2	2D	89.4	90.7
SADG	3D + SAM2	81.8	75.0
Semantic Flow	3D + SAM2	76.9	72.2
Motion4D	3D + SAM2	91.0	89.7
Motion4D + SAM2	3D + SAM2	91.7	90.8

2D点追踪结果（DyCheck数据集）：

方法	AJ ↑	\(<\delta_{\text{avg}}\) ↑	OA ↑
CoTracker3	31.0	44.4	79.9
Shape of Motion	34.4	47.0	86.6
Motion4D	37.3	50.4	87.1

3D点追踪与新视角合成（DyCheck）：

方法	EPE ↓	\(\delta_{3D}^{.05}\) ↑	PSNR ↑
Shape of Motion	0.082	43.0	16.72
Motion4D	0.072	46.7	17.91

消融实验¶

配置	\(\mathcal{J}\&\mathcal{F}\) ↑	AJ ↑	OA ↑	说明
完整模型	91.7	37.3	87.1	全部组件
无迭代精炼	87.6	34.6	86.5	不更新2D先验
无自适应采样	88.9	35.1	84.2	不基于误差密集化
全序列初始化	88.0	34.9	87.0	不用顺序优化
无全局优化	90.3	36.5	86.6	仅用顺序更新

关键发现¶

迭代精炼对分割和追踪性能都至关重要，移除后 \(\mathcal{J}\&\mathcal{F}\) 下降4.1
自适应采样主要提升运动一致性（OA下降2.9），帮助恢复运动估计不足的区域
顺序优化防止2D先验的长期误差累积，对稳定训练很关键
全局优化进一步提升跨时间段的一致性

亮点与洞察¶

2D与3D互补增强的闭环设计：3D表示提供一致性约束，2D基础模型提供丰富细节先验，通过迭代优化形成正反馈循环
置信度加权机制巧妙地解决了2D追踪先验无法直接修正的问题，通过自一致性指标自动抑制噪声监督
提出了DyCheck-VOS基准，填补了动态场景中VOS评估的空白
该方法是第一个在动态场景中同时显著超越2D基础模型和3D方法的工作

局限与展望¶

依赖底层3D重建质量：严重遮挡、低纹理区域或不准确深度估计会影响性能
需要已知的相机位姿作为输入
运动场假设刚性变换的加权组合，对高度非刚性运动的建模可能受限
计算开销较大：多阶段优化+迭代精炼的流程耗时

评分¶

新颖性: ⭐⭐⭐⭐ 将多种2D先验统一融入4DGS并设计闭环迭代精炼，思路清晰且有效
实验充分度: ⭐⭐⭐⭐⭐ 三个任务、多个数据集、完整消融，还提出了新benchmark
写作质量: ⭐⭐⭐⭐ 方法描述清晰，图表丰富
价值: ⭐⭐⭐⭐ 为动态场景理解提供了统一框架，具有较强实用性