Layered Motion Fusion: Lifting Motion Segmentation to 3D in Egocentric Videos¶

会议: CVPR 2025
arXiv: 2506.05546
代码: 无
领域: 3D视觉 / 视频理解
关键词: 动态场景分割, 神经辐射场, 第一人称视频, 运动分割融合, 测试时精修

一句话总结¶

本文提出 Layered Motion Fusion（LMF），将 2D 运动分割模型的预测融合到分层神经辐射场的动态和半静态层中，结合测试时精修策略，首次证明 3D 方法能在第一人称视频的动态目标分割中超越 2D 基线，动态目标分割 mAP 提升 30.5%。

研究背景与动机¶

领域现状：3D 技术（如 NeRF）在静态场景的语义融合方面已取得显著进展——Semantic NeRF、N3F、LERF 等将 2D 语义/特征蒸馏到 3D 重建中实现多视角一致的语义标签。但这些方法都假设场景是静态的。
现有痛点：EPIC Fields 的系统性研究表明，在第一人称视频（相机剧烈运动 + 场景本身动态）中，3D 方法的动态目标分割反而不如 2D 基线（Motion Grouping）。这意味着 3D 融合的经典优势（去噪、多视角一致性）在动态场景中失效了。
核心矛盾：长时间、高复杂度的第一人称视频使得 3D 模型难以完整捕获场景几何结构。没有准确的几何作为载体，运动线索就无法被有效融合到 3D 表示中。
本文目标 (1) 如何将 2D 运动分割的预测有效融合到动态 NeRF 的分层表示中？(2) 如何克服长视频中场景过于复杂导致几何建模不足的问题？
切入角度：作者观察到 2D 运动分割虽然不完整（只检测部分运动像素），但其精度高（标记的像素确实是运动的），类似于"稀疏但准确"的标签——这正是 Semantic NeRF 能有效处理的输入类型。同时，将运动信息同时融合到动态层（正向）和半静态层（负向反约束）可以产生协同效应。
核心 idea：通过正向运动融合（PMF）和负向运动融合（NMF）将 2D 运动分割蒸馏到分层 NeRF 的动态和半静态层中，并用测试时精修聚焦特定帧以缓解几何建模不足的问题。

方法详解¶

整体框架¶

输入一段第一人称视频和对应的 2D 运动分割 mask（来自 Motion Grouping），以及已训练的分层 NeRF（含静态层、半静态层、动态层）。方法分两部分：(1) Layered Motion Fusion（LMF）在训练/精修时将运动 mask 融合到半静态和动态层中——PMF 拉动动态层学习运动区域，NMF 惩罚半静态层在运动区域的预测；(2) Test-time Refinement（TR）在测试时将模型聚焦于选定帧子集进行微调，降低数据复杂度，使几何建模更精确。两者形成协同效应：更好的几何 → 更有效的融合 → 更准确的分割。

关键设计¶

正向运动融合（Positive Motion Fusion, PMF）:
- 功能：将 2D 运动分割 mask 作为伪标签融合到动态层中
- 核心思路：为动态层的每个 3D 点定义伪颜色 \(\mathbf{p}_{\text{dy}} = (0,0,1)\)，通过体渲染方程渲染出动态层的"mask 图" \(\hat{M}_{\text{dy}}(\mathbf{u},t)\)。该 mask 值本质上是动态层在该像素处的不透明度占比 \(m_{\text{dy}}(\mathbf{x},t) = \sigma_{\text{dy}} / \sigma\)。PMF 损失为 \(\mathcal{L}_{\text{PMF}} = \lambda_{\text{PMF}} \frac{1}{|\Omega|} \sum_{\mathbf{u}} \|\hat{M}_{\text{dy}}(\mathbf{u},t) - M(\mathbf{u},t)\|^2\)，直接将 2D 动态 mask 作为目标监督动态层。
- 设计动机：Motion Grouping 虽然不完整但精度高，动态层可以通过 3D 一致性填补缺失部分（如被遮挡的运动区域）。这与 Semantic NeRF 融合稀疏标签的原理相同。
负向运动融合（Negative Motion Fusion, NMF）:
- 功能：利用运动 mask 约束半静态层，防止其错误地"吸收"动态内容
- 核心思路：类似地渲染半静态层的 mask 图 \(\hat{M}_{\text{ss}}(\mathbf{u},t)\)，其中 \(m_{\text{ss}}(\mathbf{x},t) = \sigma_{\text{ss}} / \sigma\)。将 2D 运动 mask 二值化后选出动态像素集合 \(\bar{\Omega}\)。NMF 损失为 \(\mathcal{L}_{\text{NMF}} = \lambda_{\text{NMF}} \frac{1}{|\bar{\Omega}|} \sum_{\mathbf{u} \in \bar{\Omega}} \|\hat{M}_{\text{ss}}(\mathbf{u},t)\|^2\)，即在动态像素位置将半静态层的响应推向零。
- 设计动机：分层 NeRF 中半静态层和动态层存在竞争——如果没有明确约束，半静态层可能"偷取"动态内容导致误分割。NMF 用 2D 运动信息作为负样本约束，去除这种歧义。实验表明 NMF 还能意外提升半静态分割质量（+8.4%）。
测试时精修（Test-time Refinement, TR）:
- 功能：聚焦于用户选定的帧子集微调模型，提升局部几何质量
- 核心思路：给定需要分析的帧集合 \(\mathcal{T}\)，冻结静态层参数 \(W_{\text{st}}\)，仅优化半静态和动态层的参数 \((W_{\text{ss}}^*, W_{\text{dy}}^*) = \arg\min \sum_{t \in \mathcal{T}} \mathcal{L}(W_{\text{st}}, W_{\text{ss}}, W_{\text{dy}}; I_t, M_t, t)\)。可以额外采样每帧临近 \(N\) 帧（形成 \(\mathcal{T}_N\)）提供时序上下文。冻结静态层是因为它不包含运动信息。
- 设计动机：长视频中场景变化极大，模型需要用有限容量覆盖全部帧的几何，导致局部几何质量不足。TR 通过缩小优化目标让模型专注于局部帧，显著提升几何精度。精修约 22 分钟/100 帧（~13s/帧），渲染 ~5s/帧。

损失函数 / 训练策略¶

总损失 \(\mathcal{L} = \mathcal{L}_{\text{rgb}} + \mathcal{L}_{\text{PMF}} + \mathcal{L}_{\text{NMF}}\)
RGB 损失使用自校准鲁棒损失（含学习的不确定性 \(B\)），形式为加权 MSE + 不确定性正则
\(\lambda_{\text{PMF}} = 1.1\), \(\lambda_{\text{NMF}} = 1.0\)
基础模型沿用 NeuralDiff 的预训练设置（20 epochs, lr=5e-4, cosine annealing, RTX A4000）

实验关键数据¶

主实验¶

方法	3D	2D融合	Dyn mAP ↑	SS mAP ↑	Dyn+SS mAP ↑
Motion Grouping (MG)	✗	✓	64.27	12.78	55.53
NeRF-W	✓	✗	28.52	20.97	45.62
NeRF-T	✓	✗	44.27	24.48	64.91
NeuralDiff (ND)	✓	✗	55.58	25.55	69.74
ND + TR + LMF（本文）	✓	✓	72.51	27.70	74.21

相对 NeuralDiff：动态分割 +30.5%，半静态 +8.4%，联合 +6.4%。关键突破：首次 3D 方法超越 2D 基线 MG（72.51 vs 64.27），解决了 EPIC Fields 提出的开放问题。

跨架构泛化¶

基础方法	Dyn mAP	加 TR+PMF 后	提升
NeRF-W	28.52	34.20	+19.9%
NeRF-T	44.27	51.11	+15.4%
NeuralDiff	55.58	67.23	+20.9%

LMF 方法可以一致性地提升三种不同 NeRF 架构的动态分割性能。

关键发现¶

PMF 和 NMF 的协同效应：PMF 提升动态分割，NMF 提升半静态分割，两者共同作用优于任一单独使用
TR 对动态分割提升约 10.6%（仅 5 场景子集），LMF 再叠加后进一步提升
增加邻居帧数量 \(N\) 对 TR 的改善边际递减：\(N=0\) 时效果已很好，\(N=2\) 或 \(N=5\) 时提升微弱
冻结静态层是 TR 中的关键决策——静态层不含运动信息，微调它反而可能损害几何基础
方法对不同 3D 架构具有通用性（NeRF-W、NeRF-T、NeuralDiff 上均有效）

亮点与洞察¶

分层正负融合的巧妙设计：PMF 拉升动态层、NMF 压制半静态层的互补策略，直觉简单但效果显著，特别是产生了意料之外的半静态分割提升
测试时精修的根本洞察深刻：长视频中 3D 模型的瓶颈不是方法设计而是几何容量不足。通过缩小优化目标帧集来"聚焦"模型的想法，类似于考试前突击复习重点内容
首次证明 3D 能超越 2D 做动态分割回答了 EPIC Fields 提出的开放问题，为 3D 视觉处理动态场景提供了信心
伪标签融合的"稀疏但精确"范式可迁移到其他需要 2D→3D 蒸馏的动态场景任务

局限与展望¶

依赖 Motion Grouping 的 2D 输出质量——如果 2D 模型预测完全错误，融合反而引入噪声
TR 需要对每组测试帧单独微调（~13s/帧），无法用于实时应用
实验仅在 EPIC Fields benchmark 上评估，场景类型限于厨房环境
未探索更高效的 3D 表示（如 3D Gaussian Splatting），现有 NeRF 的训练和渲染速度是实际部署的瓶颈
NMF 的二值化阈值和 \(\lambda\) 设置可能需要对不同场景调优

评分¶

新颖性: ⭐⭐⭐⭐ 分层正负运动融合的设计新颖且直觉简洁，测试时精修策略有效
实验充分度: ⭐⭐⭐⭐ EPIC Fields benchmark 评估全面，跨架构泛化和消融充分，但场景类型有限
写作质量: ⭐⭐⭐⭐ 动机推理清晰，方法公式化表述严谨
价值: ⭐⭐⭐⭐ 解决了 3D 动态分割领域的一个重要开放问题，具有方向性意义