MoSca: Dynamic Gaussian Fusion from Casual Videos via 4D Motion Scaffolds¶
会议: CVPR 2025
arXiv: 2405.17421
代码: https://www.cis.upenn.edu/~leijh/projects/mosca
领域: 3D视觉
关键词: 4D reconstruction, dynamic scene, Gaussian splatting, motion scaffold, deformation graph, pose-free
一句话总结¶
提出4D Motion Scaffold (MoSca)表示,通过稀疏6-DoF轨迹图紧凑编码场景运动,结合2D基础模型先验和物理正则化,从无位姿的随手拍单目视频实现全自动4D场景重建。
研究背景与动机¶
领域现状: 动态场景新视角合成是构建AGI数据集、空间计算内容创作和具身智能的关键能力。从单目随手拍视频(最常见的数据格式)进行鲁棒4D重建极具挑战,因为多视角立体线索极为有限。
现有方案的不足: 1. per-frame方法信息量不足:局部深度warp方法在大偏角测试视角下直接失败,出现大面积缺失区域 2. 局部时序融合方法(如PGDVS、Gaussian Marbles)仅融合小时间窗口,遮挡区域无法补全 3. 密集Gaussian方法(如4D-GS)依赖强多视角立体线索,在单目随手拍场景中失效 4. 形变表示过于自由: 大多数方法用MLP学习形变场,解空间过大,优化容易退化 5. 依赖外部位姿估计: 多数方法需要COLMAP预估相机位姿,而COLMAP在动态场景中常失败
核心动机: 利用2D基础模型强先验 + 物理启发的低秩运动表示,将全时序观测全局融合,构建从无位姿RGB视频到可渲染4D场景的全自动系统。
方法详解¶
整体框架¶
四步系统流水线: 1. 2D基础模型推断: 获取深度估计、长期2D轨迹、前/背景分离 2. 相机初始化: 基于静态tracklet的bundle adjustment求解焦距和位姿 3. MoSca几何优化: 将2D先验提升到3D,用ARAP正则化优化运动图 4. 光度优化: 将全时步Gaussian融合到查询时刻,通过Gaussian Splatting渲染优化
关键设计¶
模块一:Motion Scaffold (MoSca) 形变表示¶
核心创新——用稀疏结构化轨迹图编码运动: - 图节点 \(v^{(m)}\): 每个节点是一条6-DoF轨迹 \([Q_1^{(m)}, ..., Q_T^{(m)}]\),加控制半径 \(r^{(m)}\) - 图拓扑: 使用curve distance(轨迹最大时空距离)构建KNN图,自然处理拓扑变化(如开门不连接门和墙) - 形变插值: Dual Quaternion Blending (DQB) 在SE(3)流形上插值多个刚体变换,避免线性蒙皮的伪影 - 权重计算: RBF核函数 \(w_i(x,t) = \exp(-\|x - t_{t}^{(i)}\|^2 / 2r^{(i)})\)
MoSca节点数M远少于点数N(如Tab.7),利用了真实运动低秩光滑的物理先验。
模块二:2D基础模型先验融合与相机求解¶
- 深度: 使用预训练单目深度估计(如Metric3D、DepthAnything)
- 长期轨迹: 使用BootsTAPIR/CoTracker获取稠密2D像素轨迹
- 动静分割: 通过RAFT光流计算的极线误差图分离前/背景
- 相机BA: 筛选极线误差低的静态轨迹,联合优化相机位姿和焦距,包含反投影误差\(\mathcal{L}_{proj}\)和scale-invariant深度对齐损失\(\mathcal{L}_z\)
模块三:全局Gaussian融合与渲染¶
- 全时步融合: 从所有时步back-project的depth点初始化Gaussian,通过MoSca形变场变换到查询时刻后融合
- 可学习蒙皮修正: 每个Gaussian学习额外skinning weight修正 \(\Delta w_j\)
- Node Control: 类似3DGS的densification/pruning策略——高tracking-loss梯度区域增加节点,低贡献节点剪枝
损失函数¶
Bundle Adjustment: \(\mathcal{L}_{BA} = \lambda_{proj}\mathcal{L}_{proj} + \lambda_z\mathcal{L}_z\)
几何优化: \(\mathcal{L}_{geo} = \lambda_{arap}\mathcal{L}_{arap} + \lambda_{acc}\mathcal{L}_{acc} + \lambda_{vel}\mathcal{L}_{vel}\) - ARAP损失:保持邻居间局部距离和局部坐标不变 - 速度/加速度正则化:确保时序平滑
光度优化: \(\mathcal{L} = \lambda_{rgb}\mathcal{L}_{rgb} + \lambda_{dep}\mathcal{L}_{dep} + \lambda_{track}\mathcal{L}_{track} + \lambda_{arap}\mathcal{L}_{arap} + \lambda_{acc}\mathcal{L}_{acc} + \lambda_{vel}\mathcal{L}_{vel}\)
其中 \(\mathcal{L}_{track}\) 通过渲染XYZ坐标图监督2D轨迹一致性。
实验关键数据¶
主实验表¶
DyCheck数据集(最具挑战,7个场景平均):
| 方法 | 位姿 | mPSNR↑ | mSSIM↑ | mLPIPS↓ |
|---|---|---|---|---|
| HyperNeRF | 已知 | 16.81 | 0.569 | 0.332 |
| Shape-of-Motion | 已知 | 17.32 | 0.598 | 0.296 |
| MoSca | 已知 | 19.32 | 0.706 | 0.264 |
| RobustDynRF | 未知 | 17.10 | 0.534 | 0.517 |
| MoSca | 未知 | 18.84 | 0.676 | 0.289 |
| MoSca (w/ focal) | 未知 | 19.02 | 0.683 | 0.279 |
NVIDIA数据集: PSNR 26.72, LPIPS 0.070,超越所有对比方法。
相机位姿精度: Sintel ATE 0.090(超越DROID-SLAM、MonST3R),TUM-dynamics ATE 0.031(SOTA)。
消融表¶
| 组件 | mPSNR | mSSIM | mLPIPS |
|---|---|---|---|
| Full model | 19.32 | 0.706 | 0.264 |
| No geometric optimization | 18.85 | 0.693 | 0.287 |
| No multi-level topology | 19.14 | 0.701 | 0.270 |
| No dual quaternion blending | 19.18 | 0.701 | 0.276 |
| Only fuse 4 neighboring frames | 16.96 | 0.663 | 0.344 |
| Only fuse 8 neighboring frames | 17.26 | 0.664 | 0.346 |
关键发现¶
- 全局融合至关重要: 仅融合4帧邻域 vs 全时序,mPSNR差距2.36 dB,验证全局聚合的核心价值
- 几何优化阶段贡献显著(+0.47 dB),ARAP先验有效传播运动信息到遮挡区域
- DQB优于线性蒙皮: 在SE(3)流形上插值避免了线性混合的退化
- 对应关系追踪: 重建后的MoSca追踪精度(PCK-T 0.824)超越原始BootsTAPIR(0.779),说明优化改善了初始先验
- 无位姿设置仅损失约0.5 dB,系统对未知相机参数具有鲁棒性
亮点与洞察¶
- 物理先验 + 学习先验的优雅结合: MoSca的ARAP正则化编码"刚性为主"的运动先验,2D基础模型提供初始化——两者互补
- 全时序全局融合: 不同于per-frame或滑窗方法,真正实现跨所有帧的信息聚合,单帧遮挡区域可从其他帧补全
- 系统完整性: 从原始RGB视频到可渲染4D场景的全自动流水线,不需COLMAP或任何外部工具
- In-the-wild泛化: 在电影片段、网络视频、SORA生成视频上均可工作
局限性¶
- MoSca节点初始化依赖2D trackers的质量,严重遮挡或快速运动可能导致tracklet断裂
- 静态/动态分割基于极线误差阈值,对相机运动极小的场景(如监控视频)可能失效
- 运行时间未报告,多步pipeline可能较慢
- 未处理动态光照变化和反射表面等复杂光学现象
相关工作与启发¶
- Gaussian Marbles: 类似思路但使用无结构的per-Gaussian运动,只做局部融合→MoSca用结构图实现全局融合
- Shape-of-Motion: 同期重要工作,MoSca在DyCheck上显著领先(+2.0 dB)
- Embedded Deformation Graph: 经典形变图方法,MoSca的核心创新在于将其与2D基础模型先验和Gaussian Splatting融合
- 启发: 此方向可进一步探索将语言先验引入动态场景重建(如结合SAM分割实现语义4D重建)
评分¶
⭐⭐⭐⭐⭐ — 方法设计优雅(物理先验+基础模型),系统完备度极高(pose-free全自动),实验结果领先幅度大(mPSNR +2.0 dB),in-the-wild泛化性强,是动态场景重建领域的重要突破。