Dynamic Point Maps: A Versatile Representation for Dynamic 3D Reconstruction¶
会议: ICCV 2025
arXiv: 2503.16318
代码: 项目页面
领域: 3D视觉
关键词: 动态3D重建, 点图表示, 场景流, 运动分割, DUSt3R
一句话总结¶
提出 Dynamic Point Maps (DPM),将 DUSt3R 的视点不变点图扩展为同时控制视点和时间的时空不变表示,仅通过预测4组点图即可在前馈方式下同时解决深度估计、场景流、运动分割和3D目标跟踪等多种4D任务。
研究背景与动机¶
DUSt3R 的突破在于引入了「视点不变点图」(viewpoint-invariant point maps)概念:给定两张图像,将每个像素映射到统一参考系中的3D点。这一优雅的表示使得相机内外参估计、3D重建、2D匹配等多种任务都可以化约为点图预测。
但DUSt3R无法处理动态场景。 当场景中存在运动物体时,即使固定视点参考系,同一物理点在不同时间的3D位置不同,破坏了视点不变性:\(P_1(\pi_1)(\boldsymbol{u}_1) \neq P_2(\pi_1)(\boldsymbol{u}_2)\)。
MonST3R 的尝试与局限:MonST3R 直接将 DUSt3R 应用于动态场景,但由于缺乏时间不变性,它无法直接预测对应的3D点。不得不借助光流网络来建立时间对应,这不仅增加了系统复杂度,还限制在可见像素范围内,对遮挡和去遮挡处理不当。
作者的核心洞察:动态场景中的不变性需要同时固定视点和时间。 为每张图像预测两组点图——分别对应两个时间戳的3D位置——就能重建时空不变性,同时保留运动信息。这是能够解决所有4D任务的最小设计(minimal design)。
具体来说: - \(P_1(t_1, \pi_1)\), \(P_1(t_2, \pi_1)\):图像1中像素在时间1和时间2的3D位置 - \(P_2(t_1, \pi_1)\), \(P_2(t_2, \pi_1)\):图像2中像素在时间1和时间2的3D位置 - 同一时间戳下的点图恢复不变性:\(P_1(t_1, \pi_1)(\boldsymbol{u}_1) = P_2(t_1, \pi_1)(\boldsymbol{u}_2)\) - 不同时间戳的差直接给出场景流:\(P_1(t_2, \pi_1) - P_1(t_1, \pi_1)\)
方法详解¶
整体框架¶
在 DUSt3R 的 ViT 编码器-解码器基础上,为每张图像增加一个预测头,总共4个头分别预测4组点图 \(P_i(t_j, \pi_1)\),\(i,j \in \{1,2\}\)。每组点图包含3通道坐标和1通道置信度图。所有点图均在第一张图像的参考系 \(\pi_1\) 下表示。
关键设计¶
-
Dynamic Point Maps 表示:
- 功能:为动态场景定义一种最小且完备的点图表示
- 核心思路:每张图像映射到两组点图(对应两个时间戳),共4组。时间不变的点图对可以直接建立跨视角对应(\(P_1(t_1, \pi_1)\) 与 \(P_2(t_1, \pi_1)\) 比较得到点匹配),时间差异的点图对可以直接给出场景流(\(P_i(t_2, \pi_1) - P_i(t_1, \pi_1)\)),静态部分两个时间戳的点图一致即产生运动分割。
- 设计动机:这是 DUSt3R 到4D场景的自然且最小扩展。MonST3R 实际上只预测了4组中的2组(\(P_1(t_1, \pi_1)\) 和 \(P_2(t_2, \pi_1)\)),缺少跨时间的点图因而无法直接推导场景流和运动匹配。DPM 补全了这个设计空间。
-
网络架构扩展:
- 功能:在 DUSt3R Backbone 上增加2个额外预测头
- 核心思路:\(\{P_i(t_j, \pi_1)\}_{i,j \in \{1,2\}} = \Phi(I_1, I_2)\)。4个头共享同一个 Transformer 编码器-解码器 backbone,每个头预测 \((P_i(t_j, \pi_1), C_i(t_j, \pi_1))\)(点图+置信度)。新增的2个头用 DUSt3R 原有头的权重初始化,在训练初期近似静态重建。
- 设计动机:最小化架构修改,充分利用 DUSt3R 的预训练知识。新增2个头但共享backbone,增加的参数量很小。
-
混合数据训练:
- 功能:在合成+真实数据混合上训练 DPM 预测器
- 核心思路:使用 Kubric 管线生成合成数据集 MOVi-G(含复杂相机轨迹和动态物体),提供完整的4组点图 GT。加入 Waymo 真实数据(利用 LiDAR 生成动态点图 GT)。对于无动态GT的数据集,省略跨时间点图的监督或视为静态场景。总共7个数据集混合训练。
- 设计动机:完整的动态GT只有合成数据和LiDAR数据能提供,但混合真实视频数据(即使只有静态监督)有助于泛化。
损失函数 / 训练策略¶
使用置信度校准的回归损失: $\(L_{\text{conf}}(\hat{P}, P) = \frac{1}{HW} \sum_{i=1}^{HW} C_i L_{\text{reg}}(\hat{P}, P, i) - \alpha \log C_i\)$
其中 \(L_{\text{reg}}\) 是尺度归一化的逐像素回归损失,允许预测到任意尺度因子内。4组点图堆叠后统一优化。训练分辨率 \((512, 288)\) 和 \((512, 336)\)。
实验关键数据¶
主实验¶
深度估计(2-View, Abs Rel↓):
| 数据集 | DPM | MonST3R | 提升 |
|---|---|---|---|
| Sintel | 0.321 | 0.347 | 7.5% |
| Point Odyssey | 0.059 | 0.065 | 9.2% |
| Kubric | 0.078 | 0.166 | 53% |
| KITTI (crop) | 0.052 | 0.069 | 24.6% |
动态重建(相对点云误差 \(L_{\text{rel}}\)↓):
| 数据集 | 点图 | DPM | MonST3R |
|---|---|---|---|
| Kubric-G | \(P_1(t_1)\) | 0.057 | 0.163 |
| Kubric-G | \(P_2(t_1)\) (跨时间) | 0.071 | 0.265 |
| Kubric-G | \(P_1(t_2)\) (跨时间) | 0.079 | 0.346 |
| Waymo | \(P_1(t_1)\) | 0.068 | 0.197 |
场景流 3D EPE↓:
| 数据集 | DPM | MonST3R | RAFT-3D (需深度GT) |
|---|---|---|---|
| Kubric-G Forward | 0.104 | 0.334 | 4.067 |
| Waymo Forward | 0.051 | 0.161 | 0.150 |
| Waymo Backward | 0.053 | 0.135 | 0.145 |
消融实验¶
| 配置 | Kubric \(L_{\text{rel}}\) \(P_1(t_1)\)↓ | Kubric \(L_{\text{rel}}\) \(P_1(t_2)\)↓ | 说明 |
|---|---|---|---|
| MonST3R (仅2组点图) | 0.163 | 0.346 | 跨时间预测退化严重 |
| DPM (4组点图) | 0.057 | 0.079 | 跨时间预测稳定 |
| 目标跟踪 RPE rot↓ | DPM: 33.7° | MonST3R: 56.1° | 旋转误差降低40% |
关键发现¶
- DPM 在跨时间预测上远超 MonST3R——Kubric-G 上 \(P_2(t_1)\) 误差降低 73%(0.265→0.071),证明显式建模时间维度的必要性
- 仅用 RGB 输入的 DPM 在 Waymo 场景流上超越需要深度GT的 RAFT-3D(0.051 vs 0.150)
- MonST3R 在 Kubric-G 上场景流 EPE 高达 4.067(RAFT-3D),说明复杂相机运动下2D光流warp方法失效
- DPM 不需要额外光流模型,比 MonST3R 的流程更简洁高效
- 在目标跟踪中旋转误差降低 40%,证明显式的时间不变点图对刚体运动估计的价值
亮点与洞察¶
- 概念层面的贡献:DPM 是一个通用表示概念,不仅是一个具体方法。它明确了动态场景不变性需要「视点+时间」双重控制,这个设计空间分析为后续工作提供了理论基础
- 最小设计原则:4组点图是解决所有4D任务的最小充分集——多种任务(深度、场景流、匹配、分割、跟踪)都化约为简单的点比较或差分运算
- 架构修改极小:仅增加2个头,充分复用 DUSt3R 预训练,说明好的表示设计比复杂的架构改进更重要
- 消除了对光流网络的依赖,使4D重建流程更加统一和简洁
局限与展望¶
- 合成训练数据的依赖:MOVi-G 的物体运动模式有限,可能影响复杂真实场景的泛化
- 成对处理模式:DPM 一次只处理2帧,长序列视频需要 bundle adjustment
- 大物体运动时旋转误差仍然偏高(33.7°),说明跨时间的3D理解仍具挑战
- 目前仅支持 \(T=2\) 个时间戳,扩展到多时间戳将更加通用
- 遮挡/去遮挡区域的处理仍有改进空间
相关工作与启发¶
- DUSt3R / MASt3R:DPM 的直接基础,证明了点图表示的强大通用性 → DPM 将其扩展到4D
- MonST3R:将 DUSt3R 应用于动态场景但不完整 → DPM 补全了表示空间
- CUT3R / Stereo4D:同期工作,各有侧重但未探索完整的不变性设计空间
- Shape of Motion:通过拟合3D高斯轨迹重建动态场景,但需要昂贵的测试时优化 → DPM 是纯前馈方案
- 启发:好的表示设计(而非更大的模型)是3D/4D视觉的关键杠杆
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ DPM 概念优雅,最小设计+多任务解决的思路极具启发性
- 实验充分度: ⭐⭐⭐⭐ 覆盖深度/场景流/目标跟踪多任务,但真实数据评估可更全面
- 写作质量: ⭐⭐⭐⭐⭐ 从不变性分析自然推导出设计,逻辑清晰
- 价值: ⭐⭐⭐⭐⭐ 为动态3D视觉提供了统一的表示基础,影响力可能很大