Dynamic Point Maps: A Versatile Representation for Dynamic 3D Reconstruction¶

会议: ICCV 2025
arXiv: 2503.16318
代码: 项目页面
领域: 3D视觉
关键词: 动态3D重建, 点图表示, 场景流, 运动分割, DUSt3R

一句话总结¶

提出 Dynamic Point Maps (DPM)，将 DUSt3R 的视点不变点图扩展为同时控制视点和时间的时空不变表示，仅通过预测4组点图即可在前馈方式下同时解决深度估计、场景流、运动分割和3D目标跟踪等多种4D任务。

研究背景与动机¶

DUSt3R 的突破在于引入了「视点不变点图」（viewpoint-invariant point maps）概念：给定两张图像，将每个像素映射到统一参考系中的3D点。这一优雅的表示使得相机内外参估计、3D重建、2D匹配等多种任务都可以化约为点图预测。

但DUSt3R无法处理动态场景。 当场景中存在运动物体时，即使固定视点参考系，同一物理点在不同时间的3D位置不同，破坏了视点不变性：$P_1(\pi_1)(\boldsymbol{u}_1) \neq P_2(\pi_1)(\boldsymbol{u}_2)$。

MonST3R 的尝试与局限：MonST3R 直接将 DUSt3R 应用于动态场景，但由于缺乏时间不变性，它无法直接预测对应的3D点。不得不借助光流网络来建立时间对应，这不仅增加了系统复杂度，还限制在可见像素范围内，对遮挡和去遮挡处理不当。

作者的核心洞察：动态场景中的不变性需要同时固定视点和时间。 为每张图像预测两组点图——分别对应两个时间戳的3D位置——就能重建时空不变性，同时保留运动信息。这是能够解决所有4D任务的最小设计（minimal design）。

具体来说： - $P_1(t_1, \pi_1)$, $P_1(t_2, \pi_1)$：图像1中像素在时间1和时间2的3D位置 - $P_2(t_1, \pi_1)$, $P_2(t_2, \pi_1)$：图像2中像素在时间1和时间2的3D位置 - 同一时间戳下的点图恢复不变性：$P_1(t_1, \pi_1)(\boldsymbol{u}_1) = P_2(t_1, \pi_1)(\boldsymbol{u}_2)$ - 不同时间戳的差直接给出场景流：$P_1(t_2, \pi_1) - P_1(t_1, \pi_1)$

方法详解¶

整体框架¶

在 DUSt3R 的 ViT 编码器-解码器基础上，为每张图像增加一个预测头，总共4个头分别预测4组点图 $P_i(t_j, \pi_1)$，$i,j \in \{1,2\}$。每组点图包含3通道坐标和1通道置信度图。所有点图均在第一张图像的参考系 $\pi_1$ 下表示。

关键设计¶

Dynamic Point Maps 表示:
- 功能：为动态场景定义一种最小且完备的点图表示
- 核心思路：每张图像映射到两组点图（对应两个时间戳），共4组。时间不变的点图对可以直接建立跨视角对应（$P_1(t_1, \pi_1)$ 与 $P_2(t_1, \pi_1)$ 比较得到点匹配），时间差异的点图对可以直接给出场景流（$P_i(t_2, \pi_1) - P_i(t_1, \pi_1)$），静态部分两个时间戳的点图一致即产生运动分割。
- 设计动机：这是 DUSt3R 到4D场景的自然且最小扩展。MonST3R 实际上只预测了4组中的2组（$P_1(t_1, \pi_1)$ 和 $P_2(t_2, \pi_1)$），缺少跨时间的点图因而无法直接推导场景流和运动匹配。DPM 补全了这个设计空间。
网络架构扩展:
- 功能：在 DUSt3R Backbone 上增加2个额外预测头
- 核心思路：$\{P_i(t_j, \pi_1)\}_{i,j \in \{1,2\}} = \Phi(I_1, I_2)$。4个头共享同一个 Transformer 编码器-解码器 backbone，每个头预测 $(P_i(t_j, \pi_1), C_i(t_j, \pi_1))$（点图+置信度）。新增的2个头用 DUSt3R 原有头的权重初始化，在训练初期近似静态重建。
- 设计动机：最小化架构修改，充分利用 DUSt3R 的预训练知识。新增2个头但共享backbone，增加的参数量很小。
混合数据训练:
- 功能：在合成+真实数据混合上训练 DPM 预测器
- 核心思路：使用 Kubric 管线生成合成数据集 MOVi-G（含复杂相机轨迹和动态物体），提供完整的4组点图 GT。加入 Waymo 真实数据（利用 LiDAR 生成动态点图 GT）。对于无动态GT的数据集，省略跨时间点图的监督或视为静态场景。总共7个数据集混合训练。
- 设计动机：完整的动态GT只有合成数据和LiDAR数据能提供，但混合真实视频数据（即使只有静态监督）有助于泛化。

损失函数 / 训练策略¶

使用置信度校准的回归损失： $$L_{\text{conf}}(\hat{P}, P) = \frac{1}{HW} \sum_{i=1}^{HW} C_i L_{\text{reg}}(\hat{P}, P, i) - \alpha \log C_i$$

其中 $L_{\text{reg}}$ 是尺度归一化的逐像素回归损失，允许预测到任意尺度因子内。4组点图堆叠后统一优化。训练分辨率 $(512, 288)$ 和 $(512, 336)$。

实验关键数据¶

主实验¶

深度估计（2-View, Abs Rel↓）：

数据集	DPM	MonST3R	提升
Sintel	0.321	0.347	7.5%
Point Odyssey	0.059	0.065	9.2%
Kubric	0.078	0.166	53%
KITTI (crop)	0.052	0.069	24.6%

动态重建（相对点云误差 $L_{\text{rel}}$↓）：

数据集	点图	DPM	MonST3R
Kubric-G	$P_1(t_1)$	0.057	0.163
Kubric-G	$P_2(t_1)$ (跨时间)	0.071	0.265
Kubric-G	$P_1(t_2)$ (跨时间)	0.079	0.346
Waymo	$P_1(t_1)$	0.068	0.197

场景流 3D EPE↓：

数据集	DPM	MonST3R	RAFT-3D (需深度GT)
Kubric-G Forward	0.104	0.334	4.067
Waymo Forward	0.051	0.161	0.150
Waymo Backward	0.053	0.135	0.145

消融实验¶

配置	Kubric $L_{\text{rel}}$ $P_1(t_1)$↓	Kubric $L_{\text{rel}}$ $P_1(t_2)$↓	说明
MonST3R (仅2组点图)	0.163	0.346	跨时间预测退化严重
DPM (4组点图)	0.057	0.079	跨时间预测稳定
目标跟踪 RPE rot↓	DPM: 33.7°	MonST3R: 56.1°	旋转误差降低40%

关键发现¶

DPM 在跨时间预测上远超 MonST3R——Kubric-G 上 $P_2(t_1)$ 误差降低 73%（0.265→0.071），证明显式建模时间维度的必要性
仅用 RGB 输入的 DPM 在 Waymo 场景流上超越需要深度GT的 RAFT-3D（0.051 vs 0.150）
MonST3R 在 Kubric-G 上场景流 EPE 高达 4.067（RAFT-3D），说明复杂相机运动下2D光流warp方法失效
DPM 不需要额外光流模型，比 MonST3R 的流程更简洁高效
在目标跟踪中旋转误差降低 40%，证明显式的时间不变点图对刚体运动估计的价值

亮点与洞察¶

概念层面的贡献：DPM 是一个通用表示概念，不仅是一个具体方法。它明确了动态场景不变性需要「视点+时间」双重控制，这个设计空间分析为后续工作提供了理论基础
最小设计原则：4组点图是解决所有4D任务的最小充分集——多种任务（深度、场景流、匹配、分割、跟踪）都化约为简单的点比较或差分运算
架构修改极小：仅增加2个头，充分复用 DUSt3R 预训练，说明好的表示设计比复杂的架构改进更重要
消除了对光流网络的依赖，使4D重建流程更加统一和简洁

局限与展望¶

合成训练数据的依赖：MOVi-G 的物体运动模式有限，可能影响复杂真实场景的泛化
成对处理模式：DPM 一次只处理2帧，长序列视频需要 bundle adjustment
大物体运动时旋转误差仍然偏高（33.7°），说明跨时间的3D理解仍具挑战
目前仅支持 $T=2$ 个时间戳，扩展到多时间戳将更加通用
遮挡/去遮挡区域的处理仍有改进空间

评分¶

新颖性: ⭐⭐⭐⭐⭐ DPM 概念优雅，最小设计+多任务解决的思路极具启发性
实验充分度: ⭐⭐⭐⭐ 覆盖深度/场景流/目标跟踪多任务，但真实数据评估可更全面
写作质量: ⭐⭐⭐⭐⭐ 从不变性分析自然推导出设计，逻辑清晰
价值: ⭐⭐⭐⭐⭐ 为动态3D视觉提供了统一的表示基础，影响力可能很大

数据集	点图	DPM	MonST3R
Kubric-G	\(P_1(t_1)\)	0.057	0.163
Kubric-G	\(P_2(t_1)\) (跨时间)	0.071	0.265
Kubric-G	\(P_1(t_2)\) (跨时间)	0.079	0.346
Waymo	\(P_1(t_1)\)	0.068	0.197