TrackingWorld: World-centric Monocular 3D Tracking of Almost All Pixels¶

会议: NeurIPS 2025
arXiv: 2512.08358
代码: 项目页
领域: 视频理解
关键词: 3D跟踪, 单目视频, 世界坐标系, 稠密跟踪, 相机姿态估计

一句话总结¶

提出TrackingWorld，一个从单目视频实现几乎所有像素的稠密3D跟踪的流水线，通过跟踪上采样器将稀疏2D轨迹提升为稠密轨迹、迭代跟踪所有帧中新出现的物体、以及基于优化的框架将2D轨迹提升到世界坐标系3D空间并显式分离相机运动和物体运动。

研究背景与动机¶

现有3D跟踪方法的两个根本缺陷¶

缺陷一：无法分离相机运动和物体运动

OmniMotion、SpatialTracker、DELTA等方法均假设相机静态，在相机坐标系中建模3D flow。但下游任务（如运动分析、新视角合成）普遍需要区分相机运动和动态物体运动。最近的MotionGS工作也表明，显式考虑相机姿态能提升3D跟踪质量。虽有ST4RTrack和TAPIP3D尝试世界坐标系跟踪，但前者有长期漂移问题，后者仅限稀疏跟踪且无法恢复相机运动。

缺陷二：仅能跟踪首帧像素

现有方法局限于跟踪视频首帧中的稀疏像素，无法追踪后续帧中新出现的动态目标。DELTA虽提出上采样器产生稠密3D轨迹，但仍限于首帧。如何在所有帧中估计所有像素的稠密3D轨迹仍是未解问题。

"Almost All Pixels"的含义¶

"几乎所有"是指在最终结果中会过滤掉一些噪声和离群轨迹以确保鲁棒性。这是有意义的工程权衡而非方法局限。

方法详解¶

整体框架¶

TrackingWorld分为两个主要阶段： 1. 稠密2D跟踪：将稀疏2D轨迹提升为稠密并覆盖所有帧 2. 2D到3D提升：通过三阶段优化框架估计相机姿态并将2D轨迹转换为世界坐标系3D轨迹

输入为单目视频及基础模型的预处理结果（稀疏轨迹、深度图、动态掩码），输出为稠密3D轨迹和每帧相机姿态。

关键设计¶

1. 稀疏到稠密的2D轨迹上采样¶

核心发现：DELTA的上采样模块可泛化到任意2D轨迹（不限于DELTA自身生成的轨迹）。

给定稀疏2D轨迹 \(\mathbf{P}_{\text{sparse}} \in \mathbb{R}^{(\frac{H}{s} \times \frac{W}{s}) \times T \times 2}\)，上采样器通过特征预测权重矩阵 \(\mathbf{W}\)：

\[\mathbf{P}_{\text{dense}} = \mathbf{W}^T \mathbf{P}_{\text{sparse}}\]

实际仅关联每个稠密点与其空间邻近的稀疏轨迹，计算高效。

逐帧跟踪与去冗余：在所有帧上执行2D跟踪和上采样，但大部分区域已在前序帧被跟踪过。因此，若某像素位于任何已有可见2D轨迹附近，则丢弃该像素，并通过连通分量分析删除面积小于阈值 \(\tau=50\) 的孤立区域。实验证明此过滤策略一致提升精度。

2. 初始相机姿态估计（Stage 1）¶

利用前景动态掩码选择静态区域的2D轨迹 \(\mathbf{P}_{\text{static}}\)，通过单目深度反投影到3D空间后，定义重投影损失：

\[\mathcal{L}_{\text{proj}} = \sum_i^{N_{\text{inliers}}} \sum_{t_1}^{T} \sum_{t_2}^{T} \|\pi_{t_2} \pi_{t_1}^{-1}(\mathbf{P}_{\text{static}}(i,t_1), \mathbf{D}_{\text{static}}(i,t_1)) - \mathbf{P}_{\text{static}}(i,t_2)\|_2^2\]

计算效率优化：先将视频分为C个clip并行估计clip内姿态，再估计clip间姿态合并全局姿态。

3. 动态背景精化（Stage 2）¶

动机：前景动态掩码通常不够准确，背景中仍可能存在运动物体（如滚动的苹果），干扰bundle adjustment。

引入尽可能静态约束（As-Static-As-Possible, ASAP）：将"静态"区域的每个点也建模为有时变偏移量 \(\mathbf{O}_{\text{static}}\)：

\[\mathbf{T}'_{\text{static}}(i,t) = \mathbf{T}_{\text{static}}(i) + \mathbf{O}_{\text{static}}(i,t)\]

同时优化相机姿态和静态3D坐标，使用bundle adjustment损失加ASAP正则：

\[\mathcal{L}_{\text{asap}} = \sum_{i,t} \|\mathbf{O}_{\text{static}}(i,t)\|_1\]

L1范数迫使大多数偏移为零（真正静态的点），而非零偏移的点则被识别为动态背景点。联合目标为：

\[\mathcal{L}_{\text{static}} = \lambda_{\text{ba}} \mathcal{L}_{\text{ba}} + \lambda_{\text{dc}} \mathcal{L}_{\text{dc}} + \lambda_{\text{asap}} \mathcal{L}_{\text{asap}}\]

其中 \(\lambda_{\text{ba}}=1, \lambda_{\text{dc}}=1, \lambda_{\text{asap}}=5\)。\(\mathcal{L}_{\text{dc}}\) 为深度一致性损失，约束投影深度与单目深度估计一致。

4. 动态物体跟踪（Stage 3）¶

将 \(\|\mathbf{O}_{\text{static}}(i,\cdot)\|_2 \geq \varepsilon\) 的背景点也归入动态类别。动态3D轨迹直接优化 \(\mathbf{T}_{\text{dynamic}} \in \mathbb{R}^{N_{\text{dynamic}} \times T \times 3}\)，训练目标包含重投影损失、深度一致性损失、尽可能刚性约束 \(\mathcal{L}_{\text{arap}}\) 和时间平滑约束 \(\mathcal{L}_{\text{ts}}\)：

\[\mathcal{L}_{\text{dyn}} = \lambda_{\text{ba}} \mathcal{L}_{\text{ba}} + \lambda_{\text{dc}} \mathcal{L}_{\text{dc}} + \lambda_{\text{arap}} \mathcal{L}_{\text{arap}} + \lambda_{\text{ts}} \mathcal{L}_{\text{ts}}\]

其中 \(\lambda_{\text{arap}}=100, \lambda_{\text{ts}}=10\)。

训练策略¶

整体为优化框架（非学习框架），在RTX 4090上处理30帧视频约20分钟。利用clip级并行和静态点下采样（下采样因子 \(\varpi\)）加速优化，实测从60分钟降至8分钟且精度几乎无损。

实验关键数据¶

相机姿态估计¶

方法	Sintel ATE↓	Sintel RTE↓	Bonn ATE↓	TUM-D ATE↓
MonST3R	0.111	0.044	0.029	0.063
Align3R	0.128	0.042	0.023	0.027
Uni4D*	0.116	0.046	0.017	0.039
Ours (DELTA)	0.088	0.035	0.016	0.016

稠密3D跟踪深度精度¶

方法	Sintel Abs Rel↓	Sintel δ<1.25↑	Bonn Abs Rel↓	TUM-D Abs Rel↓
DELTA+UniDepth（无优化）	0.636	63.1	0.153	0.178
Ours (DELTA)	0.218	73.3	0.058	0.084

消融实验¶

配置	ATE↓	RTE↓	RRE↓	Abs Rel↓	δ<1.25↑
w/o 逐帧跟踪	0.171	0.047	0.748	/	/
w/o 初始姿态	0.659	0.153	1.382	0.230	72.4
w/o 动态物体跟踪	0.088	0.035	0.410	0.468	73.0
w/o \(\mathbf{O}_{\text{static}}\)	0.092	0.036	0.459	0.224	72.6
w/o 深度一致性损失	0.093	0.036	0.441	0.234	71.2
完整模型	0.088	0.035	0.410	0.218	73.3

关键发现¶

逐帧跟踪至关重要：去掉后ATE从0.088恶化到0.171（+94%），因为丢失了许多后续帧的关键姿态估计线索
初始姿态必不可少：无良好初始化时相机姿态几乎无法恢复（ATE 0.659），联合优化难以同时收敛
ASAP约束有效：去掉 \(\mathbf{O}_{\text{static}}\) 后RRE从0.410恶化到0.459，可视化显示动态背景物体（如苹果）被错误投影
2D上采样器泛化性强：应用于CoTrackerV3轨迹后EPE下降（1.45→1.24），运行时间3.00→0.25分钟（12×加速）
对不同深度估计模型（ZoeDepth、Depth Pro、UniDepth）均稳健提升，证明方法对深度先验质量有容忍度

亮点与洞察¶

显式世界坐标系建模：与DELTA/SpatialTracker在相机坐标系中操作不同，显式分离相机运动和物体运动带来了质量上的显著提升
ASAP约束设计巧妙：通过L1稀疏正则自动识别动态背景，不依赖完美的分割掩码
模块化+基础模型组合：灵活接入不同的2D跟踪器、深度估计器和动态分割器，形成可扩展的流水线
物理一致的3D跟踪：通过bundle adjustment强制几何一致性，深度精度相比原始单目估计提升约3倍
副产品：可直接输出时间一致的视频深度序列，在多个基准上超过现有video depth方法

局限与展望¶

依赖多个辅助模型（2D跟踪器、深度估计器、动态掩码），引入额外计算开销和对组件质量的要求
优化方式处理30帧需约20分钟（加速后8分钟），距实时仍有差距
前馈解决方案（如受VGGT启发联合处理所有帧直接预测状态）可能是更高效的未来方向
ST4RTrack的配对匹配存在漂移，但前馈设计的思路值得借鉴
对极端遮挡或大视角变化的场景鲁棒性未充分验证

评分¶

新颖性: ⭐⭐⭐⭐☆ — 世界坐标系稠密3D跟踪+逐帧扩展是重要进展，但各组件多基于已有技术
实验充分度: ⭐⭐⭐⭐⭐ — 相机姿态、深度精度、稀疏3D跟踪、稠密2D跟踪四维度全面评估+丰富消融
写作质量: ⭐⭐⭐⭐☆ — 流水线描述清晰，问题定义准确
价值: ⭐⭐⭐⭐⭐ — 为稠密3D跟踪建立了新的性能标杆，可作为多个下游任务的基础模块