TrackingWorld: World-centric Monocular 3D Tracking of Almost All Pixels¶
会议: NeurIPS 2025
arXiv: 2512.08358
代码: 项目页
领域: 视频理解
关键词: 3D跟踪, 单目视频, 世界坐标系, 稠密跟踪, 相机姿态估计
一句话总结¶
提出TrackingWorld,一个从单目视频实现几乎所有像素的稠密3D跟踪的流水线,通过跟踪上采样器将稀疏2D轨迹提升为稠密轨迹、迭代跟踪所有帧中新出现的物体、以及基于优化的框架将2D轨迹提升到世界坐标系3D空间并显式分离相机运动和物体运动。
研究背景与动机¶
现有3D跟踪方法的两个根本缺陷¶
缺陷一:无法分离相机运动和物体运动
OmniMotion、SpatialTracker、DELTA等方法均假设相机静态,在相机坐标系中建模3D flow。但下游任务(如运动分析、新视角合成)普遍需要区分相机运动和动态物体运动。最近的MotionGS工作也表明,显式考虑相机姿态能提升3D跟踪质量。虽有ST4RTrack和TAPIP3D尝试世界坐标系跟踪,但前者有长期漂移问题,后者仅限稀疏跟踪且无法恢复相机运动。
缺陷二:仅能跟踪首帧像素
现有方法局限于跟踪视频首帧中的稀疏像素,无法追踪后续帧中新出现的动态目标。DELTA虽提出上采样器产生稠密3D轨迹,但仍限于首帧。如何在所有帧中估计所有像素的稠密3D轨迹仍是未解问题。
"Almost All Pixels"的含义¶
"几乎所有"是指在最终结果中会过滤掉一些噪声和离群轨迹以确保鲁棒性。这是有意义的工程权衡而非方法局限。
方法详解¶
整体框架¶
TrackingWorld分为两个主要阶段: 1. 稠密2D跟踪:将稀疏2D轨迹提升为稠密并覆盖所有帧 2. 2D到3D提升:通过三阶段优化框架估计相机姿态并将2D轨迹转换为世界坐标系3D轨迹
输入为单目视频及基础模型的预处理结果(稀疏轨迹、深度图、动态掩码),输出为稠密3D轨迹和每帧相机姿态。
关键设计¶
1. 稀疏到稠密的2D轨迹上采样¶
核心发现:DELTA的上采样模块可泛化到任意2D轨迹(不限于DELTA自身生成的轨迹)。
给定稀疏2D轨迹 \(\mathbf{P}_{\text{sparse}} \in \mathbb{R}^{(\frac{H}{s} \times \frac{W}{s}) \times T \times 2}\),上采样器通过特征预测权重矩阵 \(\mathbf{W}\):
实际仅关联每个稠密点与其空间邻近的稀疏轨迹,计算高效。
逐帧跟踪与去冗余:在所有帧上执行2D跟踪和上采样,但大部分区域已在前序帧被跟踪过。因此,若某像素位于任何已有可见2D轨迹附近,则丢弃该像素,并通过连通分量分析删除面积小于阈值 \(\tau=50\) 的孤立区域。实验证明此过滤策略一致提升精度。
2. 初始相机姿态估计(Stage 1)¶
利用前景动态掩码选择静态区域的2D轨迹 \(\mathbf{P}_{\text{static}}\),通过单目深度反投影到3D空间后,定义重投影损失:
计算效率优化:先将视频分为C个clip并行估计clip内姿态,再估计clip间姿态合并全局姿态。
3. 动态背景精化(Stage 2)¶
动机:前景动态掩码通常不够准确,背景中仍可能存在运动物体(如滚动的苹果),干扰bundle adjustment。
引入尽可能静态约束(As-Static-As-Possible, ASAP):将"静态"区域的每个点也建模为有时变偏移量 \(\mathbf{O}_{\text{static}}\):
同时优化相机姿态和静态3D坐标,使用bundle adjustment损失加ASAP正则:
L1范数迫使大多数偏移为零(真正静态的点),而非零偏移的点则被识别为动态背景点。联合目标为:
其中 \(\lambda_{\text{ba}}=1, \lambda_{\text{dc}}=1, \lambda_{\text{asap}}=5\)。\(\mathcal{L}_{\text{dc}}\) 为深度一致性损失,约束投影深度与单目深度估计一致。
4. 动态物体跟踪(Stage 3)¶
将 \(\|\mathbf{O}_{\text{static}}(i,\cdot)\|_2 \geq \varepsilon\) 的背景点也归入动态类别。动态3D轨迹直接优化 \(\mathbf{T}_{\text{dynamic}} \in \mathbb{R}^{N_{\text{dynamic}} \times T \times 3}\),训练目标包含重投影损失、深度一致性损失、尽可能刚性约束 \(\mathcal{L}_{\text{arap}}\) 和时间平滑约束 \(\mathcal{L}_{\text{ts}}\):
其中 \(\lambda_{\text{arap}}=100, \lambda_{\text{ts}}=10\)。
训练策略¶
整体为优化框架(非学习框架),在RTX 4090上处理30帧视频约20分钟。利用clip级并行和静态点下采样(下采样因子 \(\varpi\))加速优化,实测从60分钟降至8分钟且精度几乎无损。
实验关键数据¶
相机姿态估计¶
| 方法 | Sintel ATE↓ | Sintel RTE↓ | Bonn ATE↓ | TUM-D ATE↓ |
|---|---|---|---|---|
| MonST3R | 0.111 | 0.044 | 0.029 | 0.063 |
| Align3R | 0.128 | 0.042 | 0.023 | 0.027 |
| Uni4D* | 0.116 | 0.046 | 0.017 | 0.039 |
| Ours (DELTA) | 0.088 | 0.035 | 0.016 | 0.016 |
稠密3D跟踪深度精度¶
| 方法 | Sintel Abs Rel↓ | Sintel δ<1.25↑ | Bonn Abs Rel↓ | TUM-D Abs Rel↓ |
|---|---|---|---|---|
| DELTA+UniDepth(无优化) | 0.636 | 63.1 | 0.153 | 0.178 |
| Ours (DELTA) | 0.218 | 73.3 | 0.058 | 0.084 |
消融实验¶
| 配置 | ATE↓ | RTE↓ | RRE↓ | Abs Rel↓ | δ<1.25↑ |
|---|---|---|---|---|---|
| w/o 逐帧跟踪 | 0.171 | 0.047 | 0.748 | / | / |
| w/o 初始姿态 | 0.659 | 0.153 | 1.382 | 0.230 | 72.4 |
| w/o 动态物体跟踪 | 0.088 | 0.035 | 0.410 | 0.468 | 73.0 |
| w/o \(\mathbf{O}_{\text{static}}\) | 0.092 | 0.036 | 0.459 | 0.224 | 72.6 |
| w/o 深度一致性损失 | 0.093 | 0.036 | 0.441 | 0.234 | 71.2 |
| 完整模型 | 0.088 | 0.035 | 0.410 | 0.218 | 73.3 |
关键发现¶
- 逐帧跟踪至关重要:去掉后ATE从0.088恶化到0.171(+94%),因为丢失了许多后续帧的关键姿态估计线索
- 初始姿态必不可少:无良好初始化时相机姿态几乎无法恢复(ATE 0.659),联合优化难以同时收敛
- ASAP约束有效:去掉 \(\mathbf{O}_{\text{static}}\) 后RRE从0.410恶化到0.459,可视化显示动态背景物体(如苹果)被错误投影
- 2D上采样器泛化性强:应用于CoTrackerV3轨迹后EPE下降(1.45→1.24),运行时间3.00→0.25分钟(12×加速)
- 对不同深度估计模型(ZoeDepth、Depth Pro、UniDepth)均稳健提升,证明方法对深度先验质量有容忍度
亮点与洞察¶
- 显式世界坐标系建模:与DELTA/SpatialTracker在相机坐标系中操作不同,显式分离相机运动和物体运动带来了质量上的显著提升
- ASAP约束设计巧妙:通过L1稀疏正则自动识别动态背景,不依赖完美的分割掩码
- 模块化+基础模型组合:灵活接入不同的2D跟踪器、深度估计器和动态分割器,形成可扩展的流水线
- 物理一致的3D跟踪:通过bundle adjustment强制几何一致性,深度精度相比原始单目估计提升约3倍
- 副产品:可直接输出时间一致的视频深度序列,在多个基准上超过现有video depth方法
局限与展望¶
- 依赖多个辅助模型(2D跟踪器、深度估计器、动态掩码),引入额外计算开销和对组件质量的要求
- 优化方式处理30帧需约20分钟(加速后8分钟),距实时仍有差距
- 前馈解决方案(如受VGGT启发联合处理所有帧直接预测状态)可能是更高效的未来方向
- ST4RTrack的配对匹配存在漂移,但前馈设计的思路值得借鉴
- 对极端遮挡或大视角变化的场景鲁棒性未充分验证
相关工作与启发¶
- 2D点跟踪: CoTrackerV3, TAPIR, LocoTrack, TAP-Net
- 3D点跟踪: SpatialTracker, DELTA, OmniMotion, ST4RTrack, TAPIP3D
- 4D重建: Uni4D, MonST3R, Align3R, MegaSaM
- 深度估计: UniDepth, Depth Pro, DepthCrafter
- 启发: ASAP约束可推广到任何需要静动分离的场景理解任务;跟踪上采样器的泛化能力提示了模块化设计的优势
评分¶
- 新颖性: ⭐⭐⭐⭐☆ — 世界坐标系稠密3D跟踪+逐帧扩展是重要进展,但各组件多基于已有技术
- 实验充分度: ⭐⭐⭐⭐⭐ — 相机姿态、深度精度、稀疏3D跟踪、稠密2D跟踪四维度全面评估+丰富消融
- 写作质量: ⭐⭐⭐⭐☆ — 流水线描述清晰,问题定义准确
- 价值: ⭐⭐⭐⭐⭐ — 为稠密3D跟踪建立了新的性能标杆,可作为多个下游任务的基础模块