MV-TAP: Tracking Any Point in Multi-View Videos¶

会议: CVPR 2026
论文: CVF Open Access
领域: 视频理解 / 点跟踪 / 多视图几何
关键词: 任意点跟踪, 多视图, 视角注意力, 相机几何编码, 遮挡

一句话总结¶

MV-TAP 把"任意点跟踪"（Track Any Point）从单视图扩展到多视图同步视频，直接在 2D 像素空间建模，靠相机射线编码注入几何上下文、再用一层视角注意力跨视角交换信息，从而在单视角被遮挡/运动模糊处借助其他视角把轨迹补全，在 DexYCB / Panoptic Studio / Kubric / Harmony4D 上全面超过逐视角独立跟踪的单视图 SOTA。

研究背景与动机¶

领域现状：点跟踪（Point Tracking / TAP）是理解动态场景的基础工具——给定查询点，预测它在整段视频里的逐帧 2D 轨迹与可见性，支撑 4D 重建、机器人操作、具身智能、视频编辑等下游。CoTracker、TAPIR、LocoTrack、TAPNext 等近期方法已经把单视图视频里的时空一致性做得很好。

现有痛点：但这些方法只在单视图里跑。单目视频天然有几何歧义——频繁遮挡、剧烈/非刚体运动、深度不确定——一旦点被遮住或运动模糊，单视图跟踪器就会丢轨迹、产生碎片化的轨迹。现实里很多场景（动捕、机械臂、自动驾驶）本来就是多相机同步采集的，可惜没有方法去利用这些跨视角线索。

核心矛盾：一个被某个视角遮挡的点，往往在另一个视角里清清楚楚可见；但如果把单视图跟踪器独立地套在每个视角上、视角之间不交换任何信息，就完全浪费了这种互补性。已有的尝试要么走多视图匹配（假设静态/刚性场景、需要几何先验，不适合动态点跟踪），要么像 MVTracker 那样把点抬到 3D 世界坐标去跟踪——而这强依赖预先估计的深度质量，把 3D 点重投影回 2D 像素时还会引入重投影误差。

本文目标：在只有多视图视频 + 相机参数、不依赖深度输入的前提下，直接在 2D 像素空间里把一组查询点跨多个同步视频跟踪出来，既要保住单视图跟踪器已经很强的时空一致性，又要把多视角的互补信息用上。

切入角度：作者的关键直觉是——多视角观测对一个动态场景提供的是互补线索，跨视角同时推理就能消解单目里的歧义。与其抬到 3D 世界空间承担深度估计的不确定性，不如就留在像素空间、把"跨视角"做成网络里的一种注意力。

核心 idea：在一个强 2D 跟踪骨干（CoTracker3）之上，加两件东西——相机射线编码把每个跟踪点的几何上下文喂给模型，视角注意力让不同视角的 token 互相交换信息——就把单视图跟踪升级成像素空间的多视图跟踪。

方法详解¶

整体框架¶

输入是 $V$ 个时间同步的视角视频 $I=\{I_{v,t}\in\mathbb{R}^{H\times W\times3}\}$、每视角独立定义的查询点 $Q=\{q_{v,n}\}$（每个查询 $q=(t_q,x_q,y_q)$ 是"在第 $t_q$ 帧的像素坐标 $(x_q,y_q)$"），以及相机内外参 $G=\{G_{v,t}=K[R_{v,t}|t_{v,t}]\}$。输出是全部点在所有视角、所有时刻的 2D 轨迹 $\mathcal{T}\in\mathbb{R}^{V\times T\times N\times2}$ 和可见性 $\mathcal{O}\in\mathbb{R}^{V\times T\times N\times1}$。注意：不同视角的查询点虽然各自独立定义，但它们指向的是同一批 3D 场景点，只是各视角能看见它的起始时刻不同。

整条 pipeline 是"提相关 → 加几何/时序编码 → 三轴注意力迭代精修"的循环：CNN 编码器从每个视角抽特征，对每个查询点沿时间轴算局部 4D 相关体得到匹配代价；把代价和当前轨迹位置 tokenize 成 token $X\in\mathbb{R}^{V\times T\times N\times d}$，再叠加相机射线编码与时序位置编码；token 进入一个交错"时间注意力 / 空间注意力 / 视角注意力"的 Transformer，每一步预测轨迹与遮挡的增量 $\Delta\mathcal{T},\Delta\mathcal{O}$ 并加回当前估计，迭代 $M=4$ 次得到最终结果。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["多视图同步视频<br/>+ 查询点 + 相机参数"] --> B["像素空间建模<br/>仅沿时间轴局部4D相关<br/>→ tokenize"]
    B --> C["视角感知相机射线编码<br/>叠加时序/位置编码"]
    C --> D["三轴交错时空Transformer<br/>时间 / 空间 / 视角注意力"]
    D --> E["递归更新 ΔT, ΔO<br/>× M 次迭代"]
    E -->|未到 M 步| D
    E -->|到 M 步| F["输出轨迹 T<br/>+ 可见性 O"]

关键设计¶

1. 像素空间建模 + 仅沿时间轴的局部 4D 相关：避开深度依赖，也避开大基线带来的相关噪声

作者刻意不把点抬到 3D 世界坐标去跟踪（那是 MVTracker / TAPIP3D 的路线），因为抬升强依赖深度估计质量、重投影回像素还会累积误差。MV-TAP 直接在 2D 像素空间预测轨迹，几何信息通过相机参数"软注入"而不是硬抬升。匹配表征沿用单视图跟踪器的局部 4D 相关：给定查询点 $q$ 与假设匹配 $p$，在各自半径 $r_p,r_q$ 的邻域里算归一化相关 $$\mathcal{L}_t(i,j;p,q)=\frac{F_t(i)\cdot F_{t_q}(j)}{\lVert F_t(i)\rVert_2\,\lVert F_{t_q}(j)\rVert_2},$$ 其中 $i\in N(p,r_p),\,j\in N(q,r_q)$。一个值得注意的设计抉择是：相关体只沿时间维构造，不沿视角维。原因很直接——视角之间基线一大，对应局部 patch 的外观相似度就急剧下降，跨视角的相关会变得不可靠、反而往模型里灌噪声。所以跨视角的信息交换不靠"算外观相关"，而是留给后面的视角注意力去做。

2. 视角感知的相机射线编码：用 Plücker 射线把跨视角几何上下文喂进 token

要让网络"知道"各视角之间的相对几何关系，作者把相机参数编码成每个跟踪点对应的射线。每条射线 $r_{v,t,n}\in\mathbb{R}^6$ 用方向 + 矩量（Plücker 坐标）表示： $$r=\begin{bmatrix}\mathbf{d}\\ \mathbf{m}\end{bmatrix},\quad \mathbf{m}=\mathbf{o}\times\mathbf{d},$$ 其中方向与原点由相机参数算出 $\mathbf{d}=R^\top K^{-1}\mathbf{x}$、$\mathbf{o}=-R^\top t$（$\mathbf{x}=(u,v,1)^\top$ 是齐次像素坐标），方向 $\mathbf{d}$ 归一化为单位长度以保证尺度无关。把全部轨迹的坐标张成 $R\in\mathbb{R}^{V\times T\times N\times6}$，过一层 MLP 投到特征维，再与正弦位置编码一起加到输入 token 上。这样每个 token 不只带着"我长什么样"（相关体），还带着"我从哪个视角、哪条射线看出去"的几何上下文，为后面跨视角对齐铺路。

3. 三轴交错的时空 Transformer，核心是视角注意力：跨视角交换信息消解遮挡歧义

编码后的 token 进入一个把注意力沿三个轴交错施加的 Transformer——做某个轴的注意力时保持特征维 $d$ 不变，把其余轴拍进 batch 维。时间注意力沿帧轴 $T$ 聚合，$\mathrm{Attn}_{\text{temp}}(X)=\mathrm{Softmax}(Q_TK_T^\top/\sqrt{d})V_T$，保证轨迹时序平滑；空间注意力沿点轴 $N$ 在同一帧内聚合，把运动模式一致的点联系起来，隐式捕捉刚性先验。但这两者本质上只建模视角内关系。真正的关键是视角注意力，沿视角轴 $V$ 做 $\mathrm{Attn}_{\text{view}}(X)=\mathrm{Softmax}(Q_VK_V^\top/\sqrt{d})V_V$，让不同视角的表征显式对齐、互相交换信息——某个视角里被遮挡/模糊的点，可以从另一个视角清晰可见的对应 token 那里"借"到正确证据，从而克服视角相关的歧义。消融里去掉视角注意力或相机编码都会掉点，二者叠加最好，说明它们是互补的（射线编码给"几何对得上"的依据，视角注意力做"真正去对齐"的动作）。

损失函数 / 训练策略¶

轨迹与遮挡的迭代更新由 Transformer 每步预测增量 $\Delta\mathcal{T},\Delta\mathcal{O}=\mathrm{Transformer}(X)$，加回上一步估计 $\mathcal{T}^{(m+1)}=\mathcal{T}^{(m)}+\Delta\mathcal{T}$、$\mathcal{O}^{(m+1)}=\mathcal{O}^{(m)}+\Delta\mathcal{O}$，迭代 $M$ 步。训练同时监督两支：轨迹用带迭代折扣的 Huber 损失 $$\mathcal{L}_{\mathrm{track}}=\sum_{m=1}^{M}\gamma^{M-m}\,\ell_{\mathrm{Huber}}\big(\mathcal{T}^{(m)},\mathcal{T}^*\big),$$ 遮挡用对 logits 过 sigmoid 后的 BCE，同样按迭代折扣 $$\mathcal{L}_{\mathrm{occ}}=\sum_{m=1}^{M}\gamma^{M-m}\,\mathrm{BCE}\big(\sigma(\mathcal{O}^{(m)}),\mathcal{O}^*\big).$$ 由于现有点跟踪训练集只有单视图，作者用 Kubric 引擎自建了 5,000 个场景的同步多视图合成数据集（含轨迹、遮挡状态、内外参标注）。模型从 CoTracker3 预训练权重初始化，冻结特征提取网络、其余全更新；在 4×A6000 上训 50K 步，batch=1/卡，AdamW（lr=1e-4、weight decay=1e-4）+ 余弦调度 + 1000 步 warm-up + 梯度裁剪 1.0；训练时输入视角数在 1~4 间随机，分辨率 384×512，轨迹数 384，$M=4$，相关半径 $r_p=r_q=3$。靠注意力机制，推理时可处理任意视角数（即便 >4）。

实验关键数据¶

主实验¶

在 DexYCB、Panoptic Studio、Kubric、Harmony4D 四个数据集、统一 8 视角设置（最远采样）下对比。AJ 是联合位置与遮挡的综合分，$<\delta^x_{avg}$ 是位置精度（PCK），OA 是遮挡判别精度。

数据集	指标	MV-TAP	CoTracker3(单视图最强)	CoTracker3+Tri.(三角化)	CoTracker3+Flat.(拍平)
DexYCB	AJ / $<\delta^x_{avg}$ / OA	44.2 / 61.9 / 78.3	41.5 / 59.6 / 76.4	39.2 / 57.1 / 76.4	2.7 / 7.1 / 35.7
Panoptic Studio	AJ / $<\delta^x_{avg}$ / OA	40.3 / 62.8 / 73.1	39.6 / 61.4 / 72.3	37.9 / 59.5 / 72.3	1.0 / 12.7 / 38.8
Kubric	AJ / $<\delta^x_{avg}$ / OA	87.8 / 94.0 / 96.3	83.5 / 90.7 / 94.1	70.2 / 82.6 / 94.3	19.6 / 29.3 / 34.6
Harmony4D	AJ / $<\delta^x_{avg}$ / OA	42.6 / 74.9 / 65.8	41.4 / 73.5 / 63.2	39.2 / 70.4 / 63.2	2.1 / 20.7 / 46.4

MV-TAP 在四个数据集上几乎全面领先。需要深度输入的 3D 方法（SpatialTracker、TAPIP3D）和 MVTracker 在部分数据集上崩得很厉害（如 TAPIP3D 在 Harmony4D 上 AJ 仅 5.0，MVTracker 在 Harmony4D 上 $<\delta^x_{avg}$ 仅 13.3），说明依赖深度抬升在真实复杂人体场景下很脆弱。最暴露问题的是"拍平"基线（CoTracker3+Flat. 把视角和时间拍成一条序列），几乎全线崩盘——盲目把多视角当长序列处理反而有害。

消融实验¶

配置	DexYCB (AJ / $<\delta^x_{avg}$ / OA)	Panoptic (AJ / $<\delta^x_{avg}$ / OA)	说明
CoTracker3 (基线)	41.5 / 59.6 / 76.4	39.6 / 61.4 / 72.3	单视图逐视角独立跑
+ 视角注意力	43.6 / 61.5 / 77.4	38.6 / 61.6 / 69.4	单加跨视角交互
+ 相机编码	42.2 / 60.6 / 78.0	39.9 / 60.9 / 73.0	单加几何上下文
MV-TAP (两者都加)	44.2 / 61.9 / 78.3	40.3 / 62.8 / 73.1	完整模型

视角数消融（DexYCB）也很关键：MV-TAP 从 2→8 视角，AJ 由 39.2 稳步升到 44.2；而 CoTracker3 几乎不随视角增加而提升（37.5→41.5，增益边际），拍平基线甚至越多视角越差（9.5→2.7）。

关键发现¶

视角注意力是主贡献，相机编码是补强：单加视角注意力在 DexYCB 上 AJ +2.1，但在 Panoptic 上 OA 反而掉（77.4→…实为相对基线 +1.0，而单加时 OA 69.4 低于基线）；两者合用才在所有数据集稳定最好——几何编码像是给跨视角对齐提供了"对得上"的依据，缺它时视角注意力会乱借证据。
能借多视角消解遮挡：在"画面内被遮挡点"上评位置精度（$<\delta^x_{occ}$），MV-TAP 在 DexYCB 上 38.4 vs CoTracker3 的 33.9；在高遮挡频率轨迹（按可见性翻转次数筛）上 AJ 29.7 vs 26.2，验证了跨视角线索确实在补救单视图丢失的点。
增益来自架构而非多训：从同一预训练权重出发、Table 4 控制训练量后，MV-TAP 仍稳定高于 CoTracker3（DexYCB AJ 44.2 vs 41.8），说明涨点来自设计而非额外训练步数。
多视角不能盲目拍平：CoTracker3+Flat. 全线崩溃，且视角越多越差，说明把多视角当长序列硬塞会破坏视角内时序结构；必须像 MV-TAP 这样把"跨视角"显式做成独立的注意力轴。

亮点与洞察¶

"跨视角信息交换不靠算相关、靠注意力"是核心洞察：作者发现大基线下跨视角外观相关不可靠，于是把相关体限制在时间轴、把跨视角交互完全交给视角注意力——这个分工很干净，也解释了为什么简单的三角化/拍平基线打不过它。
相机射线（Plücker 坐标）作为几何 token 的复用价值高：把内外参编码成方向+矩量射线再 MLP 投影加到 token 上，是一种"软注入几何"的通用做法，可迁移到任何需要多视角一致性的视频任务（如多视图视频分割、4D 重建的对应建立）。
三轴交错注意力的可扩展性：训练只用 1~4 视角，推理却能吃任意视角数，这种"轴拍 batch"的设计天然对视角数解耦，工程上很友好。
配套数据集填补空白：合成 5000 场景多视图同步数据 + 真实评测集，把"多视图 2D 点跟踪"这个任务的训练/评测基建一起建起来了，对后续研究是实打实的资产。

局限与展望¶

依赖时间同步与已知相机参数：方法假设各视角严格时间同步、且内外参已知准确，casual in-the-wild 的非标定/不同步多机视频还用不了，几何编码会失真。
训练几乎全靠合成数据：5000 场景来自 Kubric 引擎，真实域与合成域的差距、以及真实评测集规模有限，泛化边界还需更大规模真实数据验证。
个别强基线在特定指标仍领先：TAPIP3D / TAPNext 在少数指标上略高于 MV-TAP（虽各有依赖 GT 深度、或架构重的代价），说明像素空间方案并非在所有维度都占优。
跨视角外观相关被直接放弃：当基线较小、外观仍可靠时，完全不用跨视角相关可能浪费了线索；一个自适应"何时该用跨视角相关"的机制或许能再涨点。
视角注意力的可解释性与开销：随视角数增长，全连接的视角注意力计算量上升，论文未深入分析大量视角下的效率与注意力是否真的"借对了"视角。

评分¶

新颖性: ⭐⭐⭐⭐ 首个只用多视图视频+相机参数、在 2D 像素空间做任意点跟踪的范式，"时间轴相关 + 视角注意力"的分工是清晰的新点，但模块本身（射线编码、轴向注意力）多为成熟组件的组合。
实验充分度: ⭐⭐⭐⭐⭐ 四数据集主对比 + 视角数/点数/遮挡频率/架构消融 + 多种基线（含三角化、拍平、3D 方法）覆盖很全，证据链扎实。
写作质量: ⭐⭐⭐⭐ 动机与设计抉择（为何不算跨视角相关、为何不抬 3D）讲得清楚，公式规整；个别消融数值（如单加视角注意力时 Panoptic 的 OA）需对照表格细读。
价值: ⭐⭐⭐⭐ 定义了一个有现实需求（动捕/机械臂/自驾多机）的新任务，并给出数据集 + 强基线，对多视图视频理解是有用的起点。

数据集	指标	MV-TAP	CoTracker3(单视图最强)	CoTracker3+Tri.(三角化)	CoTracker3+Flat.(拍平)
DexYCB	AJ / \(<\delta^x_{avg}\) / OA	44.2 / 61.9 / 78.3	41.5 / 59.6 / 76.4	39.2 / 57.1 / 76.4	2.7 / 7.1 / 35.7
Panoptic Studio	AJ / \(<\delta^x_{avg}\) / OA	40.3 / 62.8 / 73.1	39.6 / 61.4 / 72.3	37.9 / 59.5 / 72.3	1.0 / 12.7 / 38.8
Kubric	AJ / \(<\delta^x_{avg}\) / OA	87.8 / 94.0 / 96.3	83.5 / 90.7 / 94.1	70.2 / 82.6 / 94.3	19.6 / 29.3 / 34.6
Harmony4D	AJ / \(<\delta^x_{avg}\) / OA	42.6 / 74.9 / 65.8	41.4 / 73.5 / 63.2	39.2 / 70.4 / 63.2	2.1 / 20.7 / 46.4