跳转至

Real-World Point Tracking with Verifier-Guided Pseudo-Labeling

会议: CVPR 2026
arXiv: 2603.12217
代码: kuis-ai.github.io/track_on_r
领域: 视频理解 / 点跟踪
关键词: point tracking, pseudo-labeling, verifier, multi-teacher ensemble, sim-to-real adaptation

一句话总结

提出一个可学习的Verifier元模型,在合成数据上训练"判断tracker预测可靠性"的能力并迁移到真实世界,通过逐帧评估6个预训练tracker的预测来选取最可靠的作为伪标签,仅用~5K真实视频即微调出在4个真实世界基准上全面SOTA的Track-On-R模型。

研究背景与动机

领域现状:长程点跟踪模型(CoTracker、TAPIR、Track-On等)通常在合成数据(TAP-Vid Kubric)上训练。近年提出自训练方法(BootsTAPIR、CoTracker3)在真实视频上用伪标签微调以弥合sim-to-real gap。

现有痛点

  1. 单个tracker在不同帧/场景下可靠性差异巨大——快速运动、低纹理、遮挡、身份切换等不同挑战下各有擅长
  2. 朴素自训练(随机选一个教师生成伪标签)或固定融合策略无法应对这种异质性,会传播系统性误差
  3. BootsTAPIR等方法需要百万级真实视频做大规模蒸馏,数据效率低

核心矛盾:Oracle实验表明,若每帧都能选到最佳tracker,性能可大幅提升(与实际方法gap很大),但没有自动化方法能实现这种逐帧自适应选择。

本文目标 学会自动判断多个tracker在每一帧的可靠程度,选取最准确的预测作为伪标签。

切入角度:训练一个"Verifier"元模型——不做跟踪本身,而是学习"谁跟得好"。在合成数据上通过"造假→识假"(对GT轨迹施加随机扰动模拟tracker错误)学习可靠性判断。

核心 idea:Verifier不跟踪点,而是给tracker的预测打分,把多模型互补性转化为高质量伪标签。

方法详解

整体框架

这篇要解决的是点跟踪的 sim-to-real 鸿沟:跟踪模型大多在合成数据(TAP-Vid Kubric)上训,搬到真实视频就掉点,而已有自训练方法要么随机挑一个教师生成伪标签、传播系统误差,要么像 BootsTAPIR 那样需要百万级真实视频。本文的巧思是训一个不做跟踪、只做「裁判」的 Verifier 元模型。

流程是:给定视频和查询点,6 个预训练教师 tracker 各生成一条候选轨迹 \(\mathbf{C} \in \mathbb{R}^{L \times M \times 2}\);Verifier 在每一帧给这 \(M\) 个候选打可靠性分数 \(\hat{\mathbf{s}}_t \in \mathbb{R}^M\),逐帧选最高分的候选,拼成完整的伪标签轨迹;再用这条伪标签微调学生模型 Track-On2。推理时 Verifier 还能当即插即用的集成模块直接用。Verifier 本身(局部化特征 + Candidate Transformer)则提前在合成数据上「造假→识假」训好。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400, 'subGraphTitleMargin': {'top': 8, 'bottom': 16}}}}%%
flowchart TD
    TR["Verifier 训练:合成数据造假→识假<br/>K-EPIC GT 轨迹 + 6 类随机扰动 → 扰动候选"]
    R["真实视频 + 查询点"] --> T6["6 个预训练教师<br/>各出候选轨迹 C"]
    subgraph VER["局部化特征 + Candidate Transformer"]
        direction TB
        FE["冻结 CNN + 可变形注意力<br/>抽查询/候选局部特征"] --> CT["Candidate Transformer<br/>受限交叉注意力 + 时间自注意力<br/>→ 逐帧可靠性分数"]
    end
    TR -->|软对比目标监督| VER
    T6 --> VER
    CT --> SEL["逐帧选最高分候选<br/>拼成伪标签轨迹"]
    SEL --> TUNE["微调学生 Track-On2<br/>合成 + 真实混合"]
    TUNE --> OUT["Track-On-R(4 基准 SOTA)"]

关键设计

1. Verifier 训练:在合成数据上「造假→识假」,零真实标注学会判断可靠性

Verifier 要学的是「谁跟得准」,而真实数据没有 GT、没法直接监督。本文的办法是在 K-EPIC 合成数据集(11K 视频、24 帧/视频)上自造训练信号:对 GT 轨迹施加 6 类随机扰动(漂移、跳变、遮挡、身份切换等,位移 1~128 像素)模拟真实 tracker 的各种失败,生成候选轨迹 \(\mathbf{C}\);监督目标是「离 GT 越近的候选得分越高」,用软对比目标分布 \(\mathbf{s}_t = \text{Softmax}(-\|\mathbf{C}_t - \mathbf{p}_t\| / \tau_s)\)\(\tau_s = 0.1\)),损失为遮挡帧 mask 掉的交叉熵 \(\mathcal{L} = \sum_t v_t \cdot \text{CE}(\hat{\mathbf{s}}_t, \mathbf{s}_t)\)。因为学的是「可靠性判断」这种与具体场景无关的能力,它能从合成域迁移到真实域。

2. 局部化特征 + Candidate Transformer:只看候选点周围,跨帧传播上下文再打分

Verifier 不需要、也不应该对整帧做全局推理——它只关心每个候选位置靠不靠谱。于是用 CoTracker3 的冻结 CNN 编码器提帧级密集特征 \(\mathbf{F}_t \in \mathbb{R}^{H' \times W' \times D}\),在查询点和每个候选位置用可变形注意力(deformable attention)抽局部特征;位置编码用正弦编码候选相对查询点的位移 \(\boldsymbol{\Delta}_t = \mathbf{C}_t - \mathbf{q}_{t_0}\),再加可学习身份编码区分查询和候选。核心的 Candidate Transformer 用受限交叉注意力(每帧 query 只 attend 当前帧的 \(M\) 个候选)配合时间维自注意力(跨帧传播上下文),输出每帧对 \(M\) 个候选的温度缩放 softmax 分布 \(\hat{\mathbf{s}}_t = \text{Softmax}(\mathbf{f}_t^q \cdot \mathbf{f}_t / \tau)\)\(\tau = 0.1\))。

3. Verifier 引导的真实世界微调:用伪标签把学生模型拉到真实域,且数据极省

有了 Verifier,就能把多教师的互补性转成高质量伪标签。6 个教师是 Track-On2、BootsTAPIR、BootsTAPNext、Anthro-LocoTrack、AllTracker、CoTracker3(window);真实视频取自 TAO + OVIS + VSPW 中 >48 帧的片段,共 4864 段、无需任何标注;查询点 2/3 来自 SIFT 检测、1/3 来自运动显著区域,可见性由教师多数投票估计。训练采用合成数据(有 GT)与真实数据(Verifier 伪标签)混合、逐渐增大真实数据权重的策略。最终仅用约 5K 真实视频就超过用百万级数据的 BootsTAPIR,数据效率提升 100 倍以上。

损失函数 / 训练策略

Verifier 训练用软可靠性目标上的交叉熵、遮挡帧 mask;学生模型微调用标准点跟踪损失(位置 L1 + 可见性 BCE),合成与真实数据混合、真实数据的 loss 权重逐步增大。学生基线是预训练于 TAP-Vid Kubric 的 Track-On2。

实验关键数据

主实验

真实世界点跟踪基准对比:

模型 EgoPoints δ_avg RoboTAP AJ Kinetics AJ DAVIS AJ 类型
Track-On2 61.7 68.1 55.3 67.0 合成预训练
BootsTAPIR 55.7 64.9 54.6 61.4 真实微调(百万级)
BootsTAPNext-B 33.6 64.0 57.3 65.2 真实微调(百万级)
CoTracker3 54.0 66.4 55.8 63.8 真实微调
AllTracker† 62.0 68.8 56.8 63.7 额外光流数据
Track-On-R (本文) 67.3 70.9 57.8 68.1 真实微调(~5K)

消融实验

Verifier集成 vs 各教师(δ_avg / AJ on DAVIS & RoboTAP)

方法 DAVIS δ_avg RoboTAP δ_avg
随机选教师 79.5 77.4
最佳单教师 ~79-80 ~80
Verifier选择 80.6 81.8

教师数量影响:增加教师数量单调提升Verifier性能——即使加入弱教师也不会降低Verifier(但会降低随机选择baseline)。

数据效率:仅用~3K视频(TAO子集)即可获得大部分适应收益,远少于BootsTAPIR的百万级需求。

Verifier vs 非学习集成策略:Verifier超越几何中位数、一致性投票、Kalman滤波等所有非学习baseline。

关键发现

  • Track-On-R在4个基准上全面SOTA,EgoPoints上δ_avg 67.3超越AllTracker 5.3个点
  • 仅~5K真实视频即超越使用百万级数据的BootsTAPIR/BootsTAPNext,数据效率提升>100×
  • 真实世界微调不损害合成基准性能,甚至在PointOdyssey上δ_avg提升+8.3
  • 不同教师在不同数据集上排名差异大(BootsTAPNext在RoboTAP最差但DAVIS第二),验证了自适应选择的必要性

亮点与洞察

  • Verifier作为"元模型"的设计非常巧妙——不做跟踪本身,而是学习"谁跟得好",将多tracker互补性转化为高质量伪标签
  • Oracle gap分析(Fig.2)极有说服力地展示了自适应选择的巨大潜力
  • 训练时的轨迹扰动(6类扰动模式)设计精巧,覆盖真实tracker的各种失败模式,且完全在合成数据上完成
  • 数据效率极高(~3K视频接近最佳,百倍少于BootsTAPIR)是关键实用优势
  • Verifier推理时也可直接作为即插即用集成模块,无需微调即有增益

局限与展望

  • Verifier的上界受限于教师tracker集合——所有教师在某帧都失败则Verifier也无能为力
  • 推理时使用6个教师tracker的计算开销较大(6倍推理成本)
  • 当前仅验证点跟踪任务,Verifier思路是否能推广到光流、VOS等任务需进一步探索
  • 微调效果依赖真实视频数据的质量和多样性,极端域外场景(如水下、热成像)的适用性未知
  • Verifier本身的泛化性——在K-EPIC合成数据上训练,在风格差异更大的真实场景中能否保持有效

相关工作与启发

  • vs CoTracker3:同为教师伪标签策略,但CoTracker3随机选教师,Kinetics AJ 55.8 vs 本文57.8;核心差距在于伪标签质量
  • vs BootsTAPIR/BootsTAPNext:大规模学生-教师蒸馏需百万级视频,本文仅~5K即超越,数据效率差距巨大
  • vs AllTracker:利用额外真实光流标注数据,EgoPoints 62.0 vs 本文67.3,说明Verifier伪标签甚至优于真实光流标注的监督
  • 启发:Verifier思路可迁移到任何需要多模型融合/伪标签选择的场景——目标检测、语义分割的多教师蒸馏中,逐样本选择最可信教师

评分

  • 新颖性: ⭐⭐⭐⭐⭐ Verifier元模型的设计将可靠性估计从启发式提升到可学习范式,思路新颖优雅
  • 实验充分度: ⭐⭐⭐⭐⭐ 4个真实世界+2个合成基准,教师组合/数据量/非学习baseline/Oracle对比全面
  • 写作质量: ⭐⭐⭐⭐⭐ Oracle gap分析极有说服力,方法描述清晰,Fig.1/2/3示意图优秀
  • 价值: ⭐⭐⭐⭐⭐ Verifier思路通用性强,数据效率高,对点跟踪和更广泛的自训练/伪标签领域有重要启示