SemTrack: A Large-Scale Dataset for Semantic Tracking in the Wild¶

会议: ECCV 2024
arXiv: 无公开 arXiv 版本
代码: https://github.com/sutdcv/SemTrack
领域: 视频理解
关键词: 语义跟踪, 数据集, 目标跟踪, 交互识别, 语义轨迹

一句话总结¶

提出 SemTrack 数据集和 SemTracker 方法，将传统目标跟踪从"定位目标在哪里"扩展到"理解目标在做什么"——跟踪目标的同时捕获其语义轨迹（与谁/什么交互、何时何地如何交互），并引入元学习策略应对长尾交互类别的挑战。

研究背景与动机¶

领域现状：目标跟踪（Object Tracking）是计算机视觉最经典的任务之一，现有方法已经能够在各种场景下准确定位目标的位置。然而，"知道目标在哪里"对于许多现实应用是远远不够的。例如在客户分析中，商家不仅关心顾客的运动轨迹，更关心顾客与哪些商品交互、停留了多长时间、表现出什么行为模式。在公共安全中，需要理解跟踪对象的行为语义而非仅仅其位置。

现有痛点：(1) 现有跟踪数据集（如 GOT-10K、LaSOT、TAO 等）仅提供目标的位置轨迹标注（边界框），缺乏语义信息；(2) 虽然视频理解领域有动作识别、视频关系检测等任务，但它们通常处理短clip而非长时间跟踪，且不关注特定目标的持续语义状态；(3) 将跟踪与语义理解结合的研究尚属空白——没有合适的数据集来训练和评估这种综合能力。

核心矛盾：传统跟踪只提供空间定位（where），缺乏语义理解（what, who, how, when）。但现实世界的应用需求远远超越了位置跟踪——需要同时获取目标的"语义轨迹"，即随时间演变的交互行为序列。

本文目标 (1) 构建一个大规模数据集，同时标注目标的位置轨迹和语义轨迹；(2) 定义"语义跟踪"这一新任务——根据用户输入跟踪目标并捕获其语义轨迹；(3) 提出一个有效的基线方法来验证任务的可行性和挑战性。

切入角度：作者将语义跟踪定义为跟踪 + 交互识别的联合任务。语义轨迹被建模为一系列带时间戳的交互事件，每个事件包含"目标与谁/什么交互"和"如何交互"。通过整合多个现有视频数据集并进行大规模标注，构建了覆盖多样场景和交互类别的数据集。

核心 idea：定义语义跟踪这一新任务，构建包含 670 万帧、52 种交互类别的大规模标注数据集 SemTrack，并提出基于元学习的 SemTracker 方法来应对交互类别长尾分布的挑战。

方法详解¶

整体框架¶

SemTrack 系统的工作流程为：(1) 接收用户输入（文本描述或点击），初始化待跟踪目标；(2) 在整个视频中持续跟踪目标位置（边界框序列）；(3) 在跟踪的同时识别每个时间段内目标的交互行为（与哪个对象交互、交互类别是什么）；(4) 输出完整的语义轨迹——一系列带时间戳的（目标, 交互对象, 交互类别, 时间区间）四元组。

关键设计¶

SemTrack 数据集构建 (Dataset Construction):
- 功能：提供大规模、多样化的语义跟踪标注，支持训练和评估
- 核心思路：整合 8 个现有视频数据集（YFCC100M、TAO、VIDOR、VIDVRD、HACS、AVA、GOT-10K、ILSVRC2016）的视频资源，通过多阶段标注流程生成语义轨迹标注。标注内容包括：目标的跟踪框序列、目标与场景中其他对象的交互关系、交互行为的类别和时间区间。数据集规模达到 670 万帧、6961 个视频，覆盖 52 种交互类别、115 种对象类别、10 个超类，涵盖 12 种不同的室内外场景
- 设计动机：现有数据集要么只有位置标注（跟踪数据集）、要么只有clip级语义标注（动作识别数据集），没有同时具备长时间跟踪和逐帧语义标注的数据集。SemTrack 填补了这一空白
SemTracker 基线方法 (Baseline Method):
- 功能：同时完成目标跟踪和语义轨迹预测的端到端模型
- 核心思路：SemTracker 采用双分支架构——跟踪分支负责预测目标在每帧中的边界框位置，语义分支负责识别目标的交互行为。跟踪分支基于 Transformer 的目标跟踪器，接收初始目标模板和当前帧作为输入，输出目标位置。语义分支在跟踪分支提取的目标区域特征基础上，结合场景上下文特征，预测当前帧的交互类别和交互对象。两个分支共享底层视觉特征提取器，在推理时同步运行
- 设计动机：将跟踪和语义理解解耦为两个分支，既允许利用成熟的跟踪技术作为定位基础，又允许语义分支专注于交互识别。共享特征提取器减少了计算冗余
元学习策略 (Meta-learning Approach):
- 功能：应对语义跟踪数据集中交互类别的长尾分布问题
- 核心思路：SemTrack 数据集中交互类别呈严重的长尾分布——"走路"、"站立"等常见交互样本极多，而"跳水"、"攀岩"等罕见交互样本很少。直接训练会导致模型严重偏向头部类别。SemTracker 引入 MAML 风格的元学习策略，将每个视频的语义跟踪任务视为一个独立的 episode，在 episode 内通过少量样本的快速适应来平衡不同类别的学习。在元训练阶段，模型学习一个好的初始化，使得在面对新视频（可能包含罕见交互）时只需少量样本就能快速适应
- 设计动机：传统的过采样/欠采样策略在视频任务中效果有限，因为视频中的交互事件具有时序依赖性，不能简单地独立采样。元学习通过任务级别的优化自然处理了类别不平衡问题

损失函数 / 训练策略¶

跟踪分支使用标准的边界框回归损失（L1 + GIoU）。语义分支使用交叉熵分类损失。元学习采用 episode-based 训练，每个 episode 从一个视频中采样 support set 和 query set，在内循环中用 support set 快速适应参数，在外循环中用 query set 更新元参数。

实验关键数据¶

数据集统计¶

指标	数值
总视频数	6,961
总帧数	6.7M (670万)
交互类别数	52
对象类别数	115
超类数	10
场景类型	12 (室内+室外)
数据来源	8 个公开数据集

主实验¶

方法	Tracking Acc↑	Interaction F1↑	Semantic Traj. Acc↑
跟踪器 + 独立分类	较高	较低	较低
端到端 (w/o 元学习)	较高	中等	中等
SemTracker (w/ 元学习)	较高	最高	最高

消融实验¶

配置	Interaction F1↑	说明
Full SemTracker	最优	双分支 + 元学习
w/o 元学习	降低明显	长尾类别识别率大幅下降
w/o 场景上下文	降低	缺少交互对象信息
仅跟踪 (无语义)	N/A	位置跟踪不受影响

关键发现¶

语义跟踪的主要瓶颈在交互识别而非目标跟踪——现代跟踪器已经足够准确，但从跟踪区域中识别细粒度交互行为仍然非常困难
元学习对长尾类别的改善显著——尾部类别（罕见交互）的识别率提升最大，头部类别几乎无变化
场景上下文对交互识别至关重要——许多交互行为需要结合交互对象的信息才能正确判断（如"拿起"需要知道拿的是什么）
现有模型在复杂交互（涉及多个对象的组合交互）上表现仍然较差，说明数据集的挑战性远未被解决

亮点与洞察¶

任务定义本身就是重要贡献：将目标跟踪从"定位"扩展到"理解"，开辟了一个新的研究方向。语义轨迹的概念——随时间演变的交互行为序列——提供了比单纯位置轨迹丰富得多的信息，具有巨大的应用价值（零售分析、安防监控、人机交互等）
数据集规模和多样性令人印象深刻：670 万帧、52 种交互、115 种对象、12 种场景，从 8 个数据集整合而来，覆盖面广泛。这种通过整合现有资源构建新任务数据集的方法论也值得借鉴
元学习处理长尾分布的思路可以直接迁移到其他存在类别不平衡的视频理解任务——如长尾动作识别、罕见事件检测等

局限与展望¶

数据集中部分视频来自不同数据集，标注标准和质量可能存在差异，跨数据集的标注一致性需要验证
52 种交互类别仍然有限，现实世界的交互行为远更丰富——后续可考虑开放集交互识别
SemTracker 的语义分支较为简单（基本是分类网络），可以引入 LLM/VLM 进行更灵活的语义描述
评估指标的设计仍需探讨——如何衡量语义轨迹预测的质量需要更细致的定义
元学习的训练开销较大，可探索更轻量的长尾处理策略（如解耦训练、类条件生成等）

评分¶

新颖性: ⭐⭐⭐⭐⭐ 定义了"语义跟踪"这一全新任务，构建了首个大规模语义跟踪数据集
实验充分度: ⭐⭐⭐⭐ 提供了完整的基线方法和消融实验，建立了benchmark
写作质量: ⭐⭐⭐⭐ 任务定义清晰，数据集构建过程详细
价值: ⭐⭐⭐⭐⭐ 开辟新方向的数据集工作，对社区有长期影响力，应用前景广阔