Trokens: Semantic-Aware Relational Trajectory Tokens for Few-Shot Action Recognition¶

会议: ICCV 2025
arXiv: 2508.03695
代码: 项目页面
领域: 视频理解 / 小样本动作识别
关键词: Few-Shot Action Recognition, 点轨迹追踪, 语义采样, 运动建模, HoD

一句话总结¶

提出Trokens框架，通过语义感知的轨迹点采样和关系运动建模（包含轨迹内HoD和轨迹间相对位移描述子），将点轨迹转化为语义感知的关系token，与外观特征融合后在6个few-shot动作识别基准上取得SOTA。

研究背景与动机¶

视频理解的核心在于运动与外观信息的协同建模。在few-shot动作识别中，由于训练数据极少，这一协同尤为关键。现有方法存在两个根本性挑战：

挑战1：如何选择有信息量的追踪点？¶

密集采样：覆盖全面但计算昂贵
均匀网格采样（如TATs）：简单高效，但无法适应物体尺度——小而关键的物体（如刀、按钮）容易被遗漏，而大面积背景被冗余采样
例如：在"用刀涂黄油"的动作中，均匀采样可能完全漏掉刀的运动

挑战2：如何有效建模轨迹运动模式？¶

现有Transformer方法（如TATs）将轨迹仅作为特征采样锚点，隐式依赖self-attention学习运动
但position embedding主要编码静态位置，不直接捕获时间位移或跨轨迹关系
光流方法（如optical flow）仅限于相邻帧分析，在遮挡下退化

Trokens的动机是：利用语义先验指导点采样实现自适应覆盖，同时显式建模轨迹内和轨迹间的运动动态。

方法详解¶

整体框架¶

Trokens由四个组件串联：

外观特征提取：DINOv2-base提取视频外观token \(\mathcal{F}^{\text{RGB}} \in \mathbb{R}^{H \times W \times T \times C}\)
语义感知点采样：基于DINO特征聚类进行自适应采样
关系运动建模：轨迹内HoD + 轨迹间相对位移
解耦时空Transformer：融合运动和外观token进行分类

语义感知点采样¶

核心思想：利用DINO patch token的自然语义聚类特性——同一物体的token在特征空间中自然聚集。

具体步骤： 1. 从DINOv2提取patch token特征 2. 将特征聚类为 \(L\) 个语义组 3. 每个组均匀采样 \(q = M/L\) 个点，其中 \(M=256\) 为总轨迹数 4. 从新语义组首次出现的帧开始采样 5. 用预训练的CoTracker追踪这些点，得到语义感知轨迹 \(\mathcal{P} \in \mathbb{R}^{M \times T \times 2}\)

关键优势：小物体（如刀）自成一个语义组，获得与大物体同等密度的采样点，确保不遗漏关键运动信息。

关系运动建模¶

轨迹内运动模块 (Intra-motion)¶

借鉴HoG (Histogram of Oriented Gradients) 的思想，采用HoD (Histogram of Oriented Displacements) 编码每条轨迹内的运动方向和幅度：

对轨迹 \(\mathcal{P}^m\) 在时刻 \(t\)，计算位移：

\[\Delta x_t = x_t - x_{t-\delta}, \quad \Delta y_t = y_t - y_{t-\delta}\]

位移幅度：\(\Delta d_t = \sqrt{\Delta x_t^2 + \Delta y_t^2}\)

位移方向：\(\theta_t = \arctan2(\Delta y_t, \Delta x_t)\)

将 \(\theta_t\) 量化为 \(B=32\) 个方向bin，位移幅度按最近两个bin的距离加权分配，得到每时刻的HoD描述子 \(\mathbf{H}_{\text{HoD}} \in \mathbb{R}^{T \times B}\)，通过FC层投影到 \(C\) 维特征空间：

\[\mathcal{F}_{\text{intra}}^{\text{motion}} = \text{FC}(f_{\text{HoD}}(\mathcal{P})) \in \mathbb{R}^{M \times T \times C}\]

与原始HoD的差异：(1) 逐时刻计算保持时序顺序；(2) 可学习投影增强表达力；(3) 从人体骨骼关键点泛化到任意轨迹。

轨迹间运动模块 (Inter-motion)¶

捕获不同轨迹之间的协调运动（如刀与面包的相对运动区分"涂黄油"和"切菜"）。

对每条轨迹 \(\mathcal{P}^m\) 在时刻 \(t\)，计算其与所有其他轨迹的相对位移：

\[\mathbf{d}_t^m = [(x_t^m - x_t^{m'}, y_t^m - y_t^{m'})]_{m'=1}^{M} \in \mathbb{R}^{2M}\]

完整描述子 \(\mathbf{d} \in \mathbb{R}^{M \times T \times 2M}\)，通过FC层投影：

\[\mathcal{F}_{\text{inter}}^{\text{motion}} = \text{FC}(\mathbf{d}) \in \mathbb{R}^{M \times T \times C}\]

运动感知时空Transformer¶

轨迹对齐：根据轨迹坐标从外观特征中采样得到轨迹对齐的外观token \(\mathcal{F}_{\text{traj}}^{\text{RGB}}\)
特征融合：通过逐元素相加融合三类特征：

\[\mathcal{F}^{\text{fuse}} = \mathcal{F}_{\text{traj}}^{\text{RGB}} + \mathcal{F}_{\text{intra}}^{\text{motion}} + \mathcal{F}_{\text{inter}}^{\text{motion}}\]

解耦注意力：在轨迹内（时间维度）和轨迹间（空间维度）分别做self-attention，结果相加
分类输出：可学习CLS token通过cross-attention聚合最终特征

损失函数¶

标准few-shot双损失：

\[\mathcal{L} = \mathcal{L}_{\text{CE}}(p_{\text{cls}}^Q, y) + \mathcal{L}_{\text{Contrastive}}(\mathcal{F}_{\text{final}}^Q, \mathcal{F}_{\text{final}}^S)\]

实验¶

主实验：SSV2 Full (5-way K-shot)¶

方法	1-shot	2-shot	3-shot	5-shot
MoLo (CVPR'23)	56.6	62.3	67.0	70.6
TATs (ECCV'24)	57.7	67.1	70.0	74.6
Trokens	61.5	69.9	73.8	76.7

在SSV2 Full上，1-shot提升 +3.8%（相对TATs），5-shot提升 +2.1%。SSV2是运动密集型数据集，验证了运动建模的重要性。

跨数据集泛化¶

数据集	方法	1-shot	3-shot	5-shot
SSV2 Small	TATs	47.9	60.0	64.4
SSV2 Small	Trokens	53.4	65.3	68.9
HMDB-51	TATs	60.0	71.8	77.0
HMDB-51	Trokens	69.8	80.0	82.3
UCF-101	TATs	92.0	96.8	95.5
UCF-101	Trokens	94.0	97.3	97.9

HMDB-51上1-shot提升+9.8%，SSV2 Small上1-shot提升+5.5%，改善非常显著。

消融分析¶

论文通过类别级性能分析（图3）展示了改善来源： - 语义采样优势：涉及小物体的动作类（如"Unfolding something"、"Twisting something"）提升明显 - 运动建模优势：需要精细时序动态的类别（如"Pulling something from left to right"）显著改善 - 局限性暴露：快速运动导致模糊（如"Rolling something on flat surface"）和大幅相机运动（如"Picking something up"）时，点追踪变得困难

亮点与洞察¶

语义感知采样是"被忽视的关键"：用DINO聚类指导采样的想法简单但效果显著，尤其对小物体动作
经典方法的现代复兴：HoD本是十年前的手工特征，Trokens将其改造为可学习、逐时刻的版本，在深度学习框架中焕发新生
显式运动建模 > 隐式学习：Transformer的self-attention虽然理论上可以捕获运动，但在few-shot低数据场景下，显式先验更有效
元素级相加融合虽简单，但在motion+appearance融合中表现出色

局限性¶

依赖CoTracker等外部点追踪模型，引入额外计算开销和依赖
轨迹间模块的 \(\mathbb{R}^{2M}\) 描述子随轨迹数平方增长，扩展性受限
在Kinetics等外观偏向数据集上增益有限（1-shot仅+1.0%），运动建模的价值取决于数据集特性
仅在vision-only设置下评估，未与多模态（加语言）方法对比

评分¶

创新性：⭐⭐⭐⭐ — 语义采样+HoD现代化+显式关系运动建模的组合新颖有效
实用性：⭐⭐⭐⭐ — 端到端可训练，6个基准全面SOTA
实验充分度：⭐⭐⭐⭐⭐ — 6个数据集、多种shot/way设置、类级分析
写作质量：⭐⭐⭐⭐ — 动机图清晰，方法推导完整