TAMT: Temporal-Aware Model Tuning for Cross-Domain Few-Shot Action Recognition¶

会议: CVPR 2025
arXiv: 2411.19041
代码: https://github.com/TJU-YDragonW/TAMT
领域: 视频理解 / 少样本学习
关键词: 跨域少样本动作识别, 时序感知适配器, 模型微调, 协方差特征, 解耦训练

一句话总结¶

本文提出 TAMT，一个解耦的"预训练-微调"范式用于跨域少样本动作识别（CDFSAR），通过时序感知适配器（TAA）高效重校准冻结模型的中间特征，并利用全局时序矩调优（GTMT）捕获长短期时序协方差来生成强表示，在多个跨域场景中以 5 倍低的训练成本超越现有方法 13%-31%。

研究背景与动机¶

领域现状：少样本动作识别（FSAR）旨在利用少量标注样本进行视频动作分类。跨域 FSAR（CDFSAR）进一步引入了源域和目标域之间的域差异问题，需要在标注丰富的源域上学习知识并迁移到标注稀缺的目标域。

现有痛点：现有 CDFSAR 方法（如 SEEN、CDFSL-V）采用联合训练范式，将源数据和目标数据一起训练以缓解域差异。但存在两个关键问题：(1) 当有一个源域和多个目标域时，联合训练需要对每个目标域都重新训练一次模型，计算开销随目标域数量线性增长；(2) 推理阶段使用简单的最近邻分类器或微调分类器，未能充分挖掘预训练模型的潜力。

核心矛盾：联合训练的计算成本与多目标域适配需求之间的矛盾，以及预训练模型表征能力未被充分利用的问题。

本文目标：(1) 避免多目标域重复训练；(2) 高效地将预训练模型适配到目标域；(3) 生成更强的视频表征用于少样本匹配。

切入角度：采用解耦范式——源域预训练只做一次，目标域微调轻量快速。并设计时序感知的适配模块，因为视频理解的核心在于时序建模，而现有适配器主要关注空间信息。

核心 idea：用解耦的预训练-微调范式替代联合训练，通过轻量级时序感知适配器和基于一二阶矩的时序协方差特征表示，以极低参数量实现高效的跨域少样本动作识别。

方法详解¶

整体框架¶

TAMT 分为两个阶段：(1) 源域预训练——先用自监督重建（SSL）训练 VideoMAE 编码器学习通用时空结构，再用有监督分类（SL）增强语义判别力；(2) 目标域微调——冻结预训练编码器，通过 HTTN（层级时序调优网络）进行少样本适配。HTTN 包含嵌入 Transformer 后 L 层的局部 TAA 适配器和末尾的全局 GTMT 模块。最终用度量学习（欧氏距离）比较 query 和 support 的表征进行分类。

关键设计¶

时序感知适配器 (TAA):
- 功能：以极少可学习参数重校准冻结模型的中间视频特征
- 核心思路：对每层 Transformer 输出的特征 \(\mathbf{F} \in \mathbb{R}^{T \times M \times C}\)，TAA 生成时序感知的缩放因子 \(\gamma\) 和偏移因子 \(\beta\)，执行 \(\mathbf{F'} = \gamma \odot \mathbf{F} \oplus \beta\)。\(\gamma\) 和 \(\beta\) 通过对特征做全局平均池化后，经两层时序卷积（核大小 \(k_t=3\)）和瓶颈降维（\(C \to C/\rho \to C\)，\(\rho=4\)）生成。\(\gamma\) 和 \(\beta\) 共享降维层权重以进一步减少参数
- 设计动机：传统全量微调在少样本场景下易过拟合且计算量大。与 NLP/图像分类中的空间适配器不同，TAA 通过时序卷积显式捕获帧间动态信息，更适合视频任务。仅需 2.8M 参数（vs FFT 的 29.9M）和 1.9GB 显存（vs FFT 的 17.5GB）
全局时序矩调优 (GTMT) + 高效长短期时序协方差 (ELSTC):
- 功能：利用特征分布的一二阶矩生成更强大的视频全局表征
- 核心思路：最终表征 \(\mathbf{Z} = \mathcal{H}(\mathbf{M}_2) \oplus \mathbf{M}_1\)，其中一阶矩 \(\mathbf{M}_1\) 是全局平均池化，二阶矩 \(\mathbf{M}_2\) 通过 ELSTC 计算。ELSTC 将时序维度分为 G 组，每组内计算帧间协方差矩阵 \(\mathbf{R}_{t,t'}\)，捕获从短期（同帧外观）到长期（跨帧运动）的各尺度时序相关性。最后通过两层卷积聚合所有组的协方差，经线性投影对齐维度后与一阶矩相加
- 设计动机：传统方法仅用全局平均池化（一阶矩）作为表征，丢失了丰富的二阶统计信息。协方差矩阵能描述特征的分布形状，包含帧间运动模式的刻画。分组策略将计算量降低 G 倍，使得二阶矩计算可行
两阶段预训练策略:
- 功能：在源域上学习兼具泛化性和判别力的特征表示
- 核心思路：先用 VideoMAE 的掩码重建目标（SSL）训练编码器 400 个 epoch，学习通用时空结构；再用交叉熵分类损失（SL）训练 140 个 epoch，增强语义判别力
- 设计动机：纯 SSL 捕获基础特征但缺乏高层语义；纯 SL 在少样本跨域场景泛化性不足。两阶段策略实现泛化性和表征能力的平衡

损失函数 / 训练策略¶

预训练阶段：SSL 用均方误差（MSE）损失，SL 用交叉熵（CE）损失
微调阶段：CE 损失，欧氏距离作为度量函数
优化器：SGD + 余弦衰减学习率，微调仅 40 个 epoch
推理：5-way 1/5-shot，平均 10000 个 episode

实验关键数据¶

主实验¶

K-400 → 五个目标域 (5-way 5-shot 准确率%):

方法	HMDB	SSV2	Diving	UCF	RareAct	平均
CDFSL-V	53.23	49.92	17.84	65.42	49.80	47.24
SEEN	-	-	-	-	-	-
TAMT (ours)	74.14	59.18	45.18	95.92	67.44	68.37
提升	+20.91	+9.26	+27.34	+30.50	+17.64	+21.13

消融实验¶

预训练策略 + 微调方式 (K-400 源域, 5-way 5-shot):

预训练	微调方式	SSV2	Diving	UCF	平均
SSL only	Frozen	29.27	22.10	55.30	35.56
SL only	TAMT	45.15	37.96	89.73	56.48
SSL+SL	FFT	55.99	42.85	94.95	64.30
SSL+SL	TAMT	59.18	45.18	95.92	66.76

效率对比:

指标	FFT	TAMT
显存	17.5GB	1.9GB
参数量	29.9M	2.8M
训练时间	10.6h	7.3h

关键发现¶

TAMT 以仅 9.4% 的可训练参数（2.8M vs 29.9M）超越全量微调 2.46% 的平均准确率，说明在少样本场景下参数高效微调优于全量微调
SSL+SL 两阶段预训练远优于单独任一阶段，SSL 提供泛化性（+10.28%），SL 提供判别力
TAMT 训练计算成本约为 CDFSL-V 的 1/5（19 vs 88 GPU days），但性能提升 21%
在 Diving48 数据集上提升最大（+27.3%），说明时序建模对细粒度动作识别尤其重要

亮点与洞察¶

解耦训练范式的效率优势：源域只需预训练一次，面对多个目标域时只需轻量微调，实际部署成本大大降低。这个思路可以迁移到其他跨域少样本任务
时序感知的参数高效微调：不同于图像领域的 adapter 只关注空间信息，TAA 通过时序卷积显式建模帧间关系，是对视频 PEFT 的有意义探索
二阶统计量的力量：ELSTC 用协方差矩阵捕获帧间相关性，相比仅用均值（一阶矩）能编码更丰富的运动模式，且分组策略保证了计算效率

局限与展望¶

仅在 ViT-S/B 骨干上验证，未在更大模型（如 ViT-L）上测试扩展性
ELSTC 的分组数 G 和降维比 τ 作为超参数需要手动调整
未探索与文本/语言先验（如 CLIP）结合的可能性
在 RareAct 等罕见动作数据集上的提升相对较小，可能是因为这些动作确实与源域分布差异过大
可以考虑在 GTMT 中引入注意力机制动态选择重要的时序协方差分量

评分¶

新颖性: ⭐⭐⭐⭐ 解耦范式和时序感知适配器的结合是合理且有效的创新
实验充分度: ⭐⭐⭐⭐⭐ 5 个源域 ×5 个目标域的全面评估，消融详尽
写作质量: ⭐⭐⭐⭐ 方法描述清晰，动机论述充分
价值: ⭐⭐⭐⭐ 为 CDFSAR 提供了简单有效的 baseline，性能和效率优势明显