跳转至

General Compression Framework for Efficient Transformer Object Tracking

会议: ICCV 2025
arXiv: 2409.17564
代码: GitHub(论文提及 code available)
领域: 视频理解
关键词: 目标跟踪, 模型压缩, 知识蒸馏, Transformer, 高效推理

一句话总结

提出 CompressTracker,一个通用 Transformer 跟踪器压缩框架,通过阶段划分、替换训练和特征模仿三个递进创新,实现结构无关的高效压缩——压缩 SUTrack 后保持约 99% 精度同时加速 2.42 倍。

研究背景与动机

Transformer 跟踪器(如 OSTrack、SUTrack)在标准基准上取得了出色性能,但其部署在资源受限设备上面临挑战。现有加速方案存在三个核心问题:

精度不足: 轻量化设计(如 HiT、SMAT)因参数有限导致欠拟合

训练复杂: MixFormerV2 的多阶段蒸馏策略耗时 120 小时(8×RTX8000),且中间环节的次优性会累积

结构受限: 现有蒸馏范式要求学生模型与教师模型结构一致

CompressTracker 的目标是:端到端单步训练、结构无关、高精度保持的通用压缩方案。

方法详解

整体框架

CompressTracker 由三个递进的创新组成: 1. Stage Division → 2. Replacement Training → 3. Prediction Guidance & Feature Mimicking

它们构成一条连贯的知识传递链:阶段划分是基础,替换训练建立在阶段划分之上,预测引导和特征模仿进一步精细化知识传递。

关键设计

  1. Stage Division(阶段划分):

    • 将教师模型的 \(N_t\) 层均匀划分为 \(N\) 个阶段(\(N\) = 学生层数)
    • 每个学生阶段(1 层)学习复制对应教师阶段(多层)的功能
    • 在学生层前后添加线性投影层对齐特征维度(推理时去除)
    • 打破了传统将模型视为不可分割整体的范式,实现细粒度知识传递
    • 支持任意 Transformer 结构的学生模型
  2. Replacement Training(替换训练):

    • 训练时动态地随机替换学生阶段为对应的冻结教师阶段
    • 每个阶段通过 Bernoulli 采样决定使用教师还是学生: \(h_i = \begin{cases} stage_i^t(h_{i-1}), & r_i = 0 \\ stage_i^s(h_{i-1}), & r_i = 1 \end{cases}, \quad r_i \sim \text{Bernoulli}(p)\)
    • 核心优势:教师的未替换阶段为学生的被替换阶段提供上下文监督
    • 学生不是孤立学习,而是直接参与教师的行为
    • 推理时直接拼接各学生阶段
  3. Prediction Guidance & Stage-wise Feature Mimicking:

    • 预测引导: 用教师的预测作为额外监督,加速收敛
    • 阶段级特征模仿: 计算对应阶段输出的 L2 距离作为损失
    • 选择简单的 L2 距离而非复杂损失,旨在凸显阶段划分和替换训练的有效性
  4. Progressive Replacement(渐进式替换):

    • \(p\)\(p_{init}\) 渐进增长到 1.0,实现 easy-to-hard 学习
    • 消除了单独 finetune 步骤的需要,实现真正的端到端训练
    • 三段式调度:warmup (\(p_{init}\)) → 线性增长 → 全学生 (\(p=1.0\))

损失函数 / 训练策略

\[L = \lambda_{track} L_{track} + \lambda_{pred} L_{pred} + \lambda_{feat} L_{feat}\]
  • \(\lambda_{track} = 1\), \(\lambda_{pred} = 1\), \(\lambda_{feat} = 0.2\)
  • \(p_{init} = 0.5\)\(\alpha_1 = \alpha_2 = 0.1\)
  • AdamW 优化器,学习率 \(4 \times 10^{-5}\),500 epochs
  • 搜索/模板图像分辨率:256×256 / 128×128
  • 用教师预训练参数初始化学生(skip 策略略优于连续层)

实验关键数据

主实验 (表格)

跨教师模型压缩结果:

方法 LaSOT AUC 保持率 GPU FPS 加速比
SUTrack (教师) 73.2 100% 55 1.0×
CT-SUTrack 72.2 99% 134 2.42×
OSTrack (教师) 69.1 100% 105 1.0×
CT-OSTrack 66.1 96% 228 2.17×
ODTrack (教师) 73.2 100% 32 1.0×
CT-ODTrack 70.5 96% 87 2.71×

与轻量化跟踪器对比:

方法 LaSOT AUC TNL2K AUC TrackingNet AUC GPU FPS
MixFormerV2-S 60.6 48.3 75.8 325
HCAT 59.0 76.6 195
HiT-Base 64.6 80.0 175
CT-OSTrack-4 66.1 53.6 82.1 228

消融实验 (表格)

监督策略消融 (LaSOT AUC):

# Prediction Guidance Feature Mimicking Replacement Training AUC
1 62.8%
4 63.7%
5 64.1%
6 64.5%
8 65.2%

与其他压缩技术对比:

方法 AUC FPS
Pruning (MixFormerV2-S) 60.6% 325
Distillation 63.8% 228
CompressTracker-4 66.1% 228

关键发现

  • 三个组件递进贡献:RT (+0.9%), PG (+0.4%), FM (+0.7%),总计 +2.4% AUC
  • 替换概率在 0.5-0.7 范围内最优,过低训练不充分,过高缺乏师生交互
  • 均匀阶段划分与非均匀划分效果相当(62.8% vs 62.7%),选择简单方案
  • 用教师 skip 层初始化学生(62.3%)略优于连续层(62.0%)
  • 训练仅需 20 小时(8×RTX3090),远低于 MixFormerV2-S 的 120 小时
  • 框架可扩展到不同层数(2-8 层)、不同分辨率、不同教师模型

亮点与洞察

  • 真正通用: 适用于任意教师模型、任意层数、任意分辨率、任意学生架构,这是此前方法无法实现的
  • 替换训练的创意非常精巧:通过让教师阶段在训练时动态参与,学生的每个阶段都在真实的上下文中学习
  • 渐进式替换消除了多阶段训练,实现了端到端优化
  • CT-SUTrack 在 LaSOT 上 72.2% AUC,这一压缩后的性能甚至超过了许多未压缩的跟踪器

局限与展望

  • 学生层数仍需人工选择,可考虑自动搜索最优架构
  • 特征模仿仅用 L2 距离,更高级的分布匹配方法可能带来提升
  • 仅验证了 Transformer 跟踪器,CNN-Transformer 混合架构的适用性待探索
  • 渐进式替换的调度参数 \(\alpha_1, \alpha_2\) 对性能的影响未充分分析

相关工作与启发

  • 阶段划分的思想可推广到其他 Transformer 模型的压缩(检测、分割等)
  • 替换训练可视为一种更优雅的渐进蒸馏方式,未来可用于大语言模型压缩
  • 与 MixFormerV2 的对比表明:单步端到端训练优于复杂多阶段蒸馏

评分

  • 新颖性: ⭐⭐⭐⭐ 替换训练和渐进式替换策略新颖且有效
  • 实验充分度: ⭐⭐⭐⭐⭐ 4 个教师模型、5 个基准、详尽消融、多维度泛化验证
  • 写作质量: ⭐⭐⭐⭐ 结构清晰,逐步递进的框架设计表述流畅
  • 价值: ⭐⭐⭐⭐⭐ 通用框架具有极强的实用性,可直接应用于工业部署