General Compression Framework for Efficient Transformer Object Tracking¶

会议: ICCV 2025
arXiv: 2409.17564
代码: GitHub（论文提及 code available）
领域: 视频理解
关键词: 目标跟踪, 模型压缩, 知识蒸馏, Transformer, 高效推理

一句话总结¶

提出 CompressTracker，一个通用 Transformer 跟踪器压缩框架，通过阶段划分、替换训练和特征模仿三个递进创新，实现结构无关的高效压缩——压缩 SUTrack 后保持约 99% 精度同时加速 2.42 倍。

研究背景与动机¶

Transformer 跟踪器（如 OSTrack、SUTrack）在标准基准上取得了出色性能，但其部署在资源受限设备上面临挑战。现有加速方案存在三个核心问题：

精度不足: 轻量化设计（如 HiT、SMAT）因参数有限导致欠拟合

训练复杂: MixFormerV2 的多阶段蒸馏策略耗时 120 小时（8×RTX8000），且中间环节的次优性会累积

结构受限: 现有蒸馏范式要求学生模型与教师模型结构一致

CompressTracker 的目标是：端到端单步训练、结构无关、高精度保持的通用压缩方案。

方法详解¶

整体框架¶

CompressTracker 由三个递进的创新组成： 1. Stage Division → 2. Replacement Training → 3. Prediction Guidance & Feature Mimicking

它们构成一条连贯的知识传递链：阶段划分是基础，替换训练建立在阶段划分之上，预测引导和特征模仿进一步精细化知识传递。

关键设计¶

Stage Division（阶段划分）:
- 将教师模型的 \(N_t\) 层均匀划分为 \(N\) 个阶段（\(N\) = 学生层数）
- 每个学生阶段（1 层）学习复制对应教师阶段（多层）的功能
- 在学生层前后添加线性投影层对齐特征维度（推理时去除）
- 打破了传统将模型视为不可分割整体的范式，实现细粒度知识传递
- 支持任意 Transformer 结构的学生模型
Replacement Training（替换训练）:
- 训练时动态地随机替换学生阶段为对应的冻结教师阶段
- 每个阶段通过 Bernoulli 采样决定使用教师还是学生： \(h_i = \begin{cases} stage_i^t(h_{i-1}), & r_i = 0 \\ stage_i^s(h_{i-1}), & r_i = 1 \end{cases}, \quad r_i \sim \text{Bernoulli}(p)\)
- 核心优势：教师的未替换阶段为学生的被替换阶段提供上下文监督
- 学生不是孤立学习，而是直接参与教师的行为
- 推理时直接拼接各学生阶段
Prediction Guidance & Stage-wise Feature Mimicking:
- 预测引导: 用教师的预测作为额外监督，加速收敛
- 阶段级特征模仿: 计算对应阶段输出的 L2 距离作为损失
- 选择简单的 L2 距离而非复杂损失，旨在凸显阶段划分和替换训练的有效性
Progressive Replacement（渐进式替换）:
- \(p\) 从 \(p_{init}\) 渐进增长到 1.0，实现 easy-to-hard 学习
- 消除了单独 finetune 步骤的需要，实现真正的端到端训练
- 三段式调度：warmup (\(p_{init}\)) → 线性增长 → 全学生 (\(p=1.0\))

损失函数 / 训练策略¶

\[L = \lambda_{track} L_{track} + \lambda_{pred} L_{pred} + \lambda_{feat} L_{feat}\]

\(\lambda_{track} = 1\), \(\lambda_{pred} = 1\), \(\lambda_{feat} = 0.2\)
\(p_{init} = 0.5\)，\(\alpha_1 = \alpha_2 = 0.1\)
AdamW 优化器，学习率 \(4 \times 10^{-5}\)，500 epochs
搜索/模板图像分辨率：256×256 / 128×128
用教师预训练参数初始化学生（skip 策略略优于连续层）

实验关键数据¶

主实验 (表格)¶

跨教师模型压缩结果:

方法	LaSOT AUC	保持率	GPU FPS	加速比
SUTrack (教师)	73.2	100%	55	1.0×
CT-SUTrack	72.2	99%	134	2.42×
OSTrack (教师)	69.1	100%	105	1.0×
CT-OSTrack	66.1	96%	228	2.17×
ODTrack (教师)	73.2	100%	32	1.0×
CT-ODTrack	70.5	96%	87	2.71×

与轻量化跟踪器对比:

方法	LaSOT AUC	TNL2K AUC	TrackingNet AUC	GPU FPS
MixFormerV2-S	60.6	48.3	75.8	325
HCAT	59.0	—	76.6	195
HiT-Base	64.6	—	80.0	175
CT-OSTrack-4	66.1	53.6	82.1	228

消融实验 (表格)¶

监督策略消融 (LaSOT AUC):

#	Prediction Guidance	Feature Mimicking	Replacement Training	AUC
1				62.8%
4			✓	63.7%
5	✓		✓	64.1%
6		✓	✓	64.5%
8	✓	✓	✓	65.2%

与其他压缩技术对比:

方法	AUC	FPS
Pruning (MixFormerV2-S)	60.6%	325
Distillation	63.8%	228
CompressTracker-4	66.1%	228

关键发现¶

三个组件递进贡献：RT (+0.9%), PG (+0.4%), FM (+0.7%)，总计 +2.4% AUC
替换概率在 0.5-0.7 范围内最优，过低训练不充分，过高缺乏师生交互
均匀阶段划分与非均匀划分效果相当（62.8% vs 62.7%），选择简单方案
用教师 skip 层初始化学生（62.3%）略优于连续层（62.0%）
训练仅需 20 小时（8×RTX3090），远低于 MixFormerV2-S 的 120 小时
框架可扩展到不同层数（2-8 层）、不同分辨率、不同教师模型

亮点与洞察¶

真正通用: 适用于任意教师模型、任意层数、任意分辨率、任意学生架构，这是此前方法无法实现的
替换训练的创意非常精巧：通过让教师阶段在训练时动态参与，学生的每个阶段都在真实的上下文中学习
渐进式替换消除了多阶段训练，实现了端到端优化
CT-SUTrack 在 LaSOT 上 72.2% AUC，这一压缩后的性能甚至超过了许多未压缩的跟踪器

局限与展望¶

学生层数仍需人工选择，可考虑自动搜索最优架构
特征模仿仅用 L2 距离，更高级的分布匹配方法可能带来提升
仅验证了 Transformer 跟踪器，CNN-Transformer 混合架构的适用性待探索
渐进式替换的调度参数 \(\alpha_1, \alpha_2\) 对性能的影响未充分分析

评分¶

新颖性: ⭐⭐⭐⭐ 替换训练和渐进式替换策略新颖且有效
实验充分度: ⭐⭐⭐⭐⭐ 4 个教师模型、5 个基准、详尽消融、多维度泛化验证
写作质量: ⭐⭐⭐⭐ 结构清晰，逐步递进的框架设计表述流畅
价值: ⭐⭐⭐⭐⭐ 通用框架具有极强的实用性，可直接应用于工业部署