Adaptive Depth Lightweight RGB-T Tracking with Holistic Token Routing¶

会议: CVPR 2026
论文: CVF Open Access
代码: 待确认
领域: 模型压缩
关键词: RGB-T 跟踪, 自适应早退出, 轻量化, 跨模态融合, 动态推理

一句话总结¶

ADTrack 把网络深度当作可动态分配的算力预算——给冻结的双流 ViT-T 骨干装上多层"随时可出结果"的预测头和置信度校准的早退出策略，并用一个只有 37.3K 参数的整体令牌路由模块（HTGI）做廉价跨模态融合，在 LasHeR 上拿到 70.2% PR / 56.3% SR 的同时跑到 GPU 148.3 FPS、CPU 50.2 FPS、边缘端 28.7 FPS。

研究背景与动机¶

领域现状：RGB-T 跟踪用热红外（TIR）补 RGB 在夜间、强光、雾、遮挡下的短板，近年主流从"把 TIR 当弱先验/文本式条件提示"转向双分支 Transformer + 显式跨模态交互（TBSI、BAT、STTrack、XTrack 等），靠重型骨干和全局 cross-attention/adapter 堆叠换来更强表征和更高精度。

现有痛点：这种精度是用算力换的。即便不做任何跨模态交互，光是同时处理两路模态就已经让原始计算量相比纯 RGB 翻倍；再叠上重型融合/对齐块，FLOPs、显存、带宽进一步飙升，导致实时只能在高端 GPU 上勉强成立，UAV、移动机器人、便携监控这类资源受限边缘平台基本部署不了。

核心矛盾：精度与效率的 trade-off。压缩多模态跟踪器的主流做法是收窄骨干宽度，但深度通常仍沿用通用配置不动。作者观察到：在 RGB-T 这种先验明确的领域专用任务里，深度的边际收益递减——冗余层只是徒增延迟和能耗、甚至加剧过拟合，并不带来相称的精度提升。

切入角度：作者把 score map（响应图）逐层可视化，发现在深层它们高度相似、信息早早饱和（SSIM / Peak Alignment / Cosine 在较深的中间层都 >0.95），说明决策其实已经收敛。但"饱和"不等于"层可删"——逐个移除 12 层 ViT 里任意一层都会让 LasHeR 显著掉点，说明每一层在构建判别表征上结构性必要。结论是：深度该被当成可优化的资源而非固定超参，并且要在保留完整模型容量的前提下，按帧跳过冗余计算。

核心 idea：用"自适应早退出（按帧动态决定推理到第几层就停）" + "整体令牌路由（用极少量全局令牌跨模态互相引导）"，在不改网络结构、不做教师蒸馏的情况下，把深度变成一个可控的算力预算。

方法详解¶

整体框架¶

ADTrack 是一个双流跟踪器：RGB 与 TIR 各走一条冻结的轻量 ViT-T 骨干提特征。给定模板-搜索对 $(z, c)$，输入图像切成 patch token 序列 $z_{rgb}, c_{rgb}, z_{tir}, c_{tir} \in \mathbb{R}^{N\times D}$，两路独立编码。在此之上挂两个核心模块：HTGI（Holistic-Token-Guided Interaction）插在骨干的若干关键层（实测第 3/6/9 层）之间，从一路模态蒸出少量整体令牌注入另一路做轻量融合；AEE（Adaptive Early-Exit）在多个深度挂"随时可出结果"的预测头，推理时根据置信度按帧动态决定停在哪一层。整体管线是：双流编码 → 多层穿插 HTGI 跨模态引导 → 每个装备层由 AEE 算置信度判断是否早停 → 输出 score map 回归框。

推理时 AEE 的置信度定义为中间 score map 的最大响应 / 全部响应之和；一旦超过预校准阈值 $\tau$（默认 0.75），立即终止推理、输出当前预测——简单帧浅层就停，困难帧才往深里算。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["RGB / TIR 模板-搜索对<br/>切 patch token"] --> B["冻结双流 ViT-T<br/>各自编码"]
    B --> C["整体令牌路由 HTGI<br/>蒸出 K 个全局令牌<br/>跨模态双向注入"]
    C --> D["自适应早退出 AEE<br/>多层挂随时可出头<br/>算置信度 r_l"]
    D -->|"r_l > τ：简单帧"| E["早停输出框"]
    D -->|"r_l ≤ τ：困难帧"| C

关键设计¶

1. 自适应早退出 AEE：把深度从固定超参变成按帧可控的算力预算

痛点是固定深度对每一帧都付同样的算力，而 score map 在深层早已饱和、简单帧根本用不到那么深，但又不能直接删层（删任一层都掉点）。AEE 的做法是在骨干的多个深度挂上轻量预测头，每个头生成一张临时 score map $S_l$，这些中间头与主解码器共享参数、但被联合优化去逼近最终收敛行为。核心是一个自监督校准方案：对每个头定义归一化置信度 $$r_l = \frac{\max(S_l)}{\sum_i S_{l,i}}, \quad r^* = \frac{\max(S_L)}{\sum_i S_{L,i}},$$ 其中 $S_L$ 是最深层的最终 score map。训练目标为 $$L_{AEE} = \sum_l \Big[ L_{pred}(S_l, y) + |r_l - r^*| + M(r_l, r^*, \tau) \Big],$$ margin 函数 $M(r_l, r^*, \tau) = (\tau - r_l)_+$ 当 $r^* > \tau$，否则 $(r_l - \tau)_+$。三项各司其职：第一项保证每个中间头能独立定位目标；第二项把置信度沿深度对齐，逼它随特征变判别而单调上升；margin 项在退出阈值 $\tau$ 周围画一条软边界——当最终状态已收敛却中间层欠自信、或最终状态还不确定却中间层过自信，都要罚。这样每一层都端到端地内化了"收敛"和"退出边界"的语义，早退出从启发式规则升级成可学习的过程：halting 自然地从表征饱和中涌现。推理时对每个装备层确定性地套用同一置信度度量，超 $\tau$ 就停，简单帧浅推、困难帧深算。训练时还配合随机深度截断与校准置信目标，鼓励模型在一段深度范围内都鲁棒，而非只依赖最深配置。

2. 整体令牌路由 HTGI：用几个全局令牌做近乎零成本的跨模态引导

痛点是显式跨模态交互（重型 cross-attention / adapter 堆叠）虽强但太贵，是延迟和参数的大头。HTGI 建立在一个观察上：跨模态依赖往往低秩，可以由少数几个信息量大的全局描述子承载，不必逐层对齐。于是它分两步走。Holistic Token Generator（HTG）：给定模板特征 $X_t \in \mathbb{R}^{B\times N_t\times C}$，学 $K$ 个整体令牌 $H = [h_1,\dots,h_K]$ 捕捉互补的全局线索；不同于简单求和，HTG 对每个令牌用一个轻量可学习加权机制——一个 Token Router（轻量 MLP $f_k$）先把输入特征变成逐 patch 权重，再逐元素乘回原特征并全局求和： $$h_k = \sum_{i=1}^{N_t} \big( f_k(x_i) \odot x_i \big), \quad k=1,\dots,K,$$ 于是每个令牌学着表示一种独立语义成分（目标结构、轮廓、热信号），形成紧凑可解释的全局表征。Feature Interaction：把一路模板的整体令牌 $H_n$ 和另一路搜索特征 $X_m$ 拼接，丢进一个 Transformer block 联合处理 $Z = \text{TransformerBlock}([H_n : X_m])$；传播后前 $K$ 个（注入的整体令牌）被丢弃，剩下 $N$ 个就是被引导精炼过的特征 $X_{m'}$。注入的整体令牌在这里充当语义锚点，把模态 $n$ 的全局先验经自注意力扩散到模态 $m$ 的各空间位置，且双向进行。关键省在哪：它复用已有的自注意力层、不引入额外 cross-attention 参数，整个模块仅 37.3K×3 参数（<0.2% 模型），同时保持各分支表征完整、防止一路模态压倒另一路。

损失函数 / 训练策略¶

训练用 VTUAV 与 LasHeR 联合训练，采样比 1:2；每个样本含两张 128×128 模板 + 一张 256×256 搜索图。8 卡 RTX 4090 训 15 epoch，每 epoch 60K 配对样本，batch size 32。AdamW，ViT 骨干初始学习率 $1\times10^{-5}$、其他参数 $1\times10^{-4}$，第 10 epoch 后降 10 倍，weight decay $1\times10^{-4}$。骨干冻结，不依赖教师蒸馏。推理用两张模板帧。

实验关键数据¶

主实验¶

在 LasHeR / RGBT234 上对比 SOTA（PyTorch FPS，不含预处理）：

方法	骨干	LasHeR PR	LasHeR SR	RGBT234 MPR	GPU FPS	CPU FPS	边缘 FPS
ADTrack（本文）	ViT-T	70.2	56.3	88.6	148.3	50.2	28.7
CMDTrack-T12	ViT-T	67.5	55.3	84.5	-	-	-
LightFC-T	ViT-T	64.7	50.7	83.4	35.2	7.9	7.1
SUTrack-Tiny	HIViT-T	66.7	53.9	85.9	102.4	26.6	15.6
TBSI-Tiny	ViT-T	61.7	48.9	-	48.9	19.3	8.8
CAFormer	ViT-B	70.0	55.6	88.3	63.5	8.7	7.5
BAT	ViT-B	70.2	56.3	86.8	62.0	5.4	5.9
TBSI	ViT-B	69.2	55.6	-	47.3	4.6	5.0

ADTrack 用 ViT-T 在精度上追平甚至超过一众 ViT-B 重型方法（PR 70.2 与 BAT 持平、超 TBSI 1.0%），CPU 速度却比 TBSI 快 10 倍以上；是唯一能在 GPU/CPU/边缘三种平台全部实时的 RGB-T 跟踪器。另在 GTOT（PR 93.0 / SR 77.6）、RGBT210（PR 87.8 / SR 65.2，超 CAFormer 2.2/2.0）、VTUAV-ST（MPR 87.6 / MSR 75.4）等基准也领先。

消融实验¶

HTGI 组件与模板设计（LasHeR）：

配置	PR	NPrec	SR	说明
Single template w/o HTGI	66.3	62.2	52.7	单静态模板 + 无交互
w/o HTGI	66.9	63.0	53.2	仅后期拼接，无显式交互
RGB→TIR	68.2	64.5	54.3	单向路由
TIR→RGB	67.9	64.4	53.9	单向路由
Full Model	70.2	66.3	56.3	双向 HTGI + 双模板

早退出阈值 $\tau$ 的精度-速度权衡（LasHeR）：

阈值 τ	PR	SR	GPU FPS	CPU FPS	说明
0.65	68.6	54.7	192.0	63.5	太激进，掉精度
0.70	69.7	55.9	175.6	57.9
0.75*	70.2	56.3	148.3	50.2	最优平衡点
0.80	70.1	56.3	123.2	42.8
1.00	70.2	56.4	84.3	27.1	关闭早退出，仅微涨 SR 但慢 40%+

关键发现¶

双向 HTGI 是涨点主力：从 w/o HTGI（66.9）到单向（~68）再到双向（70.2），SR 涨 3.1%；单向就已有明显增益，说明两个方向各捕捉互补强项，双向把它们组成主-辅角色。
HTGI 多层布置比单层好：只在第 3 层放 PR 68.5、加到 3/6/9 三层 PR 70.2，分层跨模态融合能同时精炼低层空间线索和高层语义。
早退出几乎无损省一半算力：$\tau$ 从 0.75 提到 1.0（完全关闭早退出）只换来 SR +0.1%，却让 GPU 速度掉 40%+；0.75 是甜点。
层不可删但可早停：逐个删 12 层任意一层都显著掉点（PR 从 67.0 跌到 60~64），证明 AEE 的"保留完整容量、按帧跳过冗余"路线比静态剪层正确。

亮点与洞察¶

"深度即算力预算"的视角：核心洞见是 RGB-T 这种先验明确的任务里 score map 深层早饱和，但层又不能删——于是不改结构、改推理路径，用置信度按帧停在最早可靠的层。这把早退出从启发式阈值升级成端到端学习的、收敛感知的过程。
归一化置信度做退出信号很巧：用 score map 的"峰值/总和"比值当置信度，无需额外分类头或不确定性估计，天然刻画响应图收敛程度，可直接拿来做确定性 halting 判据。
HTGI 的极致轻量：跨模态融合不堆 cross-attention，而是用 Token Router 学加权把每路模态压成 K 个可解释整体令牌、复用自注意力扩散——37.3K×3 参数（<0.2%）做到双向引导，思路可迁移到任意需要廉价跨模态/跨分支交互的多模态任务。
多头共享参数 + 自校准：中间头与主解码器共享权重，靠自校准 loss（含 margin 项）逼置信度沿深度单调上升，避免给每层单独训退出分类器的开销。

局限与展望¶

退出阈值 τ 是全局静态超参：0.75 是在 LasHeR/RGBT234 上调出的甜点，跨数据集/跨场景是否需要重新校准、能否做成自适应阈值，论文未深入。⚠️
骨干冻结 + ViT-T 限定：方法建立在冻结轻量骨干上，没验证在更大骨干或可训练骨干上 AEE/HTGI 的收益是否还成立；精度上限受 ViT-T 容量约束。
置信度度量对响应图形态敏感：峰值/总和比值在多峰、强干扰（多个相似目标）下是否仍是可靠的收敛信号，存疑——这正是跟踪最难的场景。⚠️
改进方向：把 τ 做成依帧/依注意力熵动态调整；将整体令牌路由扩展到时序维度（结合 STTrack 式的时间动态）；探索 AEE 与硬件级早停（跳过未触发分支的内存搬运）的协同。

评分¶

新颖性: ⭐⭐⭐⭐ "深度即算力预算 + 收敛感知早退出"在 RGB-T 跟踪里是新视角，HTGI 的整体令牌路由也轻巧。
实验充分度: ⭐⭐⭐⭐⭐ 五个 RGB-T 基准 + 三种硬件平台速度 + HTGI/布置/阈值多组消融，证据链完整。
写作质量: ⭐⭐⭐⭐ 动机（score map 饱和但层不可删）讲得清楚，公式与消融对得上。
价值: ⭐⭐⭐⭐⭐ 唯一三平台全实时的 RGB-T 跟踪器，边缘部署落地价值高。