Rethinking Occlusion Modeling for UAV Tracking¶
会议: CVPR 2026
论文: CVF Open Access
代码: 无
领域: 视频理解
关键词: UAV跟踪, 遮挡建模, 聚类掩码, 动态深度, 单流Transformer
一句话总结¶
针对无人机视角下遮挡呈"成块出现"的真实特性,本文用聚类采样生成空间相关的遮挡掩码(COM)来训练更鲁棒的表征,再用一条与层成本挂钩的深度偏置(CADB)让推理自动停在更浅的层,二者合成的 OCTrack 在四个 UAV benchmark 上做到了精度与 265 FPS 实时速度的良好平衡。
研究背景与动机¶
领域现状:无人机视觉跟踪已经从相关滤波(DCF)一路走到基于 Transformer 的单流架构(MixFormer、OSTrack、DropMAE),把模板特征提取和模板-搜索区交互统一进一个网络。近期工作(AVTrack、SGLATrack、Aba-ViTrack)又在单流之上加了自适应 token 调度、动态深度控制,在机载算力受限的前提下追求实时推理。
现有痛点:无人机场景里目标小、运动突变、且频繁被遮挡,遮挡会切断时空连续性。但现有 Transformer 跟踪器在做遮挡增强时,普遍把遮挡当成"随机的信息丢失"——也就是在 patch 上独立、均匀地随机 mask。这种处理方式忽略了真实遮挡的结构:无人机俯视下的遮挡往往来自成片的建筑、植被、车流,是空间上聚集、局部强相关、且有尺度连续性的,会同时抹掉目标外观和它周围的上下文线索,导致特征表征不一致、定位抖动。
核心矛盾:一是"合成遮挡"与"真实遮挡物理特性"之间的鸿沟——随机 mask 模拟不出聚块遮挡;二是"精度与效率"之间的 trade-off——ViT 计算量随深度线性增长,深层特征冗余且边际收益递减,但现有动态推理(按相关性激活/跳层)并没有显式建模"算力偏好",难以随场景复杂度自适应。
切入角度:作者把遮挡重新理解为"受空间依赖支配的结构化过程"。已有工作(ORTrack)用空间 Cox 过程引入了一点空间相关性,但它假设连续强度场、无法刻画真实场景里的空间聚簇。于是作者从"遮挡是成簇出现的"这个观察切入,去生成可控的、聚类的、语义一致的掩码。
核心 idea:用"聚类遮挡建模 + 成本感知深度偏置"代替"随机掩码 + 固定深度",一边把表征训得对结构化遮挡鲁棒,一边让推理深度按需收缩,从而同时拿到鲁棒性和实时性。
方法详解¶
整体框架¶
OCTrack 是一个单流 Transformer 跟踪器,由一个 ViT backbone 加一个轻量的中心式预测头构成。输入是目标模板 \(Z\in\mathbb{R}^{3\times H_z\times W_z}\) 和搜索区 \(S\in\mathbb{R}^{3\times H_s\times W_s}\)。训练时,COM 先把模板复制出一个聚类遮挡版本 \(Z'=\mathcal{M}_{com}(Z)\),原模板、遮挡模板、搜索区一起被切成 patch token 送进 backbone 联合编码;COM 通过对齐 \(Z\) 与 \(Z'\) 的特征表征,逼模型学到"遮挡不变"的表示。CADB 则在 backbone 内部插入一个路由器,根据"算力敏感先验"决定推理走到哪一层,让简单帧停在浅层、难帧才往深层走。最后融合特征交给跟踪头输出分类置信图、位置偏移和框尺寸。关键是:COM 只在训练期工作、推理零额外开销;CADB 在推理期只激活被选中的那一层、绕过其余层来省算力。
%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
A["目标模板 Z + 搜索区 S"] --> B["聚类遮挡建模 COM<br/>生成遮挡模板 Z′"]
B --> C["自适应簇参数化 ACP<br/>定簇数/密度/弥散"]
C --> D["ViT backbone<br/>联合编码 Z·Z′·S"]
D --> E["成本感知深度偏置 CADB<br/>路由选执行深度"]
E -->|训练: 对齐 Z 与 Z′ 特征| D
E --> F["跟踪头<br/>分类/偏移/框尺寸"]
关键设计¶
1. 聚类遮挡建模 COM:把随机掩码换成成簇采样的空间过程
随机 mask 把每个 patch 独立丢弃,模拟不出真实无人机场景里"一片建筑/植被同时挡住目标和上下文"的聚块遮挡,于是训练出来的特征对结构化遮挡不鲁棒。COM 的做法是把遮挡建模成一个可控的聚类空间过程。给定模板特征图 \(Z\in\mathbb{R}^{C\times H\times W}\) 和掩码比例 \(\rho\in(0,1)\),被遮 patch 数 \(K=\lfloor\rho HW\rfloor\)。空间域上的遮挡强度被建模为高斯场的混合:
其中簇数 \(N_p\sim\text{Poisson}(\lambda_p HW)\),簇中心 \(c_i\) 采样得到,单簇强度 \(w_i\sim\text{Poisson}(\mu)\)。每个簇按 \(p_{i,j}\sim\mathcal{N}(c_i,\sigma^2 I_2)\) 撒出 \(w_i\) 个遮挡点,所有点的并集构成最终掩码 \(M\),必要时随机下采样以维持比例 \(\rho\)。和 Cox 过程的固定连续强度场相比,COM 是"先定几个中心、再在中心周围成簇撒点",天然带空间聚集和尺度连续,更贴近真实俯视遮挡。
2. 自适应簇参数化 ACP:让遮挡风格随特征图和遮挡比例可调
光有聚类采样还不够——不同尺寸的特征图、不同遮挡强度需要不同的遮挡形态。ACP 用三元组 \(P=(\lambda_p,\mu,\sigma)\) 来参数化:\(\lambda_p\) 决定期望簇数,\(\mu\) 控制每簇平均遮挡强度,\(\sigma\) 调节空间弥散程度,三者会根据特征图大小、掩码比例和遮挡风格联动调整。论文据此定义了三档风格:dense(30 簇、小 \(\sigma\),对应小而密的遮挡)、balanced(10 簇、中 \(\sigma\))、sparse(3 簇、大 \(\sigma\),对应大块稀疏遮挡),\(\sigma\) 随 \(\min(H,W)\) 缩放。这样模型在训练中能见到从稀疏到稠密的连续遮挡分布,把"可控粒度 + 结构连贯"喂给表征学习。
3. 遮挡鲁棒表征对齐:用一致性损失把"遮挡不变性"训进特征里
为了让 COM 产生的遮挡真正转化为鲁棒性,COM 加了一个表征对齐目标:把原模板和聚类遮挡模板送进同一网络,最小化两者在第 \(L\) 层特征的差异
其中 \(t^{(L)}_{Z}\)、\(t^{(L)}_{Z'}\) 分别是 \(Z\) 和 \(Z'=\mathcal{M}_{com}(Z)\) 的特征表示。这一项强迫遮挡前后的表征对齐,抑制聚块遮挡引起的外观漂移,保住语义一致性。因为只在训练用,推理期没有任何额外开销,可即插即用进任意 ViT 跟踪器。
4. 成本感知深度偏置 CADB:把"算力偏好"写进层路由里
ViT 计算量随深度线性增长、深层特征冗余,但现有跳层策略只看"任务相关性/层间相似性",没显式建模"我更想走浅层"这件事。CADB 把层选择变成一个被偏置调控的路由过程。它用一个两层 MLP 路由器(中间 ReLU)读取参考层 \(i_{ref}\) 处融合序列首 token 作为全局描述子,输出后续 \(L\) 个候选层的重要性分数 \(y=f(x)\in\mathbb{R}^L\)。再对每层加一条随深度递减的成本偏置:
\(\kappa>0\) 控制偏向浅层的强度。最终路由概率 \(p=\text{softmax}((y+b)/\tau)\),温度 \(\tau\) 调节选择分布的尖锐度。训练时用层间对齐信号造伪标签:对齐分 \(s_i=(F_{i_{ref}}\cdot F_i)/(\lVert F_{i_{ref}}\rVert_2\lVert F_i\rVert_2)\),把对齐分最高的层 \(i^\star=\arg\max_i s_i\) 当作代表层、做成 one-hot 标签 \(t_i\),用偏置校正后的交叉熵优化路由器:
机制上很巧:深度偏置往"浅"推,而对齐监督在"特征差异大(说明浅层不够)"时把路由器往"深"拉,两股力量自然博弈出"简单帧走浅、难帧走深"的行为。推理时 CADB 直接按偏置校正后的路由分选执行深度,只激活代表层、绕过其余层,不需要任何额外运行时机制。
损失函数 / 训练策略¶
跟踪头沿用中心式设计(Conv-BN-ReLU),同时预测分类置信图 \(p\)、位置偏移 \(o\)、归一化框尺寸 \(s\)。整体损失把跟踪目标和路由正则合在一起:
分类用加权 focal loss,回归用 L1 + GIoU,权重 \(\lambda_{iou}=2\)、\(\lambda_{L1}=5\)、\(\gamma=0.1\)。训练数据为 GOT-10k + LaSOT + COCO + TrackingNet,AdamW 优化(weight decay \(10^{-4}\),初始学习率 \(4\times10^{-5}\),batch 32),backbone 用 DeiT-Tiny / ViT-Tiny / Eva-Tiny 三种轻量变体,模板/搜索图分别为 128×128 / 256×256。
实验关键数据¶
主实验¶
四个 UAV benchmark(DTB70 / UAVDT / VisDrone2018 / UAV123)上与轻量跟踪器对比,OCTrack-DeiT 在精度、AUC 与速度间取得平衡(下表为平均值,FPS 为 GPU 实测):
| 方法 | 来源 | 平均 P(%) | 平均 AUC(%) | GPU FPS | 参数量(M) |
|---|---|---|---|---|---|
| RACF(DCF) | PR'22 | 75.9 | 51.8 | – | – |
| DRCI(CNN) | ICME'23 | 81.4 | 60.1 | 281.3 | 8.8 |
| AVTrack | ICML'24 | 84.2 | 63.8 | 210.5 | 7.9 |
| ORTrack(Cox 遮挡) | CVPR'25 | 85.6 | 65.0 | 182.6 | 7.9 |
| SGLATrack | CVPR'25 | – | – | 243.9 | 5.8 |
| OCTrack-b | 本文 | 86.0 | 65.7 | 265.2 | 5.8–8 |
OCTrack 全部变体平均精度 >84%、AUC >64%;OCTrack-b 综合最均衡,在 UAVDT 上拿到最佳 85.0% / 63.0%。在 UAVDT 的"部分遮挡"子集(OPE)上,OCTrack-DeiT 取得最高 0.656 AUC,比次优方法高约 3 个百分点。
消融实验¶
组件消融(UAVDT,逐步加入 COM 与 CADB;FPS 在加入 CADB 后报告):
| Backbone | COM | CADB | P(%) | AUC(%) | FPS |
|---|---|---|---|---|---|
| OCTrack-DeiT | 80.4 | 59.6 | 197.6 | ||
| OCTrack-DeiT | ✓ | 85.2 (+4.8) | 62.9 (+3.3) | – | |
| OCTrack-DeiT | ✓ | ✓ | 85.0 (+4.6) | 63.0 (+3.4) | 265.2 (+34%) |
| OCTrack-ViT | ✓ | ✓ | 84.2 (+4.5) | 61.6 (+2.8) | 248.8 (+34%) |
| OCTrack-Eva | ✓ | ✓ | 80.6 (+3.0) | 59.9 (+2.6) | 280.6 (+25%) |
掩码策略对比(VisDrone2018,OCTrack-DeiT):
| 掩码策略 | AUC(%) | 说明 |
|---|---|---|
| MAE 随机掩码 | 62.9 | 独立 patch 丢弃,最差 |
| CutMix | 63.6 | 区域级增强,无空间聚簇 |
| SAM | 64.8 | 语义级,仍缺聚簇 |
| Cox Process(ORTrack) | 65.9 | 有空间相关,但固定强度场 |
| COM | 67.0 | 聚类掩码,最佳 |
关键发现¶
- COM 是涨点主力:在三种 backbone 上分别带来 +4.0% / +3.6% / +4.8% 精度,证明"空间聚类掩码"比随机/语义掩码更能正则化遮挡下的特征学习;COM 只在训练用,推理不掉速。
- CADB 是省算力主力:加入后 GPU 吞吐 +34% / +25% / +34%,而精度几乎不变,说明很多帧走浅层就够了。
- 偏置强度 \(\kappa\) 可控折中:\(\kappa\) 越大路由越偏浅层、FPS 越高(\(\kappa=0\to0.5\) 时 DTB70 上 FPS 从 197.6 升到 278.4),AUC 基本稳定,\(\kappa=0.3\) 是较好折中(265.2 FPS、DTB70 AUC 66.0%)。
- 遮挡风格各有所长:dense 设置(OCTrack-d)在遮挡密集、目标交互频繁的 UAV123/VisDrone2018 上 AUC 最高(67.7% / 66.3%),balanced 设置则整体最稳。
亮点与洞察¶
- 把"遮挡的统计结构"当成可建模对象:从"随机丢 patch"升级到"成簇撒点的高斯混合场",这是个简洁但对路的视角转换——真实俯视遮挡确实是成片的,用 Poisson 定簇数 + Gaussian 定簇形把这件事参数化得很干净。
- CADB 的"双向博弈"很巧:深度偏置硬往浅推、对齐监督在特征不够时往深拉,不需要复杂的强化学习或门控,一条线性偏置 + 一个对齐伪标签就把"按需深度"训出来了,且推理零额外机制。
- 训练增强 + 推理加速解耦:COM 管鲁棒性(只在训练)、CADB 管效率(只在推理),互不干扰、都能即插到任意 ViT 跟踪器,工程上很友好。
- 可迁移:聚类掩码思路可用于任何"遮挡/缺失有空间结构"的任务(如自动驾驶 BEV 遮挡、医学图像缺失区域增强);成本感知深度偏置可推广到其他需要"难度自适应早退"的 ViT 推理场景。
局限与展望¶
- 遮挡风格靠手工档位:dense/balanced/sparse 三档及其 \(\lambda_p,\mu,\sigma\) 是预设的,并非真正按每帧场景在线自适应,换数据集可能要重调;ACP 的"自适应"更多是随特征图尺寸/比例缩放,而非感知真实遮挡分布。
- CADB 在硬路由下每个 \(\kappa\) 只走固定一层:论文里 ASLI(平均选择层索引)在硬路由时退化为该层索引,意味着推理深度更像"按 \(\kappa\) 选一个全局深度",而非真正逐帧动态变化,"难帧走深"的自适应程度有待更细的实验佐证。
- 未给 arXiv/开源:缓存中无代码链接,复现需自行实现 ACP 采样与路由伪标签,⚠️ 部分公式细节(如 \(w_i\) 的取整与 \(\rho\) 维持的具体下采样规则)以原文为准。
- 实验集中在轻量 backbone 与 UAV 小目标场景,遮挡建模在大模型/通用跟踪(如 LaSOT 长时跟踪)上的增益尚未验证。
相关工作与启发¶
- vs ORTrack(CVPR'25,空间 Cox 过程遮挡):两者都认同"遮挡有空间结构",但 ORTrack 用连续强度场的 Cox 过程,假设强度场固定、刻画不了聚簇;本文 COM 用"先定簇中心再成簇撒点"的高斯混合,显式建模空间聚集,VisDrone2018 上 AUC 从 65.9% 提到 67.0%。
- vs MAE 随机掩码 / DropMAE:MAE 式随机 patch 丢弃把遮挡当独立噪声,COM 证明在 UAV 场景这会低估遮挡的结构性,随机掩码 AUC 只有 62.9%、远低于 COM 的 67.0%。
- vs AVTrack / SGLATrack(动态 token/深度调度):它们按任务相关性或层间相似性激活/跳层,但没把"算力成本"显式写进路由;CADB 用一条随深度递减的成本偏置直接编码"偏好浅层",在保持精度的同时把 DeiT 变体 GPU 吞吐拉高 34%。
评分¶
- 新颖性: ⭐⭐⭐⭐ 把遮挡重建为"聚类空间过程"并配上成本感知深度路由,视角清晰、组合新颖,但单看每块都站在已有工作(Cox 遮挡、动态深度)肩上。
- 实验充分度: ⭐⭐⭐⭐ 四个 UAV benchmark + 三种 backbone + 掩码策略/偏置强度消融较完整,但缺通用跟踪基准与在线自适应的验证。
- 写作质量: ⭐⭐⭐⭐ 动机递进清楚、公式完整,COM 与 CADB 两条线讲得分明。
- 价值: ⭐⭐⭐⭐ 训练增强即插即用 + 推理实时(265 FPS),对机载实时 UAV 跟踪有直接落地价值。