Progressive Multi-cue Alignment for Unaligned RGBT Tracking¶
会议: CVPR 2026
论文: CVF Open Access
代码: https://github.com/NOP1224/Unaligned_RGBT_Tracking
领域: 视频理解
关键词: RGBT 跟踪, 跨模态对齐, 渐进式估计, 难度感知专家, 可变形注意力
一句话总结¶
PMATrack 把"未对齐 RGBT 跟踪"里一次性回归的跨模态对齐参数拆成"中心偏移 → 尺度变换 → 全局精修"三级渐进估计,并在每一级用难度感知路由从三种对齐线索专家里挑最划算的那个,在新建的 MUART244 等基准上以更低算力刷新 SOTA。
研究背景与动机¶
领域现状:RGBT 跟踪靠 RGB 与热红外(TIR)两路互补信息做鲁棒目标定位,但主流数据集(LasHeR 等)都经过昂贵的人工对齐,因此现有跟踪器几乎都默认"两模态像素级完美对齐"。
现有痛点:真实多传感器系统里,由于安装偏移和视场差异,原始 RGB/TIR 帧存在显著空间错位;而且随着目标或相机运动,跨模态对应关系是动态变化的,一个固定的变换矩阵补偿不了。已有的未对齐跟踪方法(如 NAT 用时序迭代单应估计、Zhang 等用可变形卷积预测偏移场)共同有两个毛病:一是所有对齐参数(平移、尺度)一次性同时回归,没法适配跟踪过程中时高时低的错位难度;二是静态对齐架构为了 cover 难场景往往堆大模型,简单帧也按最贵的算,算力浪费严重、难以满足跟踪实时性。
核心矛盾:把强耦合的多个对齐参数塞进单个单应矩阵一把回归,既难学准又难按场景难度伸缩算力——精度与效率被锁死在一起。
本文目标:(1) 把跨模态对齐参数解耦成可分步估计的几项;(2) 让模型按当前帧的错位难度动态决定花多少算力。
切入角度:作者借鉴人类跨模态感知"先粗定位、再调尺度、最后抠细节"的分层对齐机制——浅层几何线索管全局位移,中层几何+语义管尺度,深层高级语义补残差。
核心 idea:用"分而治之的渐进对齐 + 难度感知的多线索专家选择"代替"一次性大模型回归单应矩阵",同时拿到更准的对齐和更省的算力。
方法详解¶
整体框架¶
PMATrack 接收一对未经对齐的 RGB/TIR 模板与搜索区域,输出目标在搜索区域的定位框。它的核心是把跨模态对齐拆成三个顺序子任务——中心对齐(center)、尺度变换(scale)、全局精修(refine),让它们沿着跟踪 backbone 的浅→中→深层逐级估计,而不是在某一层把耦合参数一次性回归出来。
具体流转:backbone(基于 OSTrack/DropMAE 初始化)先抽出模板与搜索特征;在浅层用难度感知多线索专家(DMAE)预测中心偏移 \(P_{center}=[dx,dy]\),预测出的偏移随即通过 TCMDA 引导双向跨模态融合,再把特征送往更深层;中层估计尺度变换并精修中心偏移 \(P_{scale}=[\Delta dx,\Delta dy,s_x,s_y]\),深层估计全局残差 \(P_{refine}\),每一级后面都接一次 TCMDA 融合。最后把增强后的多模态特征拼接送进跟踪头定位目标。推理时还维护一个动态单应矩阵做帧间预对齐(TOCU),防止偏移过大导致搜索区域丢目标。
%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
A["未对齐 RGB / TIR<br/>模板 + 搜索区域"] --> B["跟踪 backbone<br/>抽模板/搜索特征"]
B --> C["渐进式对齐<br/>浅→中→深三级<br/>中心→尺度→精修"]
C --> D["难度感知多线索专家 DMAE<br/>路由选 TRE/FME/DPE"]
D --> E["变换引导跨模态融合<br/>TCMDA:单应+可变形注意力"]
E -->|未到最深层,继续下一级| C
E --> F["拼接增强特征<br/>→ 跟踪头定位"]
F -->|推理时| G["TOCU 动态偏移更新<br/>IoU 校验后预对齐下一帧"]
关键设计¶
1. 跨模态渐进式对齐:把单应矩阵拆成浅中深三级估计
针对"所有对齐参数一次性同时回归、难以适配不同错位难度"的痛点,PMATrack 把跨模态对齐显式分解为中心偏移、尺度变换、残差精修三段,并把它们分别放到网络的浅层、中层、深层去估计,做 coarse-to-fine 的修正。理由是不同层的特征天然适配不同的对齐子任务:浅层特征保留几何信息,能靠模态间像素级相关性准确预测中心偏移;中层特征聚合了全局上下文,适合估计尺度变化并回头精修中心偏移;深层高级语义则用来全局补偿因遮挡、模态差异留下的残差错位。每一级用专家 \(E(\cdot)\) 预测 \(P_k=E([Z^V_i,X^V_i],[Z^I_i,X^I_i]),\ k\in\{center,scale,refine\}\),其中 refine 与 scale 级预测的是 \(\Delta\) 残差量。这样从"几何驱动校正"平滑过渡到"上下文引导精修",避免了直接回归耦合参数的单应矩阵,对齐更稳更准。
2. 难度感知多线索对齐专家(DMAE):按场景难度选最划算的对齐线索
针对"静态大模型对简单帧也满负荷算、算力冗余"的痛点,DMAE 在每个对齐级里并置三个互补线索专家,再用路由按难度挑一个: - 目标响应专家(TRE):算模态特定的目标响应图 \(R^M=\phi((Z^MW^M)\cdot(X^MW^M)^T)\),并引入最优传输建模跨模态显著图的整体偏移结构——构造代价矩阵 \(C_{ij}=\|p_i-p_j\|_2^2\),解 \(T^\*=\arg\min_{T\geq0,\,T\mathbf{1}=a,\,T^\top\mathbf{1}=b}\langle T,C\rangle\),把传输矩阵送偏移头得 \(P_t\),最便宜,适合简单帧粗定位。 - 特征匹配专家(FME):当目标被遮挡或受相似物干扰、TRE 响应结构退化时启用,对搜索特征做频率分解 \(X^M_l=A^k_l(X^M),\ X^M_h=X^M-A^k_h(X^M)\),分别算高低频跨模态相关再门控融合,经金字塔相关头得精修偏移 \(P_c\)。 - 细节感知专家(DPE):模态质量低、结构信息匮乏时,用 Tiny U-Net 抽多尺度细粒度信息得偏移 \(P_d\),最贵但最强。
路由 \(R(\cdot)\) 产出选择概率 \(r_e=R([X^V;X^I])\),最终偏移 \(P=\sum_e r_e P_e,\ e\in\{t,c,d\}\)。为了不让模型一味选最强最贵的专家,作者设计代价惩罚专家选择损失(CPESL):\(L_{CPESL}=\sum_e r_e\ell_e+\lambda_{cost}\sum_e r_e c_e\),其中 \(\ell_e\) 是偏移回归误差、\(c_e\) 是该专家算力开销、\(\lambda_{cost}=0.01\) 控制效率-精度权衡——这才是"难度感知"真正落地的地方:简单帧路由偏向便宜的 TRE,难帧才舍得调 DPE。
3. 变换引导跨模态可变形融合(TCMDA):用对齐结果去引导融合,而不是融合时硬对齐
针对"未对齐时直接做特征融合会引入噪声、而融合中做对齐又会反向引噪"的痛点,TCMDA 在每个对齐级之后,把预测偏移转成 \(3\times3\) 单应矩阵 \(H\),生成初始采样网格 \(p_t\);每个目标点经 \(p_s=H_{t\to s}p_t\) 投到源模态,坐标差 \(\Delta H=p_s-p_t\) 作为采样的几何先验。再从 query 特征用小 MLP 学局部偏移与注意力权重,合成最终采样位置 \(G_{h,k}=p_t+\Delta H_h+\Delta L_{h,k}\),在 \(G_{h,k}\) 处采样源特征并按注意力聚合 \(\hat v_h=\sum_k A_{h,k}S(G_{h,k})\),多头拼接后残差加回源模态。它把"几何先验(来自对齐)+ 可学习局部偏移"结合起来,做的是对齐引导的跨模态融合,在严重错位下也能有效互补、减少空间错位带来的信息损失。
损失函数 / 训练策略¶
两阶段训练:第一阶段按 OSTrack 的 \(L_{track}\) 训跟踪 backbone;第二阶段冻住 backbone,只训对齐网络与 TCMDA。每个专家每级用 smooth L1 监督偏移 \(L_p=L_1(P,\Delta_{gt})\)(\(\Delta_{gt}\) 为两模态真值相对位移);TRE 额外用目标掩码做 BCE 监督响应图 \(L_r=BCE(\sigma(R^M),M_t)\)。总损失 \(L_{total}=L_{track}+\lambda_p L_p+\lambda_r L_r+L_{CPESL}\),\(\lambda_p=20.0\)、\(\lambda_r=1.0\)。推理时用 TOCU(模板-偏移对比更新):把历史偏移 \(H_{off}\) 与当前预测偏移组合成在线偏移 \(H_{on}\),各采一个模板 \(T_{off}/T_{on}\),在初始帧搜索区域上比 IoU——\(T_{on}\) 的 IoU 更高才认为当前偏移可靠并更新单应矩阵,否则保留旧估计,从而稳定地维护动态对齐、避免偏移突变丢目标。单 RTX 4090 训练,AdamW、batch 16、lr 1e-4,两阶段各 20/30 epoch。
实验关键数据¶
在 LasHeR-Unaligned 与自建 MUART244 两个未对齐数据集上对比 11 个 SOTA 跟踪器,指标为 PR / NPR / SR(OPE 协议)。
主实验¶
LasHeR-Unaligned(PR/NPR/SR↑,FPS):
| Tracker | 发表 | PR | NPR | SR | FPS |
|---|---|---|---|---|---|
| OSTrack | ECCV22 | 59.2 | 53.8 | 46.7 | 44.4 |
| TBSI | CVPR23 | 60.3 | 55.2 | 47.7 | 36.2 |
| CAFormer | AAAI25 | 59.0 | 53.8 | 46.7 | 86.3 |
| AINet(前 SOTA) | AAAI25 | 61.4 | 55.7 | 48.3 | 38.1 |
| NAT(对齐法) | CISE24 | 58.1 | 52.3 | 44.8 | 19 |
| PMATrack | - | 64.4 | 58.7 | 50.6 | 28.0 |
MUART244(错位更大的新基准,PR/NPR/SR↑):
| Tracker | 发表 | PR | NPR | SR |
|---|---|---|---|---|
| UnTrack | CVPR24 | 54.1 | 47.9 | 39.9 |
| SUTrack | AAAI25 | 49.5 | 40.9 | 33.5 |
| AINet | AAAI25 | 57.3 | 50.4 | 41.1 |
| PMATrack | - | 62.7 | 55.9 | 45.8 |
相比前 SOTA AINet,LasHeR-Unaligned 上 PR/NPR/SR 各 +3.0/+3.0/+2.3;相比同样做空间对齐的 NAT,+6.3/+6.4/+5.8。在大偏移的 MUART244 上优势更大:超 SUTrack +13.2/+15.0/+12.3,超 UnTrack +8.6/+8.0/+5.9。
消融实验¶
逐组件分析(LasHeR-UA 与 MUART244 各 PR/NPR/SR + FLOPs):
| 配置 | LasHeR PR/NPR/SR | MUART244 PR/NPR/SR | FLOPs(G) |
|---|---|---|---|
| Baseline | 61.5 / 56.4 / 48.5 | 58.7 / 51.1 / 42.1 | 56.4 |
| +TRE | 61.9 / 56.4 / 48.8 | 59.3 / 51.6 / 42.5 | 60.6 |
| +FME | 62.5 / 56.9 / 49.0 | 59.9 / 53.1 / 43.6 | 71.4 |
| +DPE | 63.2 / 57.4 / 49.5 | 60.9 / 54.4 / 44.5 | 81.4 |
| Full(含 TOCU) | 64.4 / 58.7 / 50.6 | 62.7 / 55.9 / 45.8 | 72.6 |
渐进策略拆解(LasHeR-Unaligned):
| 渐进策略 | PR | NPR | SR |
|---|---|---|---|
| Baseline | 61.5 | 56.4 | 48.5 |
| Only Center | 63.2 | 57.8 | 49.4 |
| Center+Scale | 63.6 | 58.3 | 49.4 |
| Center+Scale+Refinement | 64.4 | 58.7 | 50.6 |
关键发现¶
- 三专家算力-精度梯度清晰:单加 TRE 仅 +4.2G FLOPs 就在 MUART244 提 +0.6/+0.5/+0.4,最省;DPE 单加涨 +24.99G 但 LasHeR 上提 +1.7/+1.0/+1.0,最强。正因如此才需要难度感知路由——完整模型(72.6G)反而比只用 DPE(81.4G)更省算力却更准,说明 CPESL 真的把贵专家只留给难帧。
- 渐进式比一次性更准:从 Only Center 到 +Scale 再到 +Refinement,SR 从 49.4 稳步升到 50.6,验证"分而治之"逐级补偿优于耦合回归。
- 大偏移场景增益最大:在错位更剧烈的 MUART244 上对 SUTrack 的 PR 提升高达 +13.2,说明渐进对齐对真实未对齐场景尤其有效。⚠️ 表 3 中 +TRE/+FME/+DPE 各行的勾选语义(是否单列叠加)以原文为准。
亮点与洞察¶
- 把"对齐难度"显式当成可调资源:CPESL 用 \(r_e c_e\) 把每个专家的算力开销写进损失,让模型学会"简单帧省着花、难帧才上重武器",是少见的把效率直接写进对齐目标的做法,可迁移到任何"多专家精度参差"的场景。
- 对齐与融合解耦但互导:先估对齐参数、再用单应矩阵 + 可变形注意力(TCMDA)去引导融合,避免了"融合时硬对齐反引噪",这个"对齐结果当几何先验喂给融合"的思路对其他多模态错位任务(如多光谱检测)很有借鉴价值。
- TOCU 用 IoU 自校验决定是否更新偏移:推理时不盲目更新动态单应,而是比两个模板在初始帧上的 IoU,更可靠才更新——一个轻量但实用的防漂移 trick。
局限与展望¶
- 依赖两阶段训练且第二阶段才训对齐网络,pipeline 较重;偏移真值 \(\Delta_{gt}\) 的获取方式(如何标注两模态相对位移)在正文未充分展开,⚠️ 以原文/附录为准。
- 三专家的"难度"判定由路由隐式学习,缺乏对路由选择是否符合人类直觉难度的可解释分析;CPESL 的 \(\lambda_{cost}=0.01\) 较敏感,跨数据集是否需重调未讨论。
- 主要验证在地面+航拍 RGBT 序列,对极端模态失效(如红外目标完全消失)这类 MUART244 自带挑战的细分表现未单独拆开汇报。
相关工作与启发¶
- vs AINet / TBSI 等对齐数据集跟踪器:它们默认模态已对齐、靠 token/特征融合提性能;本文直接处理未对齐输入并显式估计对齐参数,在未对齐基准上全面领先。
- vs NAT / Zhang 等未对齐方法:它们一次性回归全部对齐参数(时序迭代单应或偏移场+掩码),本文把参数解耦成浅中深三级渐进估计,更能适配动态变化的错位难度。
- vs 通用跨模态对齐(如 Yu 等分解单应估计+模态迁移):那些方法对简单/复杂帧一视同仁地用重模型,本文用难度感知专家选择按场景伸缩算力,更契合跟踪的实时需求。
评分¶
- 新颖性: ⭐⭐⭐⭐ 渐进解耦对齐 + 算力感知专家路由的组合在未对齐 RGBT 跟踪里是新颖且自洽的切入。
- 实验充分度: ⭐⭐⭐⭐ 两数据集、11 个 SOTA、组件/渐进双消融齐备,并自建多平台基准 MUART244。
- 写作质量: ⭐⭐⭐⭐ 动机—方法—实验逻辑清晰,公式与模块命名规整。
- 价值: ⭐⭐⭐⭐ 直面真实多传感器未对齐部署痛点,并放出代码与数据集,落地价值高。