Interactive Tracking: A Human-in-the-Loop Paradigm with Memory-Augmented Adaptation¶
会议: CVPR 2026
论文: CVF Open Access
代码: 基准/结果/分析在论文页 URL 公开(具体地址⚠️以原文为准)
领域: 视频理解 / 视觉目标跟踪 / 人在回路
关键词: 交互式跟踪、人在回路、自然语言指令、记忆增强、基准 InteractTrack
一句话总结¶
提出"交互式跟踪"新范式——用户可在视频任意时刻用自然语言指令引导/纠正跟踪器,配套发布首个大规模交互跟踪基准 InteractTrack(150 视频、14 万帧、四维评测协议)并实测 25 个 SOTA 跟踪器全部失效,再给出带正负记忆库的强基线 IMAT。
研究背景与动机¶
领域现状:视觉目标跟踪(VOT)是计算机视觉基石,给定首帧目标框后持续定位目标,广泛用于监控、自动驾驶、机器人。从 Siamese 系(SiamFC、SiamRPN)到 Transformer 系(TransT、STARK、MixFormer、OSTrack),再到像素级的 VOS(XMem、SAM2),技术不断进步。引入语言后还有 VLT(视觉-语言跟踪)和 RVOS(指代视频目标分割)。
现有痛点:现有跟踪器几乎都是"一次初始化、之后自动运行(fire-and-forget)"的非交互模式。可现实里跟踪很少是一锤子买卖——以一段篮球视频为例(论文 Fig.1):观众注意力会从持球球员、转到另一名球员、再到快速移动的球、最后到另一个控球人。这种焦点的动态切换对人很自然,但现有系统初始化后只会自动跑、不支持用户在中途介入。VLT/RVOS 虽吃语言,但通常只在初始化时做一次性 grounding 或离线运行,无法处理时序上接连到来的用户指令,也撑不起实时人在回路交互。
核心矛盾:交互式跟踪要求模型实时持续响应用户引导、理解自然语言、动态切换焦点——它把感知、推理、人机交互紧耦合在一个连续反馈回路里,远难于传统跟踪。而现有范式(纯外观的 VOT、单次 grounding 的 VLT/RVOS)和现有基准(VOT、LaSOT、VideoCube、TNL2K 等)全是为纯自动设定造的,既没有交互机制、也没有衡量"响应性/适应性"的协议。
本文目标:① 定义交互式跟踪任务;② 造一个能系统评测"理解-响应-适应人类引导"能力的基准;③ 给一个能从用户反馈中学习、动态更新跟踪行为的基线。
切入角度:既然瓶颈在"没有交互监督的数据和协议",那就先把数据和评测补齐——重新标注 150 段视频,给每段插入 4-5 条带时间戳的语言指令(初始化、漂移纠正、焦点精修、意图切换),并设计四维评测协议。
核心 idea:把人类智能当成自动感知的补充——让用户在任意帧用自然语言指令引导跟踪器,跟踪器靠一个带正/负记忆库的动态记忆机制从反馈中学习并即时调整。
方法详解¶
本文有三块贡献:基准 InteractTrack、四维评测协议、基线 IMAT。方法核心是 IMAT,它由三个模块协同:交互感知模块(IPM)做语言 grounding、记忆增强视觉跟踪器(MAVT)做稳定传播、认知仲裁模块(CAM)当高层决策控制器决定"保持还是纠正"。
整体框架¶
IMAT 把"视觉跟踪的时空一致性"和"多模态大模型(MLLM)的语义推理"统一起来。流程:用户初始化后 MAVT 持续跟踪;用户可在任意帧发自然语言指令 \(P_t\)(如"盯住中间那只黑熊"),IPM 据当前帧 \(I_t\) + 指令做 grounding 给出语义对齐框 \(B_{ipm}(t)\);CAM 在交互帧(用户发指令或检测到运动不一致时)把跟踪器预测 \(B_{track}(t)\) 与 IPM 的 grounding 框做 IoU 比较,决定是确认当前状态还是纠正轨迹并更新记忆库。一致就强化正记忆继续传播,漂移/不匹配就用 \(B_{ipm}(t)\) 重定位、把失败嵌入塞进负记忆、把纠正后嵌入塞进正记忆——这种"正反馈+负学习"的双向更新让 IMAT 在持续交互中不断变强。
%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
A["当前帧 + 用户自然语言指令"] --> B["交互感知模块 IPM<br/>MLLM 推理引导 grounding→B_ipm"]
A --> C["记忆增强视觉跟踪器 MAVT<br/>SAM2 + 正/负记忆库→B_track"]
B --> D{"认知仲裁模块 CAM<br/>比较 B_track 与 B_ipm 的 IoU"}
C --> D
D -->|"IoU<阈值 或 位移过大: 漂移/不匹配"| E["用 B_ipm 重定位<br/>失败嵌入→负记忆, 纠正嵌入→正记忆"]
D -->|"一致"| F["延续 B_track<br/>用当前特征强化正记忆"]
E --> G["最终框 B_final(t)"]
F --> G
关键设计¶
1. 交互感知模块 IPM:人在回路的语义入口
针对"现有跟踪器无法理解、无法响应用户指令"这一痛点,IPM 充当人在回路接口。任意帧 \(t\) 用户可发自然语言查询 \(P_t\),IPM 同时处理当前帧 \(I_t\) 与查询 \(P_t\) 做视觉-语言 grounding,输出语义对齐框 \(B_{ipm}(t)\)。实现上用基于 MLLM 的感知模型 Rex-Omni 实例化,把视觉特征与用户描述对齐——它输出的 grounding 框既可用来重初始化跟踪器、也可经 CAM 校验当前跟踪状态。这一模块把"语言意图"翻译成"空间框",是整个交互闭环的语义起点。
2. 记忆增强视觉跟踪器 MAVT:正负双记忆库实现自适应外观学习与干扰抑制
针对"跟踪器靠固定首帧模板、无法随反馈适应"的问题,MAVT 在 SAM2 之上扩展两个外部记忆库——正记忆 \(M^+\) 与负记忆 \(M^-\),每帧预测框条件于两个库:\(B_{track}(t)=\mathrm{Tracker}(I_t; M^+, M^-)\)。\(M^+\) 存"已验证的目标线索"嵌入,让跟踪器随时间适应姿态、光照、尺度的合法变化;\(M^-\) 存"干扰物、失败预测、被切换掉的旧目标"嵌入,帮跟踪器在曾经混淆/歧义的区域抑制响应。两个库都在新颖性与多样性约束下动态更新,保持紧凑又有表达力、避免冗余。相比 SAM2 只有正向记忆传播,负记忆是关键增量——它把"过去错在哪"显式编码进去,专治目标切换后跟回旧目标的问题。
3. 认知仲裁模块 CAM:只在必要时介入的高层决策控制器
针对"何时该信跟踪器、何时该信用户/语义"的矛盾,CAM 当高层控制器决定保持还是纠正。它在交互帧(用户指令触发 IPM 或跟踪器检测到运动不一致)被激活,用 IoU 比较跟踪器预测 \(B_{track}(t)\) 与 IPM grounding 框 \(B_{ipm}(t)\):\(\mathrm{IoU}=\frac{\mathrm{area}(B_{track}\cap B_{ipm})}{\mathrm{area}(B_{track}\cup B_{ipm})}\)。当 IoU 低于阈值 \(\tau_{iou}\)、或相邻框中心位移超过 \(\delta_c\) 时判为潜在漂移,CAM 调 IPM 复核当前预测是否对应意图目标;若 grounding 结果显示不匹配,就用 \(B_{ipm}(t)\) 重初始化、并把失败嵌入加进 \(M^-\)、纠正嵌入加进 \(M^+\);若一致则延续传播、用当前特征强化 \(M^+\)。最终框 \(B_{final}(t)=B_{ipm}(t)\)(检测到漂移/不匹配时)或 \(B_{track}(t)\)(否则)。实践中初始化用 \(\tau_{iou}^{init}=0.3\)(避免重叠)、运行时仲裁用 \(\tau_{iou}^{reinit}=0.6\)。这种选择性仲裁只在必要时融合空间/语义/运动线索,兼顾效率、鲁棒与稳定。
一个完整示例¶
以篮球场景走一遍:用户先框定持球球员初始化,MAVT 用 SAM2 + 正记忆稳定传播。第 #42 帧用户发"盯住中间那只黑熊"(意图切换),IPM 把这句话 grounding 成一个新框 \(B_{ipm}\);CAM 算它与当前 \(B_{track}\) 的 IoU,发现远低于 \(0.6\)(指向了不同目标)→ 判为不匹配 → 用 \(B_{ipm}\) 重初始化跟踪器,把"原球员"的嵌入丢进负记忆 \(M^-\)(以后别再跟回去)、把"黑熊"嵌入放进正记忆 \(M^+\)。之后若黑熊被遮挡、跟踪器漂移导致中心位移超 \(\delta_c\),CAM 再次触发 IPM 复核重定位。整个过程里正记忆累积合法外观变化、负记忆累积该躲的干扰,跟踪行为随交互逐步收敛到用户真正想要的目标。
实验关键数据¶
InteractTrack 含 150 视频、>14 万帧、平均 947 帧/段、>700 条语言描述,覆盖六类场景(日常活动、体育分析、无人机、监控、野生动物、其他),所有序列按交互协议重新标注(不复用旧标签)。框由至少两名标注者独立核验、分歧由资深标注者裁决;语言走"人-GPT-人"流水线生成、含初始化/漂移纠正/焦点精修/意图切换等类型,目标缺失时也用 'absent' 标签显式标注。
四维评测协议:Perception(感知)——用户发指令帧上能否准确定位描述目标(IoU>0.5 判对,含 \(Acc_{perc}\) 与 \(Prec_{perc}\));Responsiveness(响应性)——切换目标时预测框是否更靠近新目标 \(G^{new}_t\) 而非旧目标 \(G^{old}_t\) 且 IoU>0.5;Tracking(跟踪能力)——标准 AUC 与 Precision;Interactiveness(交互分)——用户指令把视频切成 K 段,对每段有效帧求 IoU 均值再对 K 段平均,衡量整段人机协作效果。
主实验(InteractTrack 测试集,统一交互协议;Ours 即 IMAT)¶
⚠️ 下表列名对应原文四维分组(交互分 / 响应性 / 感知 Acc·Prec / 跟踪 AUC·Prec·NormPrec),数值以原文 Table 2 为准。
| 方法 | 交互分↑ | 响应性↑ | 感知Acc↑ | 感知Prec↑ | 跟踪AUC↑ | 跟踪Prec↑ | NormPrec↑ |
|---|---|---|---|---|---|---|---|
| Ours (IMAT) | 45.25 | 41.20 | 52.78 | 49.63 | 45.86 | 49.63 | 60.90 |
| Sa2VA (RVOS) | 44.81 | 38.99 | 45.50 | 46.05 | 24.14 | 21.10 | 33.39 |
| VL-SAM2 (VOS) | 44.43 | 37.72 | 48.82 | 46.52 | 41.88 | 45.73 | 56.84 |
| SAMURAI (VOS) | 43.69 | 37.20 | 49.36 | 46.44 | 41.53 | 45.57 | 56.59 |
| DAM4SAM (VOS) | 43.19 | 37.62 | 49.89 | 46.58 | 43.79 | 48.74 | 59.72 |
| SUTrack (VLT) | 40.90 | 38.04 | 49.25 | 48.38 | 44.25 | 47.23 | 58.26 |
| MCITrack (VOT) | 40.38 | 37.93 | 47.97 | 47.48 | 44.98 | 47.92 | 59.61 |
| JointNLT (VLT) | 30.66 | 36.67 | 44.33 | 43.08 | 19.81 | 16.16 | 30.44 |
IMAT 在交互分(45.25)与响应性(41.20)上都最高,证明它对自然语言指令理解更强、对交互线索适应更快;同时跟踪 NormPrec(60.90)也最高,长时稳定性好。
各范式表现分析¶
| 范式 | 代表方法 | 强项 | 弱点(交互设定下) |
|---|---|---|---|
| VLT | SUTrack、DUTrack | 联合视觉-语言表示→响应性/感知较高 | 长序列定位退化、时序鲁棒性有限 |
| VOS | SAMURAI、VL-SAM2 | 分割先验→短时精度强 | 掩码跟踪易被遮挡/快速运动打断 |
| VOT | OSTrack、STARK、MixViT | 静态/受限条件下精度稳 | 不懂文本引导→交互场景表现弱 |
| RVOS | Sa2VA、VideoLISA | 能响应文本线索 | 时序稳定性差、持续交互鲁棒性低 |
关键发现¶
- 传统强不等于交互强:25 个代表性跟踪器在常规自动设定下很能打,但全都难以泛化到动态、用户驱动的交互任务——这正是 InteractTrack 想暴露的 gap。
- 负记忆+仲裁是涨点关键:IMAT 靠 IPM/MAVT/CAM 联合,把感知、跟踪、交互拧到一起,才在四维上一致领先;尤其负记忆显式编码"该躲的干扰",对目标切换后不跟回旧目标很有用。
- 场景泛化好:OPE 协议下六类场景成功率图里 IMAT 多数环境最佳(如日常活动 0.488),在体育/日常这类频繁目标切换、无人机/监控这类尺度变化与长时视角偏移场景都稳。
亮点与洞察¶
- 任务定义本身是最大贡献:把"fire-and-forget 跟踪"重构成"任意时刻可语言介入的人在回路跟踪",并配齐基准+协议+基线,是能开一个子方向的工作,而非单纯刷点。
- 四维评测协议设计巧:感知/响应/跟踪/交互分把"理解指令-切换目标-稳定跟踪-整段协作"解耦成可量化维度,比单一 AUC/Precision 更能刻画交互能力。
- 正负双记忆库可迁移:把"该记住的目标线索"与"该抑制的干扰/旧目标"分库存储、按新颖性+多样性更新,这套思路可迁到任何需要在线适应又怕被干扰带偏的跟踪/检测任务。
- 选择性仲裁省算力:CAM 只在用户指令或运动不一致时才介入融合多模态线索,避免每帧都跑昂贵 MLLM grounding,是实用的工程权衡。
局限与展望¶
- IMAT 定位为"强基线",三模块多是现成大模型(Rex-Omni、SAM2)拼装,IPM 的 grounding 质量、CAM 阈值(\(\tau_{iou}^{init}=0.3\)、\(\tau_{iou}^{reinit}=0.6\)、\(\delta_c\))对结果影响大,论文未给系统的阈值敏感性消融⚠️。
- 自己看:主表只给绝对四维分,缺逐模块消融(去掉负记忆/去掉 CAM 各掉多少)来证明各组件贡献;交互分等绝对值整体偏低(IMAT 也才 45 上下),说明任务本身远未解决。
- 依赖 MLLM grounding 实时性存疑:每次交互帧调 Rex-Omni 的延迟在真正实时场景下能否满足,论文未充分量化。
- 基准虽覆盖六类场景但仅 150 视频,相对自动跟踪基准(LaSOT 280、TNL2K 700)规模偏小,密集交互标注的成本是天然瓶颈。
相关工作与启发¶
- vs 传统 VOT(OSTrack、STARK、MixFormer):他们靠首帧固定模板做特征匹配,纯外观、不懂语言;本文要求实时响应语言指令、动态切换焦点,并用 IPM+CAM 把语义介入接进来。
- vs VLT / RVOS(SUTrack、Sa2VA、VideoLISA):他们用 BERT/CLIP 或 MLLM 做单次 grounding、多为离线或一次性指定目标;本文支持序列化、运行时接连到来的用户指令与上下文更新。
- vs SAM2 等交互分割基础模型:SAM2 统一图像/视频交互但记忆是单向正传播;IMAT 在其上加负记忆 + 认知仲裁,把"用户反馈学习"做成持续闭环而非单次提示。
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 提出交互式跟踪新范式并配齐"基准+协议+基线"三件套,定义了一个能持续做下去的子方向。
- 实验充分度: ⭐⭐⭐⭐ 实测 25 个跟踪器、四维协议、六场景 OPE 很全面,但缺 IMAT 自身的逐模块消融与阈值敏感性。
- 写作质量: ⭐⭐⭐⭐ 任务动机、基准构建、协议、IMAT 三模块都讲清楚,篮球例子很有画面;表格列名分组稍密需对照原文。
- 价值: ⭐⭐⭐⭐⭐ 直击体育分析、无人机监控等真实人在回路需求,基准+协议会成为后续工作的事实标准。