SPARROW: Learning Spatial Precision and Temporal Referential Consistency in Pixel-Grounded Video MLLMs¶

会议: CVPR 2026
arXiv: 2603.12382
代码: 无
领域: 多模态VLM
关键词: video segmentation, MLLM grounding, temporal consistency, dual-prompt, referring video object segmentation

一句话总结¶

提出SPARROW框架，通过Target-Specific Tracked Feature注入时序参照一致性和BOX+SEG双提示初始化稳定像素定位，作为即插即用模块在三个视频MLLM基线上跨六个benchmark一致提升。

研究背景与动机¶

视频MLLM的时序漂移问题：现有视频MLLM依赖静态文本定位token（如[SEG]）指示需分割的对象，但[SEG]仅提供"做什么"的语义线索，不包含对象位置和外观如何随时间变化的信息。模型必须完全从视觉线索推断运动和外观变化，导致空间漂移、身份切换和不一致的分割。

首帧初始化不稳定：[SEG]token只提供语义信息无空间先验，首帧mask经常与目标不对齐，这种错误随序列传播不断累积。一旦漂移开始，对象身份切换和参照不一致随之而来。

现有方法的共性局限：VideoGLaMM、UniPixel、GLUS等方法依赖逐帧语义和传播mask而非序列级参照线索，缺乏显式的时序identity维护机制。

方法详解¶

整体框架¶

SPARROW增强基线视频MLLM的两个互补模块：(1) Target-Specific Tracked Feature (TSF)——在训练时注入时序对齐的参照特征，教会模型identity持久性；(2) Dual-Prompt Grounding——联合解码[BOX]和[SEG]token，实现粗到细的空间定位和语义分割。

架构组成：双分支视觉编码器（空间SigLIP+时序InternVideo2）→ V→L适配器 → LoRA微调的LLM → L→V适配器（BOX/SEG） → SAM2像素解码器。所有新增模块即插即用，不修改基础backbone。

关键设计¶

Target-Specific Tracked Feature (TSF)：
- 功能：在训练时注入时序对齐的参照对象特征，使模型学会跨帧identity持久性
- 核心思路：给定文本query，用GroundingDINO在一帧检测对象 → CLDTracker跨序列传播 → K-means聚类（K=4）在联合视觉-空间特征空间中选择代表性样本 → 编码为TSF tokens \(Z_{\text{TSF}}\) 拼接到LLM输入。测试时TSF默认关闭（无需外部检测/跟踪器）
- 设计动机：TSF在训练时提供"这个对象在不同帧长什么样"的监督信号，让模型internalize时序参照能力。离线预计算解耦了重型模块和训练循环。K-means选择确保多样外观表示
Dual-Prompt Grounding（BOX + SEG双提示）：
- 功能：LLM同时发射[BOX]和[SEG]token，前者提供空间先验，后者提供语义分割
- 核心思路：[BOX]嵌入 \(e_{\text{BOX}}\) 条件一个轻量回归头——在SAM2的Hiera特征上构建class-agnostic proposer（Deformable-DETR），生成300个候选框 → 通过交叉注意力 \(A_i = \text{softmax}((W_q e_{\text{BOX}})(W_k F_i)^T/\sqrt{d})\) 用语言条件筛选 → 细化框坐标。[SEG]嵌入 \(e_{\text{SEG}}\) 与筛选后的框 \(\hat{b}_i\) 一起送入SAM2 prompt encoder产生mask
- 设计动机：[BOX]的粗定位先验约束[SEG]的搜索空间，稳定首帧且允许漂移纠正。独立评分机制自然支持多实例查询（如"两个玩家"）。在任意帧重发[BOX]+[SEG]可实现无需外部跟踪器的漂移纠正
两阶段训练策略：
- 功能：Stage 1训练TSF注入（多模态适配器+LoRA），Stage 2训练BOX提示（proposer预训练→filtration head微调）
- 核心思路：Stage 1：在30,646视频/45,231 QA对上训练 \(\mathcal{L}_{total} = \mathcal{L}_{CE} + \mathcal{L}_{BCE} + \mathcal{L}_{DICE}\)，仅更新V→L适配器、L→V SEG适配器和LLM LoRA。Stage 2：先在COCO/Objects365/OpenImages/V3Det上预训练class-agnostic proposer，再微调filtration head \(\mathcal{L}_{filter} = \lambda_{cls}\mathcal{L}_{BCE} + \lambda_{box}(\mathcal{L}_{\ell_1} + \mathcal{L}_{GIoU})\)
- 设计动机：两阶段解耦——Stage 1专注时序+语义对齐，Stage 2专注空间精度。渐进式训练避免多目标冲突

损失函数 / 训练策略¶

Stage 1：\(\mathcal{L}_{CE}\)（语义对齐）+ \(\mathcal{L}_{BCE} + \mathcal{L}_{DICE}\)（mask监督）
Stage 2 proposer预训练：\(\mathcal{L}_{obj} + \lambda_1\mathcal{L}_{\ell_1} + \lambda_2\mathcal{L}_{GIoU}\)
Stage 2 filter微调：IoU>0.5为正样本，<0.2为负样本，\(\lambda_{cls}=1.0, \lambda_{box}=2.0\)
TSF数据集：30,646视频+45,231 QA对，来自HC-STVG、VID-Sentence、A2D Sentences、LaSOT、MeViS、GOT-10k、Ref-SAV的统一整合

实验关键数据¶

主实验（适配三个基线的RVOS任务）¶

SPARROW作为即插即用模块分别适配到VideoGLaMM、UniPixel和GLUS三个SOTA视频MLLM，在MeViS、Ref-DAVIS17、Ref-YouTube-VOS等6个benchmark上均产生一致且显著的提升。

基线 → +SPARROW	提升效果
VideoGLaMM → +SPARROW	时序一致性和空间精度均提升
UniPixel → +SPARROW	身份切换显著减少
GLUS → +SPARROW	首帧定位稳定性改善

消融实验¶

组件	效果
基线 (无TSF无Dual-Prompt)	基线
+ TSF (训练时)	时序一致性显著提升
+ Dual-Prompt (BOX+SEG)	空间精度显著提升
+ TSF + Dual-Prompt	最优
TSF在推理时使用	进一步小幅提升（但需额外开销）

关键发现¶

TSF训练后测试时默认不使用——模型已internalize时序参照能力，不依赖外部跟踪器
Dual-Prompt的[BOX]先验对首帧稳定性提升最大，减少了误初始化的error cascade
跨三个不同架构的基线均一致提升，验证了模块化设计的通用性
多实例场景（如"两条狗"）中独立评分机制自然处理，无需额外标注

亮点与洞察¶

训练时注入、测试时无需的TSF设计很优雅——用离线追踪数据教模型时序感知，部署时不增加开销
BOX+SEG粗到细的双提示范式为视频MLLM的精确定位提供了新范式
即插即用设计使方法可立即应用于任何现有视频MLLM，降低了采用门槛

局限与展望¶

TSF的离线数据构建依赖GroundingDINO和CLDTracker的质量——检测/追踪失败会引入噪声监督
Stage 2的proposer预训练使用大规模检测数据集，可能限制在资源受限场景的复现
仅在RVOS和GCG任务上评估，扩展到视频QA、moment retrieval等任务的效果待验证
K-means的K=4是经验值，不同复杂度的视频可能需要不同K

评分¶

新颖性: ⭐⭐⭐⭐ TSF训练注入+Dual-Prompt双提示的组合设计新颖，即插即用模块化设计有影响力
实验充分度: ⭐⭐⭐⭐ 三个基线×六个benchmark的全面验证，模块化消融清晰
写作质量: ⭐⭐⭐⭐ 问题分析深入，方法描述详细，图示清晰
价值: ⭐⭐⭐⭐ 对视频MLLM的时序一致性和空间精度提供了通用增强方案