SPARROW: Learning Spatial Precision and Temporal Referential Consistency in Pixel-Grounded Video MLLMs¶

会议: CVPR 2026
arXiv: 2603.12382
代码: 无
领域: 多模态VLM
关键词: 视频像素级定位, 参考视频目标分割, 时间一致性, 双提示解码, 多模态大语言模型

一句话总结¶

提出 SPARROW 框架，通过 目标特定追踪特征（TSF） 注入时间一致性监督、双提示（[BOX]+[SEG]）粗到细解码 稳定首帧初始化，以即插即用方式集成到现有视频 MLLM 上，在 6 个基准 3 个任务上取得一致提升。

研究背景与动机¶

领域现状：多模态大语言模型（MLLMs）在图像级视觉推理与像素级定位上已有不少进展，LISA / PixelLM 等方法通过 [SEG] token 实现语言条件化分割。但把它们搬到视频上时，运动动态、遮挡和时间一致性带来了额外挑战。

现有痛点：现有视频 MLLM（VideoGLaMM、UniPixel、GLUS）主要靠静态 [SEG] token 逐帧推理，由此暴露两个问题。其一是时间漂移与身份切换——文本提示是静态的、视频却是动态的，模型只能纯靠视觉线索推断运动和外观变化，导致同一目标在不同帧被分割成不一致的两个"人"。其二是首帧初始化不可靠——[SEG] token 只给语义线索、不给空间先验，首帧 mask 容易与目标错位，而这个误差会逐帧累积放大。

核心矛盾：静态语义 token 编码不了目标随时间变化的位置与外观；而首帧定位一旦出错，后续每帧的分割都会被误差传播拖累。

要解决什么：在不修改基础模型架构的前提下，同时拿下 (i) 时间参考一致性（身份保持）和 (ii) 首帧空间精度（减少漂移）两个问题。

切入角度与核心 idea：作者从追踪得到的目标特定特征里提炼时间监督信号——训练时注入、推理时去除（即 TSF），让模型把身份持久性内化；再引入 [BOX] 几何先验与 [SEG] 语义先验协同的双提示解码，把首帧定位从"一步到位"改成"粗到细"两步走。

方法详解¶

整体框架¶

SPARROW 要在不动基础视频 MLLM 架构的前提下，同时治好两个老毛病：分割结果跨帧"换人"（身份不一致）与首帧定位飘忽（误差逐帧累积）。它的做法是在原有 pipeline 上挂两组轻量、即插即用的模块——目标特定追踪特征（TSF） 负责注入时间一致性、双提示定位（Dual-Prompt Grounding） 负责稳住首帧空间精度。一段视频先经双分支视觉编码器——空间分支 ℱg 抓单帧外观、时间分支 ℱh 抓帧间运动——再过 V→L 适配器送进 LoRA 微调的 LLM；LLM 不只回答文本，还吐出两类特殊 token：[BOX] 和 [SEG]，二者经 L→V 适配器投影回视觉空间，[BOX] 驱动类无关 proposer 给出几何框、[SEG] 驱动 SAM2 像素解码，最终以粗到细方式合作出 mask。TSF 模块则只在训练时把跨帧追踪到的目标外观拼进输入、推理时默认撤掉。由于所有新增模块都不改骨干，这套设计能直接套到 UniPixel、GLUS、VideoGLaMM 等不同架构的视频 MLLM 上。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400, 'subGraphTitleMargin': {'top': 8, 'bottom': 16}}}}%%
flowchart TD
    V["输入视频 + 文本 query"] --> ENC["双分支视觉编码器<br/>空间 ℱg + 时间 ℱh"]
    ENC --> LLM["V→L 适配器 → LoRA 微调 LLM"]
    subgraph TSF["目标特定追踪特征 TSF（仅训练时注入）"]
        direction TB
        T1["GroundingDINO 检出<br/>+ CLDTracker 跨帧传播"] --> T2["K-means 取 4 个代表外观<br/>编码为 TSF token"]
    end
    TSF -. 训练时拼入多模态输入 .-> LLM
    LLM --> BOX["输出 [BOX] token"]
    LLM --> SEG["输出 [SEG] token"]
    subgraph DP["双提示定位 Dual-Prompt Grounding"]
        direction TB
        BOX --> P1["类无关 proposer<br/>SAM2/Hiera 特征 → 300 候选框"]
        P1 --> P2["filtration 打分 + top-M 回归精修<br/>语言×视觉分数融合 → 框集 B*"]
        SEG --> S1["[SEG] + B* 配对成 mask query"]
        P2 --> S1
        S1 --> M["SAM2 像素解码 → 实例 mask"]
    end

关键设计¶

1. 目标特定追踪特征（TSF）：用训练期的伪追踪监督把"身份持久性"灌进模型，推理时再悄悄撤掉

视频 MLLM 沿用了图像时代的静态 [SEG] token，文本提示是死的、视频却在动，模型只能纯靠视觉线索去猜目标的运动和外观变化，结果同一目标在不同帧被分成两个"人"。TSF 反其道而行——训练时直接喂给模型一组"这就是同一个目标"的参考样本。具体地，给定文本 query，先用 GroundingDINO 在某一帧检出目标，再用 CLDTracker 跨帧传播，得到一串候选框 \(B'_1 \dots B'_{K'}\)；这串框冗余又数量不定，于是在联合视觉-空间特征空间上做 K-means 聚类（\(K=4\)），取最靠近各质心的样本组成紧凑子集 \(B_1 \dots B_K\)，让 4 个代表既覆盖目标的不同外观（正面 / 侧面 / 遮挡 / 远景）又不互相重复。这些区域经图像编码器 ℱg 编码、再过 V→L 适配器投影成 \(Z_{\text{TSF}}\) token，拼进多模态输入。这一思路呼应 Artemis 的发现：追踪得到的目标特定特征能改善时间一致性。而最关键的一笔是——推理时默认不挂 TSF：模型在训练中已把"身份持久性"内化，上线时无需任何外部检测器或追踪器，省掉了部署开销。为支撑这套监督，作者把 HC-STVG、VID-Sentence、A2D Sentences、LaSOT、MeViS、GOT-10k、Ref-SAV 等 7 个公开数据集统一成 30,646 个视频序列、45,231 个 Q&A 对，每条都带时间一致的轨迹、bbox 与分割 mask。

2. 双提示定位（Dual-Prompt Grounding）：[BOX] 先给几何先验、[SEG] 再做语义精修，用粗到细两步稳住首帧

只靠 [SEG] 时首帧定位常常糊成一团——[SEG] 只携带语义线索、没有空间先验，第一帧 mask 一旦错位，后面每帧都跟着错。双提示的做法是在 [SEG] 之前先插一个 [BOX] 分支补上几何约束。[BOX] 分支里，LLM 先吐出 \(e_{\text{BOX}}\)，经 L→V 适配器 \(W_b\) 投影；与此同时一个类无关 proposer（Deformable-DETR 结构、只保留单一 objectness head，搭在冻结的 SAM2/Hiera 特征上）生成 \(K=300\) 个候选 proposal。\(e_{\text{BOX}}\) 与每个 proposal 特征做 cross-attention 融合后，filtration head 给它们打分，对 top-M 候选再做文本条件化的 bbox 回归精修，最后把语言分数与视觉分数融合、过阈值，得到最终框集合 \(B^*\)。[SEG] 分支则拿筛过的 \(\hat{b}\) 与 \(e_{\text{SEG}}\) 组成 mask query，送进 SAM2 的 prompt encoder，每个空间先验吐一个实例级 mask；当 \(|B^*|>1\) 时天然支持多实例输出。这套设计的好处不止落在首帧——在任意中间帧重新发一次 [BOX]+[SEG]，就能把已经漂移的目标重新拉回，等于内建了漂移校正。

一个完整示例¶

以 query"穿过画面奔跑的那只狗" + 一段视频为例。训练时（带 TSF）：GroundingDINO 在中间某帧框出狗，CLDTracker 向前后传播得到十几个候选框，K-means 聚成 4 个代表外观，编码成 4 个 TSF token 拼进输入，模型据此学到"这 4 个外观属于同一只狗"。推理时（不带 TSF）：首帧 LLM 直接输出 [BOX]+[SEG]；proposer 在这一帧产出 300 个类无关 proposal，\(e_{\text{BOX}}\) 与它们逐一打分，filtration head 留下 top-M 个，经回归精修与语言 / 视觉分数融合、过阈值后只剩 1 个框——正是那只狗，即 \(B^*\)；[SEG] 把这个框当空间先验送进 SAM2，吐出狗的像素 mask。后续帧若目标因遮挡而漂移，在那一帧重新发 [BOX]+[SEG] 即可重新锁定。

损失函数 / 训练策略¶

两阶段训练：

Stage 1 — TSF 信息注入：训练 V→L 适配器 (Wg, Wh)、L→V SEG 适配器 Ws、LLM LoRA 参数，骨干和像素解码器冻结。损失：L_total = L_CE + L_BCE + L_DICE。

Stage 2 — Box Prompt 学习： - 先独立预训练类无关 proposer（D-DETR head，在 COCO/Objects365/OpenImages/V3Det 上训练，丢弃类别标签）。损失：L_prop = L_obj + λ1·L_ℓ1 + λ2·L_GIoU - 再微调 filtration head + L→V BOX 适配器 Wb，其余全部冻结。损失：L_filter = λ_cls·L_BCE + λ_box·(L_ℓ1 + L_GIoU)，其中 λ_cls=1.0, λ_box=2.0

实验关键数据¶

主实验¶

在 3 个视频 MLLM 基线（UniPixel、GLUS、VideoGLaMM）上分别集成 SPARROW，涵盖 RVOS、VG、GCG 三个任务。

表 1：MeViS 参考视频目标分割（运动表达式）

方法	val J&F	val^u J&F
UniPixel	53.1	59.7
+ SPARROW	54.4 (+1.3)	60.7 (+1.0)
GLUS	51.3	59.8
+ SPARROW	53.2 (+1.9)	61.9 (+0.3)
VideoGLaMM	45.2	48.5
+ SPARROW	47.5 (+2.3)	57.4 (+8.9)

表 2：Ref-YTVOS & Ref-DAVIS17 参考视频目标分割

方法	Ref-YTVOS J&F	Ref-DAVIS17 J&F
UniPixel	70.5	74.2
+ SPARROW	70.7 (+0.2)	76.4 (+2.2)
GLUS	67.3	72.9
+ SPARROW	69.1 (+1.8)	75.5 (+2.6)
VideoGLaMM	66.8	69.5
+ SPARROW	68.9 (+2.1)	76.8 (+7.3)

VideoGLaMM 在 Ref-DAVIS17 上 F（边界质量）提升高达 +14.5，所有集成 SPARROW 的模型 F 均超过 80。

表 3：VideoGCG 视频定位对话生成

方法	mIoU	Recall	CLAIR
UniPixel	52.0	0.311	26.0
+ SPARROW	54.5 (+2.5)	0.325	29.4 (+3.4)
VideoGLaMM	62.34	0.375	28.2
+ SPARROW	65.59 (+3.25)	0.383	33.6 (+5.4)

消融实验¶

基于 Ref-DAVIS17 (val) + VideoGLaMM 基线。

TSF 与 BOX 联合消融（J&F）：

TSF 模式	BOX OFF	BOX ON
无 TSF	69.5 (baseline)	72.5 (+3.0)
仅训练时（默认）	72.4 (+2.9)	76.8 (+7.3)
训练+推理	75.3 (+5.8)	77.7 (+8.2)

提示组合消融：[SEG] only 69.5、[BOX] only 68.2、[BOX]+[SEG] 72.5（+3.0），证实双提示互补性。

关键发现¶

TSF 仅在训练时使用即可带来 +2.9 提升，无需推理时的检测器/追踪器开销
[BOX] 提示单独贡献 +3.0，与 TSF 叠加呈近似可加效果（+7.3）
VideoGLaMM 上收益最大（MeViS val^u +8.9, Ref-DAVIS17 +7.3），说明基线越弱，改进空间越大
VidSTG（视觉定位）任务上三个基线均获得约 +5 mIoU 的一致提升

亮点与洞察¶

即插即用设计：SPARROW 不修改基线骨干/LLM，仅通过轻量适配器和 proposal head 集成，成功应用于 3 个不同架构的视频 MLLM，具有很强的通用性
训练时追踪、推理时免追踪：TSF 的核心洞察是利用伪追踪监督在训练阶段注入时间一致性先验，模型内化后推理时无需外部追踪器，大幅降低部署成本
粗到细双提示：[BOX] 提供几何约束、[SEG] 提供语义精修，二者在信息维度上正交互补，类似于检测后分割的两阶段思路但通过 token 优雅实现
大规模数据集构建：整合 7 个公开数据源形成 30K+ 视频的统一训练集，填补了目标中心时间定位数据的空白

局限与展望¶

依赖 proposal 召回：小目标、严重遮挡或未见类别若 proposal 未覆盖则无法恢复，recall 是瓶颈
长视频误差累积：早期 [BOX] 错误仍可能在长序列中传播，虽然双提示缓解了但未完全消除
TSF 伪标签质量：依赖 GroundingDINO + CLDTracker 生成伪追踪，严重噪声/ID 切换会影响训练
未来方向：更高召回的 proposal 方法、在线校正机制、更强的追踪监督信号

评分¶

⭐⭐⭐⭐ 工程导向强、方法模块化设计优雅、实验覆盖全面（3基线×6数据集），但核心技术（proposal+追踪伪标签）创新性中等，更多是已有组件的精巧组合。