SPOT: Spatiotemporal Prompt Optimization for Motion-Stabilized MLLM-Guided Video Segmentation¶

会议: CVPR 2026
论文: CVF Open Access
代码: 无
领域: 多模态VLM / 视频分割
关键词: 指代视频分割, 推理视频分割, 提示优化, 布朗桥, SAM

一句话总结¶

SPOT 不给 MLLM 做视频预训练、也不改 SAM 架构，只通过两个损失约束图像预训练 MLLM 输出的「提示点」轨迹——用布朗桥损失逼时序平滑、用提示质量损失逼空间贴合——就让级联式「MLLM 出 prompt + SAM 出 mask」的视频分割在六个 benchmark 上全面超越 SOTA。

研究背景与动机¶

领域现状：指代视频分割（RVOS）和推理视频分割（ReasonVOS）的主流做法，是把 MLLM 和视觉基础模型 SAM 级联起来——MLLM 解析语言+视觉语义、为每一帧吐出空间提示点（前景/背景点 + 边界框），SAM 拿着这些 prompt 做像素级分割。这套在静态图像上表现极好。

现有痛点：但这些 MLLM 几乎都是在「静态图文对」上预训练的，逐帧独立地生成 prompt，完全没有建模目标物体的运动轨迹。结果相邻帧的 prompt 点会突然跳变，导致 SAM 输出的 mask 在帧间出现严重的「非物理抖动」（temporal jittering），时序一致性垮掉。

核心矛盾：为补救，现有研究走两条路——要么在大规模视频-文本数据上微调/预训练 MLLM（吃算力、吃标注，难复用现成基础模型），要么外接复杂的时序融合模块/记忆库（系统变复杂、泛化变差）。两条路都想给 MLLM 硬塞「显式时空理解能力」，却忽略了视频本身的物理先验：物体轨迹天然遵循运动连续性，本来就是一条平滑的时空流。

本文目标：在不动模型架构、不做视频预训练的前提下，同时拿到分割的「时序平滑」和「空间精度」。

切入角度：作者提出一个关键判断——静态预训练的 MLLM 其实已经潜在具备时空推理能力，只要用物理运动约束去「规范它的输出行为」就能激活，而不必改它本身。换句话说，性能瓶颈不在基础模型架构，而在 prompt 生成阶段缺约束。

核心 idea：把 SAM 当成固定黑盒，问题就等价于「为每一帧找最优 prompt 序列」；于是把 MLLM 重构成一个可学习的「提示投影算子」，用时间+空间两个损失把它的输出推向最优 prompt 集 \(P^*\) 的邻域。

方法详解¶

整体框架¶

SPOT 协调一个 MLLM（Qwen-VL-7B-Chat）和固定的视觉基础模型 SAM（EfficientViT-XL1-SAM）完成视频分割。给定视频序列 \(V=\{I_t\}_{t=1}^T\) 和语言查询 \(Q\)，系统走两阶段：提示生成阶段——MLLM 为每帧 \(I_t\) 预测一个边界框 \(b_t\in\mathbb{R}^4\) 和一组前景/背景提示点 \(P_t=\{(x_{t,i},y_{t,i},l_{t,i})\}_{i=1}^K\)（\(l_{t,i}\in\{0,1\}\) 标前景/背景，所有点都约束在 \(b_t\) 内）；掩码生成阶段——SAM 吃 \((I_t,b_t,P_t)\) 逐帧输出 \(M_t=\mathrm{SAM}(I_t,b_t,P_t)\)。

关键的重构在于：SAM 是固定、不可微的黑盒，输出只取决于输入 prompt。所以学习目标 \(F:(V,Q)\mapsto M\) 就等价于「找一个 prompt 序列 \(\{(b_t,P_t)\}\) 使 SAM 输出逼近真值掩码」。作者把这个最优 prompt 集 \(P^*\) 的两条几何性质拎出来：① 时序连续性——相邻帧 prompt 要满足运动平滑，避免突变；② 空间局部性——\(b_t\) 覆盖目标、前景点落在真值掩码内、背景点落在外。然后把 MLLM 当作可学习投影算子 \(\Pi_\theta:(I_t,Q)\mapsto(b_t,P_t)\)，用 LoRA 微调（低秩参数化天然带隐式正则、抑制噪声 prompt 过拟合），靠三个损失把它的输出轨迹推向 \(P^*\)。MLLM 与 SAM 之间是两轮对话：第一轮出框，第二轮在框内采 \(5\times5\) 网格点判前景/背景；推理时按置信度阈值过滤点再喂给 SAM，端到端出 mask，不碰真值、不做测试时优化。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["输入：视频 V + 语言查询 Q"] --> B["MLLM 投影算子 Π_θ<br/>LoRA 微调，逐帧出框+提示点"]
    B --> C["布朗桥损失<br/>约束提示点质心沿平滑轨迹演化"]
    B --> D["提示质量感知损失<br/>框贴目标 + 前景点落在掩码内"]
    C --> E["最优提示序列<br/>(b_t, P_t)"]
    D --> E
    E --> F["固定 SAM 黑盒<br/>逐帧出 mask"]
    F --> G["输出：视频分割 M = {M_t}"]

关键设计¶

1. 把 MLLM 重构成「提示投影算子」：用约束输出代替改架构

针对「现有方法要么视频预训练、要么外接时序模块」的痛点，SPOT 换了个问题表述：既然 SAM 输出只取决于 prompt，那时序一致性的根源就在 prompt 生成，而不在基础模型。于是不动 MLLM 和 SAM 的结构，只把 MLLM 视为映射 \(\Pi_\theta:(I_t,Q)\mapsto(b_t,P_t)\)，目标是把它的输出推到最优 prompt 集 \(P^*\) 的邻域。微调用 LoRA（冻结绝大多数原参数，低秩更新带隐式正则），并保留一个文本对齐损失防止 MLLM 丢掉语义泛化能力。这一步是全文的「地基」——它把「视频时序建模」这个看似要动架构的难题，转化成「对 MLLM 输出空间加两个约束」的优化问题，从而省掉大规模视频预训练，并保住 MLLM 的零样本泛化。

2. 布朗桥损失：用端点约束的高斯过程逼出平滑运动轨迹

这是时间维度的核心，专治帧间抖动。把目标中心轨迹建模成一个布朗桥随机过程——一个满足端点约束 \(B(0)=a,\,B(T)=b\) 的高斯过程，其路径在固定端点下最小化期望 Dirichlet 能量 \(\int_0^T\|\dot B(t)\|^2 dt\)，物理含义是「在缺中间帧监督时，最平滑的轨迹就是速度变化最小的那条」。由于真实中心 \(c_t^{\text{gt}}\) 中间帧不可观测，作者只用视频片段首尾帧的真值掩码质心当端点先验，则任意中间时刻 \(t\) 的轨迹服从条件高斯 \(\mathcal{N}(\mu_t,\Sigma_t)\)，其中 \(\mu_t=(1-\alpha_t)c_{t_0}^{\text{gt}}+\alpha_t c_{t_0+T_s-1}^{\text{gt}}\)、\(\Sigma_t=\sigma^2\alpha_t(1-\alpha_t)I_2\)，\(\alpha_t=\frac{t-t_0}{T_s-1}\) 是归一化时间。损失把所有提示点（含正负样本）拉向共享均值 \(\mu_t\)：

\[\mathcal{L}_{\text{BBridge}}^{[t_0,t_0+T_s-1]}=\sum_{t=t_0+1}^{t_0+T_s-2}\frac{1}{K}\sum_{k=1}^{K}\frac{\|P_{t,k}-\mu_t\|_2^2}{\max(\alpha_t(1-\alpha_t),\epsilon)}\]

巧妙之处是分母里的方差自适应加权 \(\alpha_t(1-\alpha_t)\)：端点附近（\(\alpha_t\to 0\) 或 \(1\)）方差小、权重高，强制精确定位；中间帧方差大、权重低，允许合理运动波动——这正好契合「端点有真值、中间靠平滑外推」的不确定性结构。作者还给了贝叶斯解释（Theorem 1）：最小化该损失等价于在「布朗桥先验 + 逐帧独立高斯似然」下对真实轨迹做后验均值估计，方差权重对应后验精度。⚠️ 定理与推导细节以原文为准。

3. 提示质量感知损失：框 + 几何一致性硬监督，把 prompt 钉在目标上

这是空间维度，对应 \(P^*\) 的「空间局部性」。作者依据 SAM 的特性——对正样本点位置敏感、对负样本较宽容——把监督重心放在「正点是否落在目标内」。损失由两项组成：边界框损失 \(\mathcal{L}_{\text{bbox}}^t=\mathrm{SmoothL1}(b^t,b_{\text{gt}}^t)\) 保证粗定位；几何一致性硬监督 \(\mathcal{L}_{\text{class}}^t\) 直接对每个提示点的真值标签做二元交叉熵——把点坐标 round+clip 到像素位，查真值掩码得 \(y_{t,i}^{\text{gt}}=M_{\text{gt}}^t(u_{t,i},v_{t,i})\)，再用 MLLM 输出的连续 logit \(z_{t,i}\) 做可微监督：

\[\mathcal{L}_{\text{class}}^t=-\sum_{i=1}^{K}\big[y_{t,i}^{\text{gt}}\log\sigma(z_{t,i})+(1-y_{t,i}^{\text{gt}})\log(1-\sigma(z_{t,i}))\big]\]

合起来 \(\mathcal{L}_{\text{quality}}^t=\mathcal{L}_{\text{bbox}}^t+\mathcal{L}_{\text{class}}^t\)。这里的「硬监督」指：训练时虽然 SAM 只用离散标签，但用 logit 构造可微信号，落在掩码内的点被鼓励出高前景 logit、外面的点被压制。作者论证：当正点都在掩码内、框覆盖目标时，SAM 的 IoU 随正点增多/负点远离单调非降，所以最小化 \(\mathcal{L}_{\text{quality}}\) 的方向与分割性能提升对齐，相当于间接最大化 SAM 性能。

损失函数 / 训练策略¶

总损失是一个三约束优化。除上面的时间项与空间项外，再加一个标准自回归语言建模的文本对齐损失 \(\mathcal{L}_{\text{text}}^t=-\sum_j\log p_\theta(w_j\mid I_t,Q,w_{<j})\)——监督 MLLM 生成结构化文本响应（含 <box> 坐标与点标签），保住语言理解能力。对每个采样片段 \([t_0,t_0+T_s-1]\)：

\[\mathcal{L}_{\text{total}}=\sum_{t=t_0}^{t_0+T_s-1}\big(\mathcal{L}_{\text{quality}}^t+\lambda_{\text{text}}\mathcal{L}_{\text{text}}^t\big)+\lambda_{\text{bb}}\mathcal{L}_{\text{BBridge}}^{[t_0,t_0+T_s-1]}\]

语义约束保泛化、几何约束保单帧空间精度、时序约束保跨帧平滑。最优权重 \(\lambda_{\text{bb}}=0.1\)、\(\lambda_{\text{text}}=0.5\)。

实验关键数据¶

主实验¶

在 RVOS 三大数据集上，SPOT-13B 全面领先（J&F↑）：

数据集	指标	SPOT-13B	之前SOTA	提升
Ref-YouTube-VOS	J&F	71.8	69.2 (SAMWISE)	+2.6
Ref-DAVIS-2017	J&F	77.2	74.9 (DTOS-9B)	+2.3
MeViS	J&F	51.2	49.5 (SAMWISE)	+1.7
A2D-Sentences	IoU(Overall)	82.2 (7B)	81.1 (DsHmp)	+1.1
JHMDB-Sentences	IoU(Overall)	75.0 (7B)	73.9 (DsHmp)	+1.1

在更难的 ReVOS 推理视频分割上，SPOT-13B 拿到 Overall J&F 54.8、稳定性指标 R 18.0，明显超过 VISA-13B（50.8 / 15.1），说明显式建模运动连续性既压住时序抖动又不损推理能力：

方法	Referring J&F	Reasoning J&F	Overall J&F	R(稳定性)
VISA-7B	51.0	43.2	47.1	15.3
VISA-13B	57.4	44.2	50.8	15.1
SPOT-7B	59.3	46.0	52.7	16.5
SPOT-13B	61.5	48.0	54.8	18.0

消融实验¶

在 Ref-YouTube-VOS 上（SPOT-7B，J&F 满配 70.5）：

配置	J&F	说明
Full Model	70.5	完整模型
w/o \(\mathcal{L}_{\text{BBridge}}\)	65.2	去时序约束，掉 5.3%
w/o \(\mathcal{L}_{\text{quality}}\)	62.7	去空间约束，掉 7.8%（最大）
w/o \(\mathcal{L}_{\text{text}}\)	67.8	去文本对齐，中等下降
MLLM + SAM 2（无 Eq.10）	66.9	换 SAM 2 也不如原 SAM + 本文约束

布朗桥损失的设计变体消融，验证「方差自适应加权」与「建模中间帧」都必要：

变体	J&F	说明
Full（自适应加权）	70.5	完整
常数加权（\(\lambda_t=1\)）	68.7	均匀权重不分帧位不确定性，掉 1.8%
仅端点监督（无中间）	67.3	不建模中间帧轨迹，进一步下降
无布朗桥	65.2	完全去掉

空间约束消融：仅 BBox 掉 2.7%、仅几何硬监督掉 2.2%，两者互补。

关键发现¶

空间约束贡献最大：去 \(\mathcal{L}_{\text{quality}}\) 掉 7.8%，超过去时序的 5.3%，说明「把正点钉进目标」对 SAM 是第一性的，时序平滑是锦上添花。
抖动来自 prompt 而非架构：原始 SAM + 本文约束（70.5）反超「MLLM + SAM 2 流式记忆」（66.9），直接证伪「要靠 SAM 2 架构才能时序一致」的假设——这是全文最有说服力的一击。
方差自适应是关键 trick：把端点高权、中间低权写进分母，比常数权重高 1.8%，对应了「端点有真值该精确、中间靠外推该宽容」的物理直觉。
权重敏感性：J&F 在 \(\lambda_{\text{bb}}=0.1\)、\(\lambda_{\text{text}}=0.5\) 处取峰；\(\lambda_{\text{bb}}\) 太小时序约束不足、太大则损语义推理。

亮点与洞察¶

把视频时序问题转成 prompt 优化问题：核心洞察是「SAM 是固定黑盒、输出只取决于 prompt，那一致性瓶颈就在 prompt 生成」，于是绕开了改架构/视频预训练，只优化输出空间——这个 reframe 干净且可迁移到任何「冻结基础模型 + 可学习 prompt 生成器」的级联系统。
用布朗桥把「缺中间帧监督」变成「最小能量平滑路径」：只要首尾两帧真值，就能给中间帧造出一个带不确定性的轨迹先验，方差自适应权重还自动平衡了定位精度与运动容忍——这套思路可迁到任何「端点已知、中段需平滑」的弱监督时序任务（轨迹预测、关键点跟踪）。
几何一致性硬监督的「用 logit 训、用离散标签推」：训练时拿连续 logit 构可微 BCE、推理时只用离散点，既可微又匹配 SAM 接口，是个轻巧的实现 trick。

局限与展望¶

端点依赖首尾帧真值掩码：布朗桥的两个端点先验来自片段首尾帧 GT；若首/尾帧本身定位差、或目标在端点处被遮挡，整条轨迹先验会被带偏（作者未充分讨论这种退化）。⚠️
质心轨迹建模偏简单：布朗桥约束的是提示点质心沿平滑路径演化，对快速形变、分裂/合并、急转弯等非平滑运动可能过度平滑（运动连续性假设的边界）。
稳定性指标 R 缺明确定义：ReVOS 上的 R（稳定性）在缓存正文里未给出计算式，跨方法比较时其口径需以原文为准。⚠️
改进方向：把端点先验从「硬两端」扩展到多锚点/可学习端点检测，或将布朗桥换成允许局部突变的跳跃扩散过程，以适配非平滑运动。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 「时序问题=prompt 优化问题」的 reframe + 布朗桥端点约束，角度新且自洽。
实验充分度: ⭐⭐⭐⭐ 六个 benchmark + 多组消融，但稳定性指标 R 与部分理论细节交代不够。
写作质量: ⭐⭐⭐⭐ 动机与方法逻辑清晰，公式完整；个别符号/定理推导略简。
价值: ⭐⭐⭐⭐⭐ 不动架构、不做视频预训练即提点，复用现成基础模型生态，落地友好。