CoT-RVS: Zero-Shot Chain-of-Thought Reasoning Segmentation for Videos¶

会议: ICLR 2026
arXiv: 2505.18561
代码: 无
领域: LLM推理
关键词: 推理视频分割, Chain-of-Thought, 零样本, 关键帧选择, 多模态大模型

一句话总结¶

提出CoT-RVS，一种完全无训练的多智能体框架，利用预训练MLLM的零样本CoT推理能力进行时间-语义关联分析与关键帧选取，在推理视频分割任务上大幅超越微调方法（Refer-DAVIS J&F 79.1 vs 71.2，ReasonVOS J&F 65.5 vs 49.9）。

研究背景与动机¶

领域现状: 推理视频分割(Reasoning VOS)要求模型根据复杂隐式文本查询（如"哪个球员投了三分球"）生成对应目标的视频掩码序列，属于视频理解中最具挑战性的任务之一
现有痛点: 现有方法（VISA/VideoLISA/HyperSeg）微调MLLM生成分割token，但在时间敏感查询下表现不佳。核心原因在于这些方法缺乏帧间时间推理能力——它们关注帧内语义理解，但无法有效推理"哪个时间段发生了什么"
核心矛盾: 图像域的CoT推理分割（Seg-Zero/ThinkFirst）已取得成功，但视频域需要额外的时间维度"思考"能力。直接从图像扩展到视频并不可行，因为视频中的目标对象会随时间发生遮挡、运动、出现或消失
本文切入点: 不做任何微调，而是利用GPT-4o/Gemma3等预训练MLLM的零样本CoT能力，设计任务特定prompt引导模型进行时间-语义推理。这与推理时计算(test-time compute)的趋势高度一致
核心idea: 让MLLM通过CoT自问自答的方式分析关键帧候选：从语义维度（帧内有哪些对象匹配查询）和时间维度（哪个帧的目标最容易观察）两个角度建立关联，最终选出每个实例的最佳关键帧

方法详解¶

整体框架¶

三模块协作的多智能体框架，将视频推理分割分解为关键帧选择→帧级分割→视频追踪三个子任务： - MLLM关键帧选择器 \(\mathcal{F}_{key}\): 负责时间-语义关联推理 - 推理图像分割模型 \(\mathcal{F}_{seg}\): 在关键帧上生成key mask - 视频处理器 \(\mathcal{F}_{vid}\) (SAM2): 沿时间轴追踪掩码

关键设计¶

1. MLLM关键帧选择器（核心创新）: - 均匀采样 \(T' = \lfloor T/\xi \rfloor\) 个关键帧候选 - 对每个候选帧自动合成CoT问答序列，从粗到细：通用语义（"帧中有什么"）→ 时间推理（"是否为更好的关键帧"）→ 细节确认（"是否有新的目标对象"） - 最终输出包含：目标实例列表 + 对应关键帧索引 + 帧内目标描述（如"穿黑色球衣正在投篮的球员"） - 设计为Reasoning VIS框架（k≥1个实例），Reasoning VOS是k=1的特例 - 兼容闭源(GPT-4o)和开源(Gemma3-12B/LLaVA1.5-7B)MLLM

2. 推理图像分割: 使用Seg-Zero等在关键帧上根据文本描述生成key mask

3. 视频处理器: 使用SAM2将key mask追踪到所有帧，多实例通过贪心后处理保证不重叠：\(m_{i,t} = \bigcap_{j=1}^{i-1} \neg m_{j,t} \cap \hat{m}_{i,t}\)

4. 在线推理扩展(Online CoT-RVS): - 每 \(\xi\) 帧周期性调用MLLM判断当前帧是否应替换现有关键帧 - 贪心更新策略：新帧更好→更新目标和掩码；否则→沿用历史 - 首次实现流式推理视频分割，适合实时视频流场景

训练策略¶

完全无训练——所有模块均使用预训练权重，无任何微调。

实验关键数据¶

主实验表¶

数据集	指标	CoT-RVS(GPT-4o)	GLUS	SAMWISE	VideoLISA(Po)	VISA-13B
MeViS	J&F	52.2	51.3	49.5	44.4	44.5
Refer-DAVIS	J&F	79.1	—	70.6	68.8	70.4
ReasonVOS	J&F	65.5	49.9	—	47.5	—

消融实验表¶

配置	MeViS J&F	Refer-DAVIS J&F	说明
CoT-RVS-GPT-4o	52.2	79.1	最强闭源配置
CoT-RVS-Gemma3-12B	44.2	74.6	最强开源配置
CoT-RVS-LLaVA1.5-7B	45.9	73.9	最轻量开源配置
w/o CoT(直接prompt)	—	~65	CoT推理带来约14个点的提升
Online CoT-RVS(GPT-4o)	—	77.8	在线版本性能接近离线

关键发现¶

ReasonVOS上比GLUS高+15.6个点，时间敏感查询优势极为突出（如投三分球、特定动作时刻），验证了时间推理的核心价值
开源Gemma3版本在无API成本下仍超越VISA/VideoLISA等微调方法，说明预训练MLLM的通用推理能力被低估
在线版本(Online CoT-RVS)与离线版本差距仅约1.3个点，但支持流式处理，实用性显著

亮点与洞察¶

完全无训练的突破: 首个兼容闭源/开源MLLM的零样本推理VOS框架，挑战了"推理分割必须微调"的范式
时间推理的价值: CoT过程让MLLM真正"思考"帧间的时间语义关系，这是微调分割token方法本质上缺失的能力
模块化设计的灵活性: 分割模型(LISA/Seg-Zero)和视频处理器(SAM2/Cutie)可灵活替换，未来各模块进步可直接带来系统提升
在线扩展的实用性: 在线推理VOS方案极少见，对实时监控、自动驾驶等场景有意义

局限与展望¶

GPT-4o版本推理成本高（每个视频多次API调用），大规模应用不现实
开源版本(Gemma3)与闭源(GPT-4o)在MeViS上差8个点，说明MLLM视觉推理能力仍是瓶颈
均匀帧采样可能错过关键运动帧，自适应采样策略（如运动检测引导）可能更优
多实例贪心后处理较简单，无法处理严重遮挡场景
未探索将CoT推理模块与分割/追踪模块端到端联合训练的可能性

评分¶

新颖性: ⭐⭐⭐⭐ (零样本CoT应用于视频推理分割，概念新颖)
实验充分度: ⭐⭐⭐⭐ (4数据集+多MLLM+在线扩展+消融)
写作质量: ⭐⭐⭐⭐ (框架描述清晰，公式完整)
价值: ⭐⭐⭐⭐ (证明无训练CoT在视频分割中的可行性)
vs VISA/VideoLISA: 这些方法微调MLLM生成分割token，CoT-RVS完全无训练
vs Seg-Zero/ThinkFirst: CoT推理图像分割方法，本文首次扩展到视频时间域
vs SAM2: 作为即插即用的视频追踪模块，展示了与推理系统组合的潜力

评分¶

新颖性: ⭐⭐⭐⭐ 零样本CoT用于视频时间推理是首创
实验充分度: ⭐⭐⭐⭐ 4个benchmark + 在线扩展 + 模块替换消融
写作质量: ⭐⭐⭐⭐ 示例生动、框架描述清晰
价值: ⭐⭐⭐⭐ 无训练范式有实用意义，但依赖强MLLM