跳转至

CoT-RVS: Zero-Shot Chain-of-Thought Reasoning Segmentation for Videos

会议: ICLR 2026
arXiv: 2505.18561
代码: 无
领域: LLM推理
关键词: 推理视频分割, Chain-of-Thought, 零样本, 关键帧选择, 多模态大模型

一句话总结

提出CoT-RVS,一种完全无训练的多智能体框架,利用预训练MLLM的零样本CoT推理能力进行时间-语义关联分析与关键帧选取,在推理视频分割任务上大幅超越微调方法(Refer-DAVIS J&F 79.1 vs 71.2,ReasonVOS J&F 65.5 vs 49.9)。

研究背景与动机

  • 领域现状: 推理视频分割(Reasoning VOS)要求模型根据复杂隐式文本查询(如"哪个球员投了三分球")生成对应目标的视频掩码序列,属于视频理解中最具挑战性的任务之一
  • 现有痛点: 现有方法(VISA/VideoLISA/HyperSeg)微调MLLM生成分割token,但在时间敏感查询下表现不佳。核心原因在于这些方法缺乏帧间时间推理能力——它们关注帧内语义理解,但无法有效推理"哪个时间段发生了什么"
  • 核心矛盾: 图像域的CoT推理分割(Seg-Zero/ThinkFirst)已取得成功,但视频域需要额外的时间维度"思考"能力。直接从图像扩展到视频并不可行,因为视频中的目标对象会随时间发生遮挡、运动、出现或消失
  • 本文切入点: 不做任何微调,而是利用GPT-4o/Gemma3等预训练MLLM的零样本CoT能力,设计任务特定prompt引导模型进行时间-语义推理。这与推理时计算(test-time compute)的趋势高度一致
  • 核心idea: 让MLLM通过CoT自问自答的方式分析关键帧候选:从语义维度(帧内有哪些对象匹配查询)和时间维度(哪个帧的目标最容易观察)两个角度建立关联,最终选出每个实例的最佳关键帧

方法详解

整体框架

三模块协作的多智能体框架,将视频推理分割分解为关键帧选择→帧级分割→视频追踪三个子任务: - MLLM关键帧选择器 \(\mathcal{F}_{key}\): 负责时间-语义关联推理 - 推理图像分割模型 \(\mathcal{F}_{seg}\): 在关键帧上生成key mask - 视频处理器 \(\mathcal{F}_{vid}\) (SAM2): 沿时间轴追踪掩码

关键设计

1. MLLM关键帧选择器(核心创新): - 均匀采样 \(T' = \lfloor T/\xi \rfloor\) 个关键帧候选 - 对每个候选帧自动合成CoT问答序列,从粗到细:通用语义("帧中有什么")→ 时间推理("是否为更好的关键帧")→ 细节确认("是否有新的目标对象") - 最终输出包含:目标实例列表 + 对应关键帧索引 + 帧内目标描述(如"穿黑色球衣正在投篮的球员") - 设计为Reasoning VIS框架(k≥1个实例),Reasoning VOS是k=1的特例 - 兼容闭源(GPT-4o)和开源(Gemma3-12B/LLaVA1.5-7B)MLLM

2. 推理图像分割: 使用Seg-Zero等在关键帧上根据文本描述生成key mask

3. 视频处理器: 使用SAM2将key mask追踪到所有帧,多实例通过贪心后处理保证不重叠:\(m_{i,t} = \bigcap_{j=1}^{i-1} \neg m_{j,t} \cap \hat{m}_{i,t}\)

4. 在线推理扩展(Online CoT-RVS): - 每 \(\xi\) 帧周期性调用MLLM判断当前帧是否应替换现有关键帧 - 贪心更新策略:新帧更好→更新目标和掩码;否则→沿用历史 - 首次实现流式推理视频分割,适合实时视频流场景

训练策略

完全无训练——所有模块均使用预训练权重,无任何微调。

实验关键数据

主实验表

数据集 指标 CoT-RVS(GPT-4o) GLUS SAMWISE VideoLISA(Po) VISA-13B
MeViS J&F 52.2 51.3 49.5 44.4 44.5
Refer-DAVIS J&F 79.1 70.6 68.8 70.4
ReasonVOS J&F 65.5 49.9 47.5

消融实验表

配置 MeViS J&F Refer-DAVIS J&F 说明
CoT-RVS-GPT-4o 52.2 79.1 最强闭源配置
CoT-RVS-Gemma3-12B 44.2 74.6 最强开源配置
CoT-RVS-LLaVA1.5-7B 45.9 73.9 最轻量开源配置
w/o CoT(直接prompt) ~65 CoT推理带来约14个点的提升
Online CoT-RVS(GPT-4o) 77.8 在线版本性能接近离线

关键发现

  • ReasonVOS上比GLUS高+15.6个点,时间敏感查询优势极为突出(如投三分球、特定动作时刻),验证了时间推理的核心价值
  • 开源Gemma3版本在无API成本下仍超越VISA/VideoLISA等微调方法,说明预训练MLLM的通用推理能力被低估
  • 在线版本(Online CoT-RVS)与离线版本差距仅约1.3个点,但支持流式处理,实用性显著

亮点与洞察

  • 完全无训练的突破: 首个兼容闭源/开源MLLM的零样本推理VOS框架,挑战了"推理分割必须微调"的范式
  • 时间推理的价值: CoT过程让MLLM真正"思考"帧间的时间语义关系,这是微调分割token方法本质上缺失的能力
  • 模块化设计的灵活性: 分割模型(LISA/Seg-Zero)和视频处理器(SAM2/Cutie)可灵活替换,未来各模块进步可直接带来系统提升
  • 在线扩展的实用性: 在线推理VOS方案极少见,对实时监控、自动驾驶等场景有意义

局限与展望

  • GPT-4o版本推理成本高(每个视频多次API调用),大规模应用不现实
  • 开源版本(Gemma3)与闭源(GPT-4o)在MeViS上差8个点,说明MLLM视觉推理能力仍是瓶颈
  • 均匀帧采样可能错过关键运动帧,自适应采样策略(如运动检测引导)可能更优
  • 多实例贪心后处理较简单,无法处理严重遮挡场景
  • 未探索将CoT推理模块与分割/追踪模块端到端联合训练的可能性

相关工作与启发

  • 相比VISA/VideoLISA等微调方法,CoT-RVS用零样本推理替代微调,代表了不同的技术路线
  • 与Seg-Zero/ThinkFirst(图像域CoT分割)一脉相承,但增加了时间维度推理
  • 体现了test-time compute趋势在视觉任务中的应用前景

评分

  • 新颖性: ⭐⭐⭐⭐ (零样本CoT应用于视频推理分割,概念新颖)
  • 实验充分度: ⭐⭐⭐⭐ (4数据集+多MLLM+在线扩展+消融)
  • 写作质量: ⭐⭐⭐⭐ (框架描述清晰,公式完整)
  • 价值: ⭐⭐⭐⭐ (证明无训练CoT在视频分割中的可行性)
  • vs VISA/VideoLISA: 这些方法微调MLLM生成分割token,CoT-RVS完全无训练
  • vs Seg-Zero/ThinkFirst: CoT推理图像分割方法,本文首次扩展到视频时间域
  • vs SAM2: 作为即插即用的视频追踪模块,展示了与推理系统组合的潜力

评分

  • 新颖性: ⭐⭐⭐⭐ 零样本CoT用于视频时间推理是首创
  • 实验充分度: ⭐⭐⭐⭐ 4个benchmark + 在线扩展 + 模块替换消融
  • 写作质量: ⭐⭐⭐⭐ 示例生动、框架描述清晰
  • 价值: ⭐⭐⭐⭐ 无训练范式有实用意义,但依赖强MLLM