跳转至

Scene-VLM: Multimodal Video Scene Segmentation via Vision-Language Models

会议: CVPR2026
arXiv: 2512.21778
代码: 无
领域: 多模态VLM
关键词: 视频场景分割, 视觉语言模型, 多模态推理, 序列预测, 置信度估计

一句话总结

提出 Scene-VLM——首个基于微调 VLM 的视频场景分割框架,通过结构化多模态镜头表征(视觉帧+对白+元数据)、因果序列预测、上下文-焦点窗口机制和 token logits 置信度提取,在 MovieNet 上取得 +6 AP 和 +13.7 F1 的大幅提升,并展示了自然语言解释能力。

研究背景与动机

视频场景分割(将长视频切分为语义连贯的场景)是视频理解的基础任务,对自动化结构化摘要、语义检索等应用至关重要。形式上,场景由共享位置、时间、角色或叙事主题的连续镜头组成。

现有编码器方法(BaSSL、TranS4mer、MEGA)的三大局限:(1) 视觉偏重:忽视或低利用对白、角色等非视觉信号;(2) 逐点独立预测:每个镜头独立分类,未利用连续决策间的因果依赖;(3) 无可解释性:仅输出置信度分数,无法解释为什么预测为边界。

核心 idea:利用 VLM 的多模态推理+文本生成能力,将场景分割重新定义为按序输出"Shot i: Yes/No"的序列生成任务,自然实现因果依赖、多模态融合和可解释性。

方法详解

整体框架

Scene-VLM 把"视频场景分割"从传统的编码器逐镜头分类,改造成 VLM 的序列生成任务。它基于 Qwen2.5-VL-7B 微调,输入是 \(N\) 个连续镜头的多模态表征(视觉帧 + 对白 + 角色 ID),让模型按顺序对焦点窗口内每个镜头吐出"Shot i: Yes/No"判定是否为场景边界,再从判定 token 的 logits 里读出置信度。这一改造一举把多模态融合、镜头间的因果依赖和可解释性三件事都装进了同一个生成框架。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["N 个连续镜头"] --> REP["结构化多模态镜头表征<br/>K=3 帧 + 对白 + 角色 / Shot-ID 标识"]
    REP --> SEQ["因果序列预测<br/>VLM 顺次输出 Shot i: Yes/No,后判依赖前判"]
    SEQ --> WIN["上下文-焦点窗口机制<br/>20 镜头上下文,仅预测中间 10 镜头"]
    WIN --> CONF["VLM 置信度提取<br/>conf = P(Yes) / (P(Yes) + P(No))"]
    CONF --> OUT["场景边界 + 置信度"]
    CONF -->|可选定向微调| EXP["可解释性对齐<br/>生成自然语言边界理由"]

关键设计

1. 结构化多模态镜头表征:把对白和角色这些非视觉信号也喂进去

以往编码器方法偏重视觉、低估甚至忽略对白和角色等叙事信号。Scene-VLM 给每个镜头 \(s_i\)\(K=3\) 个采样帧、同步字幕和角色信息,并在每帧上叠一个视觉标识符(shot-ID marker),帮模型把画面内容和文本里提到的镜头编号对应起来。这样模型拿到的是以视觉为中心的方法根本看不到的叙事上下文。

2. 因果序列预测:让每个边界判定看得见前面的判定

逐镜头独立分类的毛病是每个镜头各判各的,用不上"决策之间的因果依赖"。把它改成序列生成后,模型顺次输出多个镜头的 Yes/No,每个边界判定都因果地影响后续判定,能拿之前的预测当上下文。注意力分析也印证了这点——模型确实"信任"已经做出的判定,对已处理镜头分配更少注意力,把更多注意力留给后面待判的镜头。

3. 上下文-焦点窗口机制:给每个被判镜头都留足前后证据

序列两端的镜头天然缺一侧上下文,直接预测会在边缘掉点。Scene-VLM 用 20 个镜头当上下文窗口,却只对中间 10 个镜头(焦点窗口)做预测,保证每个被评估的镜头左右都有充足证据。消融里去掉焦点机制后边缘位置 F1 急剧下降,有焦点时各位置一致,正说明了它的作用。

4. VLM 置信度提取:从 Yes/No 的 logits 里读出分数

VLM 不像编码器有分类头能直接给分数。Scene-VLM 取判定 token 处的 softmax logits 算归一化置信度 \(\text{conf}_i = P(\text{Yes}) / (P(\text{Yes}) + P(\text{No}))\),于是又能像传统方法那样做精确率-召回率的权衡。这个技巧简单,却让任何二分类式的 VLM 输出都能拿到可调的置信度。

5. 可解释性对齐:让模型说出"为什么这是边界"

编码器只能吐一个置信度分数,说不清判定理由。通过在少量带标注解释的样本上做定向微调,Scene-VLM 能生成连贯的自然语言解释(如"场景从室内转到室外,角色和叙事话题都变了"),这是编码器方法做不到的。

损失函数 / 训练策略

  • 标准 next-token prediction loss
  • 基座模型:Qwen2.5-VL-7B
  • 训练数据:MovieNet-318(190 部电影用于训练)

实验关键数据

主实验(MovieNet-318)

方法 F1 ↑ AP ↑
BaSSL 47.0 57.4
TranS4mer 48.4 60.8
MEGA 55.3 58.6
Chapter-LLaMA 38.6 41.5
Scene-VLM 62.1 66.8

零样本跨域(BBC Planet Earth)

方法 AP ↑
TranS4mer 43.6
Scene-VLM 45.8

消融实验

配置 F1 AP 说明
完整模型 62.1 66.8 -
去掉视觉 32.0 34.7 视觉是核心信号
去掉 Shot-ID 60.8 64.1 时序锚定有价值
去掉字幕 61.1 62.2 字幕提供互补信号
仅视觉 58.6 61.4 多模态融合提升 3.5 F1
上下文20+焦点10 62.1 - 最优配置
上下文20+焦点1(逐点式) 60.1 - 序列预测优于逐点
上下文5+焦点5 55.8 - 更大上下文更好

模型规模影响

参数量 F1 AP
1.5B 55.9 58.7
3B 59.6 62.8
7B 62.1 66.8

关键发现

  • 视觉是最重要的信号源(去掉后 F1 暴跌 30 点),但字幕和角色 ID 提供了不可替代的补充
  • 注意力分析显示:长度归一化后,字幕和角色 token 的注意力与视觉 token 相当
  • 模型对后续镜头的注意力高于前序镜头——因为已通过输出 token 编码了前序信息
  • 焦点机制对边缘位置至关重要:无焦点时边缘 F1 急剧下降,有焦点时全位置一致
  • 从 1.5B 到 7B 持续单调提升,且 7B 提升仍然显著,暗示更大模型可能继续受益

亮点与洞察

  • 范式转换:从编码器分类框架转向 VLM 序列生成框架,一举解决了多模态融合、序列依赖和可解释性三个长期问题
  • 置信度提取技巧:从 Yes/No logits 计算归一化置信度的方法简单有效,为 VLM 应用于所有二分类任务提供了通用方案
  • 注意力分析深入:揭示了 VLM 在场景边界预测时的信息流动模式——信任历史预测+重点关注未来上下文
  • 零样本在 BBC 上的泛化表明框架不局限于电影领域

局限与展望

  • 每个镜头 3 帧的采样可能不足以捕捉镜内剧烈运动的场景
  • 20 个镜头的上下文窗口对超长电影可能不够——需要层次化或记忆增强的扩展
  • 推理速度可能慢于轻量编码器方法(论文未报告延迟)
  • 可解释性对齐需要人工标注解释样本,成本不可忽略

相关工作与启发

  • vs MEGA:MEGA 也融合字幕和剧本,但用固定融合策略+逐点预测;Scene-VLM 用 VLM 端到端推理更灵活
  • vs Chapter-LLaMA:基于 LLM 的分章方法,但仅用文本描述无直接视觉处理,在电影上 F1 仅 38.6
  • vs TranS4mer:用自注意力+SSM 建模长程依赖,但仍是编码器,无可解释性

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 首次将 VLM 应用于视频场景分割,范式创新解决了多个长期痛点
  • 实验充分度: ⭐⭐⭐⭐⭐ 消融极其细致(模态、窗口、帧数、模型规模),注意力分析深入
  • 写作质量: ⭐⭐⭐⭐⭐ 结构清晰,图示直观,从方法到分析的叙述逻辑完整
  • 价值: ⭐⭐⭐⭐ 为视频结构理解提供了新范式,置信度提取和可解释性设计有广泛迁移价值