SAMA: Towards Multi-Turn Referential Grounded Video Chat with Large Language Models¶

会议: NeurIPS 2025
arXiv: 2505.18812
作者: Ye Sun, Hao Zhang, Henghui Ding, Tiehua Zhang, Xingjun Ma, Yu-Gang Jiang 代码: 无
领域: 视频理解 / 视频对话
关键词: 视频grounding, 多轮对话, 时空理解, SAM, 视频LMM

一句话总结¶

提出 SAMA 框架，通过构建统一的数据集（SAMA-239K）、模型（时空上下文聚合器 + SAM）和基准（SAMA-Bench），首次实现了多轮引用式视频对话中细粒度时空理解与grounding的联合建模。

研究背景与动机¶

当前 Video Large Multimodal Models (Video LMMs) 在细粒度视频时空理解方面仍然面临巨大挑战。实现这一目标需要同时掌握两项核心能力：

视频引用理解 (Video Referring Understanding)：捕获视频区域的语义信息

视频grounding：根据自然语言描述分割目标区域

然而，现有方法大多将这两个任务独立处理，存在以下关键瓶颈：

缺乏高质量的统一视频指令数据：现有数据集要么只关注引用理解，要么只关注grounding，缺少支持联合学习的大规模数据集
缺乏综合评测基准：没有统一的benchmark来评估引用式视频对话中的多轮时空理解能力
模型设计局限：现有模型难以同时处理视频级别的时空理解和精确的区域级grounding

方法详解¶

整体框架¶

SAMA 从三个核心维度——数据集、模型、基准——全面解决上述问题：

SAMA-239K 数据集：包含 15K 个精心策划的视频，共 239K 条指令数据，支持视频引用理解、grounding 和多轮视频对话的联合学习
SAMA 模型：集成通用时空上下文聚合器和 Segment Anything Model (SAM)
SAMA-Bench：包含 522 个视频中的 5,067 个问题

关键设计¶

时空上下文聚合器 (Spatio-Temporal Context Aggregator)¶

设计了一种通用的时空上下文聚合模块，能够在不同时间帧和空间区域之间进行信息交互
支持将用户通过点击/框选指定的视频区域编码为上下文表示
实现了跨帧的时序关联，使模型能够追踪对象在时间维度上的变化

SAM 集成¶

将 Segment Anything Model 集成到视频LMM管道中
SAM 负责生成精确的区域分割mask
模型能够在理解对话语义的同时输出精确的空间定位

SAMA-239K 数据集构建¶

从 15K 个多样化视频中收集数据
涵盖多种任务类型：视频引用理解、空间grounding、时间grounding、多轮对话
精心设计的数据采样策略，确保任务类型的均衡分布

损失函数 / 训练策略¶

采用多任务联合训练策略
同时优化视频理解loss、grounding loss 和对话生成loss
使用分阶段训练：先预训练基础能力，再进行指令微调

实验关键数据¶

主实验¶

模型	SAMA-Bench (Overall)	Video Referring	Video Grounding	Multi-Turn Chat
Video-ChatGPT	32.1	28.5	18.3	41.2
VideoChat2	38.7	35.2	22.1	46.8
LLaVA-Video	42.3	40.1	25.7	49.6
VISA	45.1	43.8	31.2	51.4
SAMA	56.8	54.2	48.6	58.3

SAMA 在 SAMA-Bench 上全面超越现有方法，尤其在 Video Grounding 上提升显著（+17.4pp vs VISA）。

方法	MeViS val J&F	Ref-YouTube-VOS J&F	Ref-DAVIS J&F
UNINEXT	56.8	64.3	65.2
OnlineRefer	55.6	63.5	64.1
TrackGPT	58.3	65.8	66.7
SAMA	62.1	68.5	69.3

在通用 grounding benchmark 上，SAMA 同样取得新的 SOTA。

消融实验¶

配置	SAMA-Bench	Grounding	Referring
无 SAM	48.2	35.1	50.3
无时空聚合器	50.6	40.8	48.7
无 SAMA-239K（仅公开数据）	47.5	36.2	46.5
完整 SAMA	56.8	48.6	54.2

关键发现¶

SAM 的引入对 grounding 性能提升最为关键（+13.5pp）
SAMA-239K 数据集比仅使用公开数据提升了 9.3 个百分点
时空上下文聚合器在引用理解任务上贡献最大
SAMA 在标准视觉理解 benchmark 上保持了高度竞争性的性能，说明 grounding 能力不会牺牲通用理解性能

亮点与洞察¶

系统性贡献：同时在数据集、模型和benchmark三个维度进行贡献，构建了完整的研究闭环
统一框架：首次将视频引用理解、grounding和多轮对话统一到一个模型中
高质量数据集：SAMA-239K 的构建方法论具有借鉴意义——从 15K 视频中生成 239K 条多样化指令
SAM 集成范式：展示了如何将视觉基础模型（SAM）有效集成到视频LMM中

局限与展望¶

计算开销：集成 SAM 增加了推理时的计算成本
长视频支持：当前实验主要集中在中等长度的视频片段
实时交互：多轮对话中的实时响应能力有待提升
开放域泛化：在wild场景下的泛化性能需要进一步验证

评分¶

创新性: ⭐⭐⭐⭐ — 首次完整解决多轮引用式视频对话
技术贡献: ⭐⭐⭐⭐ — 数据集+模型+benchmark系统贡献
实验充分度: ⭐⭐⭐⭐ — 多个benchmark验证，消融充分
写作质量: ⭐⭐⭐⭐ — 结构清晰，动机明确
影响力: ⭐⭐⭐⭐ — 为视频理解社区提供了重要资源