SAMA: Towards Multi-Turn Referential Grounded Video Chat with Large Language Models¶
会议: NeurIPS 2025
arXiv: 2505.18812
作者: Ye Sun, Hao Zhang, Henghui Ding, Tiehua Zhang, Xingjun Ma, Yu-Gang Jiang
代码: 无
领域: 视频理解 / 视频对话
关键词: 视频grounding, 多轮对话, 时空理解, SAM, 视频LMM
一句话总结¶
提出 SAMA 框架,通过构建统一的数据集(SAMA-239K)、模型(时空上下文聚合器 + SAM)和基准(SAMA-Bench),首次实现了多轮引用式视频对话中细粒度时空理解与grounding的联合建模。
研究背景与动机¶
当前 Video Large Multimodal Models (Video LMMs) 在细粒度视频时空理解方面仍然面临巨大挑战。实现这一目标需要同时掌握两项核心能力:
视频引用理解 (Video Referring Understanding):捕获视频区域的语义信息
视频grounding:根据自然语言描述分割目标区域
然而,现有方法大多将这两个任务独立处理,存在以下关键瓶颈:
- 缺乏高质量的统一视频指令数据:现有数据集要么只关注引用理解,要么只关注grounding,缺少支持联合学习的大规模数据集
- 缺乏综合评测基准:没有统一的benchmark来评估引用式视频对话中的多轮时空理解能力
- 模型设计局限:现有模型难以同时处理视频级别的时空理解和精确的区域级grounding
方法详解¶
整体框架¶
SAMA 从三个核心维度——数据集、模型、基准——全面解决上述问题:
- SAMA-239K 数据集:包含 15K 个精心策划的视频,共 239K 条指令数据,支持视频引用理解、grounding 和多轮视频对话的联合学习
- SAMA 模型:集成通用时空上下文聚合器和 Segment Anything Model (SAM)
- SAMA-Bench:包含 522 个视频中的 5,067 个问题
关键设计¶
时空上下文聚合器 (Spatio-Temporal Context Aggregator)¶
- 设计了一种通用的时空上下文聚合模块,能够在不同时间帧和空间区域之间进行信息交互
- 支持将用户通过点击/框选指定的视频区域编码为上下文表示
- 实现了跨帧的时序关联,使模型能够追踪对象在时间维度上的变化
SAM 集成¶
- 将 Segment Anything Model 集成到视频LMM管道中
- SAM 负责生成精确的区域分割mask
- 模型能够在理解对话语义的同时输出精确的空间定位
SAMA-239K 数据集构建¶
- 从 15K 个多样化视频中收集数据
- 涵盖多种任务类型:视频引用理解、空间grounding、时间grounding、多轮对话
- 精心设计的数据采样策略,确保任务类型的均衡分布
损失函数 / 训练策略¶
- 采用多任务联合训练策略
- 同时优化视频理解loss、grounding loss 和对话生成loss
- 使用分阶段训练:先预训练基础能力,再进行指令微调
实验关键数据¶
主实验¶
| 模型 | SAMA-Bench (Overall) | Video Referring | Video Grounding | Multi-Turn Chat |
|---|---|---|---|---|
| Video-ChatGPT | 32.1 | 28.5 | 18.3 | 41.2 |
| VideoChat2 | 38.7 | 35.2 | 22.1 | 46.8 |
| LLaVA-Video | 42.3 | 40.1 | 25.7 | 49.6 |
| VISA | 45.1 | 43.8 | 31.2 | 51.4 |
| SAMA | 56.8 | 54.2 | 48.6 | 58.3 |
SAMA 在 SAMA-Bench 上全面超越现有方法,尤其在 Video Grounding 上提升显著(+17.4pp vs VISA)。
| 方法 | MeViS val J&F | Ref-YouTube-VOS J&F | Ref-DAVIS J&F |
|---|---|---|---|
| UNINEXT | 56.8 | 64.3 | 65.2 |
| OnlineRefer | 55.6 | 63.5 | 64.1 |
| TrackGPT | 58.3 | 65.8 | 66.7 |
| SAMA | 62.1 | 68.5 | 69.3 |
在通用 grounding benchmark 上,SAMA 同样取得新的 SOTA。
消融实验¶
| 配置 | SAMA-Bench | Grounding | Referring |
|---|---|---|---|
| 无 SAM | 48.2 | 35.1 | 50.3 |
| 无时空聚合器 | 50.6 | 40.8 | 48.7 |
| 无 SAMA-239K(仅公开数据) | 47.5 | 36.2 | 46.5 |
| 完整 SAMA | 56.8 | 48.6 | 54.2 |
关键发现¶
- SAM 的引入对 grounding 性能提升最为关键(+13.5pp)
- SAMA-239K 数据集比仅使用公开数据提升了 9.3 个百分点
- 时空上下文聚合器在引用理解任务上贡献最大
- SAMA 在标准视觉理解 benchmark 上保持了高度竞争性的性能,说明 grounding 能力不会牺牲通用理解性能
亮点与洞察¶
- 系统性贡献:同时在数据集、模型和benchmark三个维度进行贡献,构建了完整的研究闭环
- 统一框架:首次将视频引用理解、grounding和多轮对话统一到一个模型中
- 高质量数据集:SAMA-239K 的构建方法论具有借鉴意义——从 15K 视频中生成 239K 条多样化指令
- SAM 集成范式:展示了如何将视觉基础模型(SAM)有效集成到视频LMM中
局限与展望¶
- 计算开销:集成 SAM 增加了推理时的计算成本
- 长视频支持:当前实验主要集中在中等长度的视频片段
- 实时交互:多轮对话中的实时响应能力有待提升
- 开放域泛化:在wild场景下的泛化性能需要进一步验证
相关工作与启发¶
- VideoChat / Video-ChatGPT 系列:早期视频对话模型,但缺乏 grounding 能力
- SAM / SAM 2:视觉分割基础模型,为区域级理解提供了强力支撑
- UNINEXT / TrackGPT:视频 grounding 专用模型
- 启发:统一数据集 + 模型 + benchmark 的三位一体方法论,可以推广到其他多模态任务
评分¶
- 创新性: ⭐⭐⭐⭐ — 首次完整解决多轮引用式视频对话
- 技术贡献: ⭐⭐⭐⭐ — 数据集+模型+benchmark系统贡献
- 实验充分度: ⭐⭐⭐⭐ — 多个benchmark验证,消融充分
- 写作质量: ⭐⭐⭐⭐ — 结构清晰,动机明确
- 影响力: ⭐⭐⭐⭐ — 为视频理解社区提供了重要资源