跳转至

Tuna: Comprehensive Fine-grained Temporal Understanding Evaluation on Dense Dynamic Videos

会议: ACL 2025
arXiv: 2505.20124
代码: https://friedrichor.github.io/projects/TUNA
作者: Fanheng Kong, Jingyuan Zhang, Hongzhi Zhang 等(东北大学 + 快手)

一句话总结

Tuna 构建了 1000 个时间密集短视频的细粒度多维标注数据集,配套字幕评测(事件拆分→匹配→关系分类)和时序问答两个任务,系统性地暴露了当前视频 LMM 在动态时序理解上的弱点。

研究背景与动机

  • 视频 ≠ 静态图片堆叠:视频的核心在于时间维度——相机运动、场景转换、主体动作和物体属性随时间动态演变,但已有基准往往将这些属性拆开评测或仅关注局部(如只看动作)
  • 长视频偏向:Video-MME、MLVU 等倾向长视频评测,将时序理解与长上下文建模耦合,难以归因性能瓶颈
  • 字幕评测不可靠:n-gram 指标缺乏语义一致性,LLM 直接打分不可解释,已有事件级方法(DREAM-1K)仅关注动作事件而忽略相机/场景
  • 核心问题:缺少一个全要素、时序导向、可解释的短视频理解评测基准

方法详解

整体框架

Tuna 由两部分组成:

  1. Tuna-1K 数据集:1000 个高质量短视频(平均 14.5 秒),人工标注层级化时序描述(全局字幕→事件序列→细粒度视觉元素 + 类型/权重)
  2. Tuna 基准
    • Tuna-cap(字幕任务):自动化评测管线评估时序密集字幕的正确性和完整性
    • Tuna-mcq(问答任务):1432 道多选题,每题须全视频上下文才能作答

关键设计 1:多维度视觉元素标注体系

视频中每个事件被分解为多个视觉元素,每个元素标注: - 类型 \(t \in \{\text{camera}, \text{scene}, \text{action}, \text{attribute}\}\) - 权重 \(w \in \{1, 2, 3\}\)(重要性)

这种细粒度分解使得评测可以按维度(相机/场景/动作/属性)和视觉特征(高动态/低动态/多场景/多主体)分别报告,实现可解释的诊断分析。数据来源跨 10 个来源(学术数据集 + 网络视频),覆盖 12 个领域。

关键设计 2:Tuna-cap 三阶段评测管线

字幕评测分三步: 1. 事件拆分(Event Splitting):将模型生成字幕拆分为事件序列 \(G = [g_1, ..., g_k]\) 2. 事件匹配(Event Matching):每个候选事件匹配参考事件,强制保持时序一致性 \(id_1 \leq id_2 \leq ... \leq id_k\),违反时序的无效事件被丢弃 3. 关系分类(Relationship Classification):对匹配事件对中每个视觉元素,用 GPT-4o 分类为 entailment / lack / contradiction

指标计算引入元素权重 \(w_{ij}\): - Precision:正确描述的加权比例(排除 lack) - Recall:正确描述占所有参考元素的加权比例 - 与人工判断的相关性(Kendall τ=57.2, Spearman ρ=76.7)远超 METEOR、BERTScore 等

关键设计 3:时序不可缺少的 MCQ 生成

问答题生成流程: 1. 利用 LMM 自身的"视觉误判"作为易错点(error-prone points) 2. 基于 10 种任务类型(相机运动/转场/场景描述/动作识别/动作序列等)生成多选题 3. 时序不可缺少过滤:单帧能答对的题目被排除,确保必须多帧理解

实验结果

字幕任务(Tuna-cap)

模型 相机 F1 场景 F1 动作 F1 属性 F1 总体 F1
GPT-4o 61.3 66.4 48.0 57.8 58.5
MiniCPM-V-2.6 (8B) 56.0 60.6 38.8 50.2 51.7
LLaVA-Video-7B 50.4 58.9 37.8 53.1 51.0
InternVL2-76B 53.9 61.4 41.2 50.9 51.9
Qwen2-VL-72B 54.0 52.8 42.6 48.5 51.7
  • SOTA GPT-4o 总体 F1 仅 58.5%,Recall 仅 48.2%——大量视觉元素被忽略或误描述
  • 动作描述最弱:所有模型在 Action 维度表现最差,Tarsier-34B 是唯一例外
  • 多主体视频最难:Multi-Subject 类别下所有模型表现最差

问答任务(Tuna-mcq)

模型 相机运动 场景描述 动作序列 总体 Acc
GPT-4o 50.4 79.6 60.5 56.2
Qwen2-VL-7B 41.0 66.7 52.8 51.3
LLaVA-Video-7B 39.1 59.3 52.4 50.6
InternVL2-8B 41.0 66.7 50.5 48.4
  • 相机运动感知是最大短板(GPT-4o 仅 50.4%)
  • 场景描述表现尚可,动作序列理解仍有显著提升空间

论文亮点

  1. 全要素覆盖:首个同时评测相机/场景/动作/属性四维时序动态的视频基准,填补了已有工作对相机运动和场景转换的忽视
  2. 可解释评估:Tuna-cap 的事件拆分→匹配→关系分类管线,比直接 LLM 打分更可靠,与人工判断相关性远超传统指标
  3. 诊断价值高:按维度/视觉特征/复杂度多角度分析,为模型改进提供明确方向(如动作描述、多主体理解)
  4. 短视频聚焦:平均 14.5 秒,解耦了时序理解与长上下文建模,使性能可归因

局限性

  1. 评测管线依赖 GPT-4o:事件拆分、匹配和关系分类均依赖 GPT-4o,存在成本高和 API 依赖问题
  2. 数据规模有限:1000 视频 + 1432 问答题,规模较小,可能不足以覆盖所有视频理解场景
  3. 仅限短视频:平均 14.5 秒,未涉及长视频场景下的时序理解评测
  4. 领域偏差:虽标注覆盖 12 领域,但各领域分布未必均衡

相关工作

  • 视频问答基准:NExT-QA、EgoSchema、MVBench、Video-MME——各有侧重但缺乏全要素时序评测
  • 视频字幕基准:DREAM-1K(动作事件级)、VDC(多维但非时序导向)
  • 多任务基准:TempCompass、E.T.Bench、TemporalBench——评测时序但未覆盖相机/场景
  • 视频 LMM:LLaVA-Video、Qwen2-VL、InternVL2 等是主要评测对象

总结评分

维度 评分
新颖性 ⭐⭐⭐⭐
技术深度 ⭐⭐⭐
实验充分性 ⭐⭐⭐⭐⭐
写作质量 ⭐⭐⭐⭐
实用价值 ⭐⭐⭐⭐
总评 ⭐⭐⭐⭐