Tuna: Comprehensive Fine-grained Temporal Understanding Evaluation on Dense Dynamic Videos¶
会议: ACL 2025
arXiv: 2505.20124
代码: https://friedrichor.github.io/projects/TUNA
作者: Fanheng Kong, Jingyuan Zhang, Hongzhi Zhang 等(东北大学 + 快手)
一句话总结¶
Tuna 构建了 1000 个时间密集短视频的细粒度多维标注数据集,配套字幕评测(事件拆分→匹配→关系分类)和时序问答两个任务,系统性地暴露了当前视频 LMM 在动态时序理解上的弱点。
研究背景与动机¶
- 视频 ≠ 静态图片堆叠:视频的核心在于时间维度——相机运动、场景转换、主体动作和物体属性随时间动态演变,但已有基准往往将这些属性拆开评测或仅关注局部(如只看动作)
- 长视频偏向:Video-MME、MLVU 等倾向长视频评测,将时序理解与长上下文建模耦合,难以归因性能瓶颈
- 字幕评测不可靠:n-gram 指标缺乏语义一致性,LLM 直接打分不可解释,已有事件级方法(DREAM-1K)仅关注动作事件而忽略相机/场景
- 核心问题:缺少一个全要素、时序导向、可解释的短视频理解评测基准
方法详解¶
整体框架¶
Tuna 由两部分组成:
- Tuna-1K 数据集:1000 个高质量短视频(平均 14.5 秒),人工标注层级化时序描述(全局字幕→事件序列→细粒度视觉元素 + 类型/权重)
- Tuna 基准:
- Tuna-cap(字幕任务):自动化评测管线评估时序密集字幕的正确性和完整性
- Tuna-mcq(问答任务):1432 道多选题,每题须全视频上下文才能作答
关键设计 1:多维度视觉元素标注体系¶
视频中每个事件被分解为多个视觉元素,每个元素标注: - 类型 \(t \in \{\text{camera}, \text{scene}, \text{action}, \text{attribute}\}\) - 权重 \(w \in \{1, 2, 3\}\)(重要性)
这种细粒度分解使得评测可以按维度(相机/场景/动作/属性)和视觉特征(高动态/低动态/多场景/多主体)分别报告,实现可解释的诊断分析。数据来源跨 10 个来源(学术数据集 + 网络视频),覆盖 12 个领域。
关键设计 2:Tuna-cap 三阶段评测管线¶
字幕评测分三步: 1. 事件拆分(Event Splitting):将模型生成字幕拆分为事件序列 \(G = [g_1, ..., g_k]\) 2. 事件匹配(Event Matching):每个候选事件匹配参考事件,强制保持时序一致性 \(id_1 \leq id_2 \leq ... \leq id_k\),违反时序的无效事件被丢弃 3. 关系分类(Relationship Classification):对匹配事件对中每个视觉元素,用 GPT-4o 分类为 entailment / lack / contradiction
指标计算引入元素权重 \(w_{ij}\): - Precision:正确描述的加权比例(排除 lack) - Recall:正确描述占所有参考元素的加权比例 - 与人工判断的相关性(Kendall τ=57.2, Spearman ρ=76.7)远超 METEOR、BERTScore 等
关键设计 3:时序不可缺少的 MCQ 生成¶
问答题生成流程: 1. 利用 LMM 自身的"视觉误判"作为易错点(error-prone points) 2. 基于 10 种任务类型(相机运动/转场/场景描述/动作识别/动作序列等)生成多选题 3. 时序不可缺少过滤:单帧能答对的题目被排除,确保必须多帧理解
实验结果¶
字幕任务(Tuna-cap)¶
| 模型 | 相机 F1 | 场景 F1 | 动作 F1 | 属性 F1 | 总体 F1 |
|---|---|---|---|---|---|
| GPT-4o | 61.3 | 66.4 | 48.0 | 57.8 | 58.5 |
| MiniCPM-V-2.6 (8B) | 56.0 | 60.6 | 38.8 | 50.2 | 51.7 |
| LLaVA-Video-7B | 50.4 | 58.9 | 37.8 | 53.1 | 51.0 |
| InternVL2-76B | 53.9 | 61.4 | 41.2 | 50.9 | 51.9 |
| Qwen2-VL-72B | 54.0 | 52.8 | 42.6 | 48.5 | 51.7 |
- SOTA GPT-4o 总体 F1 仅 58.5%,Recall 仅 48.2%——大量视觉元素被忽略或误描述
- 动作描述最弱:所有模型在 Action 维度表现最差,Tarsier-34B 是唯一例外
- 多主体视频最难:Multi-Subject 类别下所有模型表现最差
问答任务(Tuna-mcq)¶
| 模型 | 相机运动 | 场景描述 | 动作序列 | 总体 Acc |
|---|---|---|---|---|
| GPT-4o | 50.4 | 79.6 | 60.5 | 56.2 |
| Qwen2-VL-7B | 41.0 | 66.7 | 52.8 | 51.3 |
| LLaVA-Video-7B | 39.1 | 59.3 | 52.4 | 50.6 |
| InternVL2-8B | 41.0 | 66.7 | 50.5 | 48.4 |
- 相机运动感知是最大短板(GPT-4o 仅 50.4%)
- 场景描述表现尚可,动作序列理解仍有显著提升空间
论文亮点¶
- 全要素覆盖:首个同时评测相机/场景/动作/属性四维时序动态的视频基准,填补了已有工作对相机运动和场景转换的忽视
- 可解释评估:Tuna-cap 的事件拆分→匹配→关系分类管线,比直接 LLM 打分更可靠,与人工判断相关性远超传统指标
- 诊断价值高:按维度/视觉特征/复杂度多角度分析,为模型改进提供明确方向(如动作描述、多主体理解)
- 短视频聚焦:平均 14.5 秒,解耦了时序理解与长上下文建模,使性能可归因
局限性¶
- 评测管线依赖 GPT-4o:事件拆分、匹配和关系分类均依赖 GPT-4o,存在成本高和 API 依赖问题
- 数据规模有限:1000 视频 + 1432 问答题,规模较小,可能不足以覆盖所有视频理解场景
- 仅限短视频:平均 14.5 秒,未涉及长视频场景下的时序理解评测
- 领域偏差:虽标注覆盖 12 领域,但各领域分布未必均衡
相关工作¶
- 视频问答基准:NExT-QA、EgoSchema、MVBench、Video-MME——各有侧重但缺乏全要素时序评测
- 视频字幕基准:DREAM-1K(动作事件级)、VDC(多维但非时序导向)
- 多任务基准:TempCompass、E.T.Bench、TemporalBench——评测时序但未覆盖相机/场景
- 视频 LMM:LLaVA-Video、Qwen2-VL、InternVL2 等是主要评测对象
总结评分¶
| 维度 | 评分 |
|---|---|
| 新颖性 | ⭐⭐⭐⭐ |
| 技术深度 | ⭐⭐⭐ |
| 实验充分性 | ⭐⭐⭐⭐⭐ |
| 写作质量 | ⭐⭐⭐⭐ |
| 实用价值 | ⭐⭐⭐⭐ |
| 总评 | ⭐⭐⭐⭐ |