Tuna: Comprehensive Fine-grained Temporal Understanding Evaluation on Dense Dynamic Videos¶

会议: ACL 2025
arXiv: 2505.20124
代码: https://friedrichor.github.io/projects/TUNA
作者: Fanheng Kong, Jingyuan Zhang, Hongzhi Zhang 等（东北大学 + 快手）

一句话总结¶

Tuna 构建了 1000 个时间密集短视频的细粒度多维标注数据集，配套字幕评测（事件拆分→匹配→关系分类）和时序问答两个任务，系统性地暴露了当前视频 LMM 在动态时序理解上的弱点。

研究背景与动机¶

视频 ≠ 静态图片堆叠：视频的核心在于时间维度——相机运动、场景转换、主体动作和物体属性随时间动态演变，但已有基准往往将这些属性拆开评测或仅关注局部（如只看动作）
长视频偏向：Video-MME、MLVU 等倾向长视频评测，将时序理解与长上下文建模耦合，难以归因性能瓶颈
字幕评测不可靠：n-gram 指标缺乏语义一致性，LLM 直接打分不可解释，已有事件级方法（DREAM-1K）仅关注动作事件而忽略相机/场景
核心问题：缺少一个全要素、时序导向、可解释的短视频理解评测基准

方法详解¶

整体框架¶

Tuna 由两部分组成：

Tuna-1K 数据集：1000 个高质量短视频（平均 14.5 秒），人工标注层级化时序描述（全局字幕→事件序列→细粒度视觉元素 + 类型/权重）
Tuna 基准：
- Tuna-cap（字幕任务）：自动化评测管线评估时序密集字幕的正确性和完整性
- Tuna-mcq（问答任务）：1432 道多选题，每题须全视频上下文才能作答

关键设计 1：多维度视觉元素标注体系¶

视频中每个事件被分解为多个视觉元素，每个元素标注： - 类型 \(t \in \{\text{camera}, \text{scene}, \text{action}, \text{attribute}\}\) - 权重 \(w \in \{1, 2, 3\}\)（重要性）

这种细粒度分解使得评测可以按维度（相机/场景/动作/属性）和视觉特征（高动态/低动态/多场景/多主体）分别报告，实现可解释的诊断分析。数据来源跨 10 个来源（学术数据集 + 网络视频），覆盖 12 个领域。

关键设计 2：Tuna-cap 三阶段评测管线¶

字幕评测分三步： 1. 事件拆分（Event Splitting）：将模型生成字幕拆分为事件序列 \(G = [g_1, ..., g_k]\) 2. 事件匹配（Event Matching）：每个候选事件匹配参考事件，强制保持时序一致性 \(id_1 \leq id_2 \leq ... \leq id_k\)，违反时序的无效事件被丢弃 3. 关系分类（Relationship Classification）：对匹配事件对中每个视觉元素，用 GPT-4o 分类为 entailment / lack / contradiction

指标计算引入元素权重 \(w_{ij}\)： - Precision：正确描述的加权比例（排除 lack） - Recall：正确描述占所有参考元素的加权比例 - 与人工判断的相关性（Kendall τ=57.2, Spearman ρ=76.7）远超 METEOR、BERTScore 等

关键设计 3：时序不可缺少的 MCQ 生成¶

问答题生成流程： 1. 利用 LMM 自身的"视觉误判"作为易错点（error-prone points） 2. 基于 10 种任务类型（相机运动/转场/场景描述/动作识别/动作序列等）生成多选题 3. 时序不可缺少过滤：单帧能答对的题目被排除，确保必须多帧理解

实验结果¶

字幕任务（Tuna-cap）¶

模型	相机 F1	场景 F1	动作 F1	属性 F1	总体 F1
GPT-4o	61.3	66.4	48.0	57.8	58.5
MiniCPM-V-2.6 (8B)	56.0	60.6	38.8	50.2	51.7
LLaVA-Video-7B	50.4	58.9	37.8	53.1	51.0
InternVL2-76B	53.9	61.4	41.2	50.9	51.9
Qwen2-VL-72B	54.0	52.8	42.6	48.5	51.7

SOTA GPT-4o 总体 F1 仅 58.5%，Recall 仅 48.2%——大量视觉元素被忽略或误描述
动作描述最弱：所有模型在 Action 维度表现最差，Tarsier-34B 是唯一例外
多主体视频最难：Multi-Subject 类别下所有模型表现最差

问答任务（Tuna-mcq）¶

模型	相机运动	场景描述	动作序列	总体 Acc
GPT-4o	50.4	79.6	60.5	56.2
Qwen2-VL-7B	41.0	66.7	52.8	51.3
LLaVA-Video-7B	39.1	59.3	52.4	50.6
InternVL2-8B	41.0	66.7	50.5	48.4

相机运动感知是最大短板（GPT-4o 仅 50.4%）
场景描述表现尚可，动作序列理解仍有显著提升空间

论文亮点¶

全要素覆盖：首个同时评测相机/场景/动作/属性四维时序动态的视频基准，填补了已有工作对相机运动和场景转换的忽视
可解释评估：Tuna-cap 的事件拆分→匹配→关系分类管线，比直接 LLM 打分更可靠，与人工判断相关性远超传统指标
诊断价值高：按维度/视觉特征/复杂度多角度分析，为模型改进提供明确方向（如动作描述、多主体理解）
短视频聚焦：平均 14.5 秒，解耦了时序理解与长上下文建模，使性能可归因

局限性¶

评测管线依赖 GPT-4o：事件拆分、匹配和关系分类均依赖 GPT-4o，存在成本高和 API 依赖问题
数据规模有限：1000 视频 + 1432 问答题，规模较小，可能不足以覆盖所有视频理解场景
仅限短视频：平均 14.5 秒，未涉及长视频场景下的时序理解评测
领域偏差：虽标注覆盖 12 领域，但各领域分布未必均衡

总结评分¶

维度	评分
新颖性	⭐⭐⭐⭐
技术深度	⭐⭐⭐
实验充分性	⭐⭐⭐⭐⭐
写作质量	⭐⭐⭐⭐
实用价值	⭐⭐⭐⭐
总评	⭐⭐⭐⭐