VidCapBench: A Comprehensive Benchmark of Video Captioning for Controllable Text-to-Video Generation¶

会议: ACL 2025
arXiv: 2502.12782
代码: https://github.com/VidCapBench/VidCapBench
领域: 视频理解 / 视频生成
关键词: 视频描述, benchmark, 文生视频, caption评估, 多维度评价

一句话总结¶

提出 VidCapBench，首个专为可控文生视频（T2V）设计的视频描述评估 benchmark，从美学/内容/运动/物理规律四个维度评估 caption 质量，643 个视频+10,644 个 QA 对，实验证明 VidCapBench 分数与 T2V 生成质量高度正相关。

研究背景与动机¶

领域现状：可控 T2V 生成依赖高质量视频描述（caption）与视频的对齐。现有 caption 评估 benchmark（MSR-VTT、VATEX）使用 CIDEr 等传统指标评估短描述，不适合评估 T2V 生成所需的详细多维 caption。

现有痛点：(1) 现有评估未覆盖 T2V 关键维度（美学、运动、物理规律）；(2) 自动评估不稳定——VDC benchmark 中仅 41% 的 QA 在多次评估中结果一致；(3) Caption 评估与 T2V 生成质量的关联性未被验证。

核心矛盾：T2V 模型训练需要高质量 caption，但缺乏衡量 caption 是否满足 T2V 需求的评估标准。

本文目标：(1) 定义 T2V 导向的 caption 评估维度；(2) 构建稳定可靠的评估 benchmark；(3) 验证 caption 评估与 T2V 质量的正相关性。

切入角度：从 T2V 生成模型关注的核心要素（美学、内容、运动、物理规律）出发设计评估维度，而非从 caption 本身出发。

核心 idea：将 QA 对分为"自动评估子集"（评估稳定的）和"人工评估子集"（评估困难的），兼顾效率和准确性。

方法详解¶

整体框架¶

数据收集 → 四维度标注（视频美学/内容/运动/物理规律）→ 生成 QA 对 → 按评估稳定性分层 → 自动 + 人工混合评估。

关键设计¶

四维度评估体系:
- 视频美学 (VA)：拍摄技术、后期处理、画面构图等
- 视频内容 (VC)：叙事内容、主体/背景/场景描述
- 视频运动 (VM)：前景主体运动、背景物体运动、镜头运动
- 物理规律 (PL)：物理现象的合理性和一致性
- 设计动机：与 T2V 模型评估核心维度（VBench、EvalCrafter 等）完全对齐
数据标注流水线:
- 功能：为 643 个视频创建多维度 QA 标注
- 核心思路：(1) 收集多源视频（开源数据集 + YouTube + UGC），确保主体多样性（人/动物/植物/食物/物体/风景等 10 类均匀分布）；(2) 使用专家模型（姿态估计、目标检测、光流等）自动标注视频属性；(3) 基于属性生成 QA 对，人工审核精修
- 设计动机：结合自动标注和人工精修，平衡数据质量和标注成本
分层评估策略:
- 功能：将 QA 对分为自动评估子集和人工评估子集
- 核心思路：对 QA 对进行多次重复评估（3 次 × 5 个模型），仅将所有评估一致的 QA 归为"自动评估子集"（约 41%），其余需人工评估
- 设计动机：发现仅用自动评估会导致显著偏差（如短 caption 在自动评估中得分虚高），分层策略同时满足"快速迭代"和"精确验证"需求
四维度评估指标:
- Accuracy (Acc)：完全正确的比例
- Precision (Pre)：已提及内容中正确的比例
- Coverage (Cov)：QA 内容被 caption 覆盖的比例
- Conciseness (Con)：每个 token 对 Acc 的贡献（鼓励简洁）
- 设计动机：单一指标（如 CIDEr）无法全面反映 caption 质量，四个指标从不同角度互补

与 T2V 的关联验证¶

用不同模型的 caption 作为 prompt 输入 T2V 模型（CogVideoX、Hunyuan Video），计算 T2V 质量指标（VBench）与 VidCapBench 分数的相关性。

实验关键数据¶

主实验（VidCapBench-AE 自动评估部分）¶

模型	Overall Acc	Video Aesthetics	Video Content	Video Motion	Physical Laws
GPT-4o	16.8	14.1	17.5	10.2	27.9
Gemini 1.5 Pro	17.1	16.4	16.9	9.8	28.4
Qwen2-VL-72B	15.2	14.3	15.0	5.0	25.9
CogVLM2-Caption	13.1	12.5	12.7	5.7	27.9
Tarsier-34B	11.1	10.7	10.2	3.2	26.2
LLaVA-Next-Video-7B	10.6	11.3	9.6	4.4	24.4

T2V 相关性验证¶

Caption 模型	VidCapBench Acc	CogVideoX VBench ↑
GPT-4o	16.8	最高
CogVLM2-Caption	13.1	中等
LLaVA-Next-Video	10.6	较低

Pearson 相关系数 r > 0.8，证明 VidCapBench 分数与 T2V 质量高度正相关。

关键发现¶

所有模型在运动维度表现最差：Video Motion Acc 普遍 < 10%，说明当前 VLM 难以准确描述视频运动——这是 T2V 对齐的关键瓶颈
闭源模型 > 开源模型：GPT-4o / Gemini 在 Overall Acc 上领先，但优势不如预期大
长 caption 不一定好：Conciseness 指标揭示过长 caption 的信息密度低（InternVL2 Acc 10.2 但 Con 仅 2.5）
VDC 评估不稳定：仅 41% QA 对在多次自动评估中一致，验证了分层评估的必要性
Caption 质量→T2V 质量：VidCapBench 分数与 VBench 分数显著正相关，为 caption 优化提供量化指导

亮点与洞察¶

首个 T2V 导向的 caption benchmark：从 T2V 评估维度反推 caption 评估维度，建立了 caption→T2V 的评估闭环
分层自动+人工评估：巧妙利用评估一致性将 QA 分层，是解决自动评估不稳定问题的通用策略
Video Motion 维度的诊断价值：所有模型在运动描述上表现极差（<10% Acc），直接指出了 caption 模型的改进方向

局限与展望¶

643 个视频规模相对较小，覆盖场景有限
自动评估仍依赖 GPT-4o 作为 judge，judge 能力是评估的天花板
QA 对的粒度设计对结果影响大，但最优粒度未深入探索
仅验证了与 CogVideoX/Hunyuan 两个 T2V 模型的相关性
物理规律（PL）维度的标注难度大，可能存在标注噪声

评分¶

新颖性: ⭐⭐⭐⭐ 从 T2V 视角评估 caption 是好的切入点，分层评估策略有亮点
实验充分度: ⭐⭐⭐⭐ 多模型评估充分，T2V 相关性验证有说服力，但数据集偏小
写作质量: ⭐⭐⭐⭐ 结构清晰，问题定义准确
价值: ⭐⭐⭐⭐ 对 T2V 领域的 caption 质量优化有直接指导意义