VidCapBench: A Comprehensive Benchmark of Video Captioning for Controllable Text-to-Video Generation¶
会议: ACL 2025
arXiv: 2502.12782
代码: https://github.com/VidCapBench/VidCapBench
领域: 视频理解 / 视频生成
关键词: 视频描述, benchmark, 文生视频, caption评估, 多维度评价
一句话总结¶
提出 VidCapBench,首个专为可控文生视频(T2V)设计的视频描述评估 benchmark,从美学/内容/运动/物理规律四个维度评估 caption 质量,643 个视频+10,644 个 QA 对,实验证明 VidCapBench 分数与 T2V 生成质量高度正相关。
研究背景与动机¶
领域现状:可控 T2V 生成依赖高质量视频描述(caption)与视频的对齐。现有 caption 评估 benchmark(MSR-VTT、VATEX)使用 CIDEr 等传统指标评估短描述,不适合评估 T2V 生成所需的详细多维 caption。
现有痛点:(1) 现有评估未覆盖 T2V 关键维度(美学、运动、物理规律);(2) 自动评估不稳定——VDC benchmark 中仅 41% 的 QA 在多次评估中结果一致;(3) Caption 评估与 T2V 生成质量的关联性未被验证。
核心矛盾:T2V 模型训练需要高质量 caption,但缺乏衡量 caption 是否满足 T2V 需求的评估标准。
本文目标:(1) 定义 T2V 导向的 caption 评估维度;(2) 构建稳定可靠的评估 benchmark;(3) 验证 caption 评估与 T2V 质量的正相关性。
切入角度:从 T2V 生成模型关注的核心要素(美学、内容、运动、物理规律)出发设计评估维度,而非从 caption 本身出发。
核心 idea:将 QA 对分为"自动评估子集"(评估稳定的)和"人工评估子集"(评估困难的),兼顾效率和准确性。
方法详解¶
整体框架¶
数据收集 → 四维度标注(视频美学/内容/运动/物理规律)→ 生成 QA 对 → 按评估稳定性分层 → 自动 + 人工混合评估。
关键设计¶
-
四维度评估体系:
- 视频美学 (VA):拍摄技术、后期处理、画面构图等
- 视频内容 (VC):叙事内容、主体/背景/场景描述
- 视频运动 (VM):前景主体运动、背景物体运动、镜头运动
- 物理规律 (PL):物理现象的合理性和一致性
- 设计动机:与 T2V 模型评估核心维度(VBench、EvalCrafter 等)完全对齐
-
数据标注流水线:
- 功能:为 643 个视频创建多维度 QA 标注
- 核心思路:(1) 收集多源视频(开源数据集 + YouTube + UGC),确保主体多样性(人/动物/植物/食物/物体/风景等 10 类均匀分布);(2) 使用专家模型(姿态估计、目标检测、光流等)自动标注视频属性;(3) 基于属性生成 QA 对,人工审核精修
- 设计动机:结合自动标注和人工精修,平衡数据质量和标注成本
-
分层评估策略:
- 功能:将 QA 对分为自动评估子集和人工评估子集
- 核心思路:对 QA 对进行多次重复评估(3 次 × 5 个模型),仅将所有评估一致的 QA 归为"自动评估子集"(约 41%),其余需人工评估
- 设计动机:发现仅用自动评估会导致显著偏差(如短 caption 在自动评估中得分虚高),分层策略同时满足"快速迭代"和"精确验证"需求
-
四维度评估指标:
- Accuracy (Acc):完全正确的比例
- Precision (Pre):已提及内容中正确的比例
- Coverage (Cov):QA 内容被 caption 覆盖的比例
- Conciseness (Con):每个 token 对 Acc 的贡献(鼓励简洁)
- 设计动机:单一指标(如 CIDEr)无法全面反映 caption 质量,四个指标从不同角度互补
与 T2V 的关联验证¶
用不同模型的 caption 作为 prompt 输入 T2V 模型(CogVideoX、Hunyuan Video),计算 T2V 质量指标(VBench)与 VidCapBench 分数的相关性。
实验关键数据¶
主实验(VidCapBench-AE 自动评估部分)¶
| 模型 | Overall Acc | Video Aesthetics | Video Content | Video Motion | Physical Laws |
|---|---|---|---|---|---|
| GPT-4o | 16.8 | 14.1 | 17.5 | 10.2 | 27.9 |
| Gemini 1.5 Pro | 17.1 | 16.4 | 16.9 | 9.8 | 28.4 |
| Qwen2-VL-72B | 15.2 | 14.3 | 15.0 | 5.0 | 25.9 |
| CogVLM2-Caption | 13.1 | 12.5 | 12.7 | 5.7 | 27.9 |
| Tarsier-34B | 11.1 | 10.7 | 10.2 | 3.2 | 26.2 |
| LLaVA-Next-Video-7B | 10.6 | 11.3 | 9.6 | 4.4 | 24.4 |
T2V 相关性验证¶
| Caption 模型 | VidCapBench Acc | CogVideoX VBench ↑ |
|---|---|---|
| GPT-4o | 16.8 | 最高 |
| CogVLM2-Caption | 13.1 | 中等 |
| LLaVA-Next-Video | 10.6 | 较低 |
Pearson 相关系数 r > 0.8,证明 VidCapBench 分数与 T2V 质量高度正相关。
关键发现¶
- 所有模型在运动维度表现最差:Video Motion Acc 普遍 < 10%,说明当前 VLM 难以准确描述视频运动——这是 T2V 对齐的关键瓶颈
- 闭源模型 > 开源模型:GPT-4o / Gemini 在 Overall Acc 上领先,但优势不如预期大
- 长 caption 不一定好:Conciseness 指标揭示过长 caption 的信息密度低(InternVL2 Acc 10.2 但 Con 仅 2.5)
- VDC 评估不稳定:仅 41% QA 对在多次自动评估中一致,验证了分层评估的必要性
- Caption 质量→T2V 质量:VidCapBench 分数与 VBench 分数显著正相关,为 caption 优化提供量化指导
亮点与洞察¶
- 首个 T2V 导向的 caption benchmark:从 T2V 评估维度反推 caption 评估维度,建立了 caption→T2V 的评估闭环
- 分层自动+人工评估:巧妙利用评估一致性将 QA 分层,是解决自动评估不稳定问题的通用策略
- Video Motion 维度的诊断价值:所有模型在运动描述上表现极差(<10% Acc),直接指出了 caption 模型的改进方向
局限与展望¶
- 643 个视频规模相对较小,覆盖场景有限
- 自动评估仍依赖 GPT-4o 作为 judge,judge 能力是评估的天花板
- QA 对的粒度设计对结果影响大,但最优粒度未深入探索
- 仅验证了与 CogVideoX/Hunyuan 两个 T2V 模型的相关性
- 物理规律(PL)维度的标注难度大,可能存在标注噪声
相关工作与启发¶
- vs VDC: VDC 有 ~100K QA 但评估不稳定(仅 41% 一致)。VidCapBench 规模小但稳定,且覆盖更多维度(美学、物理规律)
- vs DREAM-1K: DREAM-1K 评估事件级描述,但不评估美学和物理合理性
- vs MSR-VTT/VATEX: 传统短 caption 评估,使用 CIDEr 等指标,与 T2V 需求脱节
评分¶
- 新颖性: ⭐⭐⭐⭐ 从 T2V 视角评估 caption 是好的切入点,分层评估策略有亮点
- 实验充分度: ⭐⭐⭐⭐ 多模型评估充分,T2V 相关性验证有说服力,但数据集偏小
- 写作质量: ⭐⭐⭐⭐ 结构清晰,问题定义准确
- 价值: ⭐⭐⭐⭐ 对 T2V 领域的 caption 质量优化有直接指导意义