CAPability: A Comprehensive Visual Caption Benchmark for Evaluating Both Correctness and Thoroughness¶

会议: NeurIPS 2025
arXiv: 2502.14914
代码: 项目主页
领域: 多模态VLM
关键词: 视觉描述评测, 多维度基准, 多模态大模型, 准确性与全面性, Caption评估

一句话总结¶

提出CAPability，一个涵盖6大视角12个维度的综合视觉描述评测基准，通过人工标注近11K图像/视频的视觉元素（而非句子），同时评估描述的正确性（precision）和全面性（hit），并引入"知道但说不出"（\(K\bar{T}\)）指标揭示MLLM在QA与caption任务之间的显著能力差距。

研究背景与动机¶

随着多模态大语言模型（MLLM）的快速发展，传统视觉描述基准（如MS-COCO、MSR-VTT）已严重过时，原因有二：（1）传统基准的ground truth通常是简短句子，无法评估现代MLLM生成的详细描述；（2）传统指标（BLEU、CIDEr等）基于N-gram匹配，对句子风格高度敏感，评估不可靠。

近年来出现的新基准虽有改进但仍有局限。DetailCaps、Dream-1K、VDC等采用"模糊视角"评估——从ground truth描述中提取关键词再比较，容易受人类偏见和LLM累积误差影响。CompreCap采用"物体视角"评估——仅关注物体相关信息，覆盖范围有限，忽略了场景、文本、风格、相机等重要维度。

作者认为，全面的视觉描述评测需要多视角评估，且应同时衡量描述的正确性和全面性。后者在之前的研究中几乎被忽视——大多数基准只评估"说对了多少"，却不关心"说全了多少"。这一洞察催生了CAPability的设计。

方法详解¶

整体框架¶

CAPability的设计借鉴了视觉生成基准（如GenEval、VBench、T2VCompBench）的思路——既然生成任务从多个方面评估生成质量，描述任务也应如此。整体流程为：维度设计 → 数据收集 → MLLM预标注 → 数据平衡 → 人工标注（准确率>97%） → 数据过滤 → 多维度独立评估。

关键设计¶

6大视角12个维度的分类体系：将视觉描述分解为如下维度，每个维度独立收集约1000个样本并独立评估：
- 物体相关（Object-Related）：物体类别、物体颜色、物体数量、空间关系
- 全局相关（Global-Related）：场景、风格
- 文本相关（Text-Related）：OCR
- 相机相关（Camera-Related）：相机角度、相机运动
- 时序相关（Temporal-Related）：动作、事件
- 知识相关（Knowledge-Related）：角色识别

其中9个静态维度适用于图像和视频，4个动态维度仅适用于视频。物体数量同时涵盖静态和动态。设计动机：单帧可获取的信息为静态，需要完整视频的信息为动态。

"以一代全"（One Represents All）标注策略：对于可能包含多个物体/动作的样本，不追求标注所有元素，而是随机选择一个进行标注。核心原理是基于大数定律——大量样本的随机选择可以近似覆盖不同粒度的期望分布。为避免人类选择偏见，使用三个SOTA MLLM（GPT-4o、Gemini-1.5-pro、Qwen-VL-Max）列出所有候选元素，再由Qwen2.5-Max合并结果后随机选择一个作为预标注。
三态评估与双指标体系：将每个样本的描述评判为三种状态，然后计算两个核心指标：
- MIS（Missing）：描述中未提及该维度内容
- COR（Correct）：描述中提及且正确
- INC（Incorrect）：描述中提及但错误
\(\text{Precision} = \frac{|S(\text{COR})|}{|S(\text{COR}) \cup S(\text{INC})|}\)

\(\text{Hit} = \frac{|S(\text{COR})|}{|S(\text{ALL})|}\)

Precision仅衡量正确性（描述了的内容有多准），Hit同时衡量正确性和全面性（所有应描述的内容中说对了多少）。

\(K\bar{T}\)（知道但说不出）指标：将标注转换为QA对格式，对比模型在QA和Caption两种任务上的表现差异：

\(K\bar{T} = \frac{|S_{qa}(\text{COR}) \cap [S(\text{INC}) \cup S(\text{MIS})]|}{|S_{qa}(\text{COR})|}\)

该指标衡量"模型在被提问时能答对，但在主动描述时却没有表达"的比例，揭示了MLLM"被动知识"与"主动表达"之间的差距。这是之前工作完全没有量化过的维度。

损失函数 / 训练策略¶

本文是评测基准工作，不涉及模型训练。评估使用GPT-4 Turbo（1106-preview）作为评判器，对每个维度的生成描述进行三态判定（MIS/COR/INC）。对于有特定类别的维度（风格、相机角度、相机运动）和开放式描述维度，分别设计了不同的prompt模板。

实验关键数据¶

主实验——闭源及72B模型¶

模型	Precision Avg	Hit Avg	最突出能力
GPT-4o (0806)	79.2%	56.5%	相机角度Precision 67.0%（领先9.6%）
Gemini-1.5-pro	77.3%	60.4%	物体计数Hit领先10%+，全面性最佳
Gemini-2.0-flash	79.3%	56.2%	Precision并列最高
Qwen2.5VL-72B	75.9%	53.4%	开源最佳Hit，场景和相机运动好
InternVL2.5-78B	71.2%	47.0%	-
LLaVA-OV-72B	74.7%	46.6%	-

维度难度分析¶

维度	最佳Precision	最佳Hit	整体难度
场景	97.0%	86.9%	简单
OCR	95.9%	88.8%	简单
风格	91.4%	91.4%	简单
物体类别	89.8%	86.3%	较易
物体颜色	90.4%	67.7%	中等
物体数量	78.6%	40.0%	难
相机角度	67.0%	67.0%	难
动作	56.8%	51.4%	难
相机运动	35.4%	35.2%	很难
角色识别	90.9%	37.9%	Precision高但Hit低

关键发现¶

全面性差距巨大：所有模型从Precision到Hit均显著下降（平均20%+），表明模型倾向于只描述有把握的内容而牺牲全面性
模型策略分化：GPT-4o偏保守（高Precision中Hit，"宁可不说也不说错"），Gemini-1.5-pro偏激进（多说多覆盖）
共同薄弱点：物体数量、相机角度/运动、角色识别、动作是所有模型的瓶颈维度
\(K\bar{T}\)发现：所有模型都存在显著的\(K\bar{T}\) gap，表明MLLM的主动描述能力显著弱于被动问答能力

亮点与洞察¶

全面性评估的开创性：首次在多维度框架下系统评估描述的全面性，揭示了被忽视的"会做不会说"问题
\(K\bar{T}\)指标的启发性：定量展示了MLLM在主动描述和被动回答之间的能力差距，为训练策略（如caption-aware训练）提供了方向
"以一代全"策略的统计学巧思：利用大数定律解决多粒度标注的可行性问题
跨图像-视频的统一评估框架：12个维度覆盖静态和动态，提供了首个统一的视觉描述评估体系

局限与展望¶

每个维度的数据独立收集，未评估模型在单个样本上同时覆盖多个维度的能力
依赖GPT-4 Turbo作为评判器，可能引入评判偏差
动态维度仅使用视频、静态维度仅使用图像，未探索交叉评估
每个维度约1000样本，对某些细分子类别可能不够充分

评分¶

新颖性: ⭐⭐⭐⭐ 多视角+双指标+\(K\bar{T}\)的评测框架设计新颖，但核心思路（分维度评测）并非全新
实验充分度: ⭐⭐⭐⭐⭐ 测试了大量闭源和开源模型（7B到72B多个规模），维度分析详尽
写作质量: ⭐⭐⭐⭐ 结构清晰，图表丰富，动机阐述充分
价值: ⭐⭐⭐⭐⭐ 填补了视觉描述全面性评估的空白，发现了重要的能力差距，对社区有重要指导价值