CaReBench: A Fine-grained Benchmark for Video Captioning and Retrieval¶

会议: ICLR2026
OpenReview: OZtGhb9x7C
代码: https://carebench.github.io （项目主页）
领域: 视频理解
关键词: 视频字幕, 视频检索, 细粒度评测, 时空偏置, 多模态大模型

一句话总结¶

CaReBench 用 1000 个人工标注、字幕长达 200+ 词且显式拆成空间/时间两份的视频，搭起一个能同时考视频细粒度字幕（captioning）和检索（retrieval）的 benchmark，配套两个新指标 ReBias 与 CapST 专门量化 VLM 的时空偏置，并顺手给出一个把字幕和检索统一进单个 MLLM 的两阶段 SFT 基线 CARE。

研究背景与动机¶

领域现状：视频字幕和视频检索是视频-语言理解的两大主任务，长期由两类模型分头把持——检索靠 CLIP 这类双编码器（dual-encoder）对齐特征，字幕靠多模态大模型（MLLM）逐句生成描述。两者本被当成互不相干的任务，各自有各自的 benchmark 和评测习惯。

现有痛点：现有 benchmark 撑不起"细粒度"评测。传统数据集（MSR-VTT、MSVD、DiDeMo）每条字幕只有一句话、十几个词，现代 MLLM 输出的描述比参考字幕还丰富，根本压不出模型的细粒度能力。近期想做长字幕的工作要么用 GPT-4o 自动标注（不可避免引入幻觉和偏置），要么像 DREAM-1K 只盯动作、缺乏对静态物体和动态动作的同时覆盖，也没有层次化结构。指标侧同样尴尬：传统 n-gram 指标（CIDEr）评不了长字幕；基于 LLM 的指标（AutoDQ 只评动作、VDCScore 只算 recall 不管 precision）都不够全面。

核心矛盾：视频理解本质要同时看懂静态场景和动态动作，但现有标注和指标都把这两者混在一起，导致一个被长期忽视的问题被掩盖——VLM 到底是真的理解了动作，还是靠场景线索"抄近路"？字幕和检索混在一句话里，谁也分不清模型的分数来自空间还是时间。

本文目标：(1) 造一个字幕足够细、且能把空间/时间解耦评测的 benchmark；(2) 设计能量化时空偏置的专用指标；(3) 验证检索和字幕能否统一进一个模型。

切入角度：作者发现检索和字幕其实是同一件事——都是把像素空间映射到一个高维空间 \(\phi: \mathbb{R}^{T\times H\times W\times C}\to\mathbb{R}^{D}\)，只不过字幕落到词表空间 \(\mathbb{R}^{D_v}\)、检索落到嵌入空间 \(\mathbb{R}^{D_e}\)。既然映射同源，就有可能用一个 MLLM 把两件事都干了。

核心 idea：用"层次化 + 空间/时间分离"的人工标注撑起细粒度评测，用 ReBias/CapST 把时空偏置量化出来，再用两阶段 SFT 把字幕和检索统一进一个 MLLM。

方法详解¶

整体框架¶

CaReBench 这篇工作有两条主线：benchmark（数据 + 指标） 和 基线模型 CARE。

benchmark 侧的流水线是：从 FineAction 动作定位数据集里手挑 1000 个视频（106 个子类、每类 10-20 个，同子类视频场景动作高度相似，专门考"区分相似视频"的能力）→ 两阶段人工标注（先写四方面的细粒度详描，再把描述拆成纯空间和纯时间两份）→ 基于这套空间/时间解耦的标注，定义检索指标 ReBias 和字幕指标 CapST。任务上派生出三种检索（general / spatial / temporal）和分物体/事件两类的字幕评测。

模型侧 CARE 建立在 Qwen2-VL 上，做两阶段渐进式 SFT：Stage-I 用高质量视频-字幕对把模型输出对齐到细粒度文本空间（练字幕能力）；Stage-II 冻住视觉编码器、用纯文本对比学习把模型输出从词表空间挪到嵌入空间（练检索能力）。两阶段做完，一个 7B 模型既能写细字幕又能抽视频特征。

关键设计¶

1. 四方面层次化标注：让每条字幕"细到能压出模型"

针对"现有字幕太短、压不出 MLLM 细粒度能力"的痛点，作者要求每个视频由两名标注员独立写、再由专家合并精修，字幕限定 150-300 词，强制覆盖四个方面：General Overview（一句话总览，如"一个人在切西瓜"）、Object Description（静态物体的位置/颜色/形状/相对关系，连水印都标）、Action Description（动作及其时序，"先…后…"，还要带动作风格如"快速切水果"）、Misc Description（视角、视频整体类型等 2-4 句）。最终字幕平均 227.95 词，是 MSR-VTT 的 24.2 倍。这种结构保证每条字幕既有静态物体又有动态动作，比 DREAM-1K（只盯动作）和 VDC（GPT 标、缺动作）都更全面，且全程人工避开了自动标注的幻觉。

2. 空间/时间分离标注：把"抄近路"暴露出来

这是整个 benchmark 最关键的设计。Stage-II 标注会把 Stage-I 的详描手工拆成两份纯净字幕：Spatial Description 去掉所有动作文本，只留总览 + 主次物体 + 背景，保证能区分同子类的相似视频；Temporal Description 去掉所有静态细节，只留总览 + 动作及其顺序。痛点在于：如果空间和时间信息混在一句话里，模型就算只看场景也能拿高分，没人能判断它到底懂不懂动作。拆开后，"空间检索"和"时间检索"分数的落差，就直接暴露了模型对动态动作的真实理解水平——实验里果然发现所有 VLM 在切到 temporal 时掉得惨烈，证明它们靠场景抄近路。

3. ReBias：用一个比值量化检索的时空偏置

针对"没人量化过 VLM 时空偏置"的空白，作者定义检索偏置指标 ReBias，衡量模型偏向静态物体还是动态动作。它看时间召回与空间召回之比偏离 1 的程度：

\[B = \left|\,1 - \frac{\bar{R}_{\text{temporal}}}{\bar{R}_{\text{spatial}}}\,\right|\]

其中 \(\bar{R}_{\text{temporal}}\)、\(\bar{R}_{\text{spatial}}\) 分别是时间/空间检索的平均召回，越低越好（0 表示时空平衡）。这个指标的妙处是把"模型偏科"压成一个可比的标量——比如某模型空间召回很高但时间召回塌掉，ReBias 就会很大，一眼看出它在用空间捷径。

4. CapST：同时评物体与事件、recall 和 precision 都管的字幕指标

针对"现有字幕指标要么只评动作、要么只算 recall"的缺陷，CapST（Captioning, Spatial + Temporal）让一个强 LLM（实验用 DeepSeek-V3 当裁判）分别从时间字幕里抽事件、从空间字幕里抽物体，再用自然语言推理（NLI）判断真值描述 \(D_{gt}\) 与预测描述 \(D_{pred}\) 之间的蕴含关系，算 recall 和 precision：

\[R = \frac{N(D_{gt}\xrightarrow{\text{entail}}E_{pred})}{N(E_{pred})}, \qquad P = \frac{N(D_{pred}\xrightarrow{\text{entail}}E_{gt})}{N(E_{gt})}\]

\(E_{pred}\)、\(E_{gt}\) 是从预测/真值里抽出的元素（物体或事件），\(N(\cdot)\) 是元素计数，箭头表示被另一份描述蕴含的元素数。直觉上：recall 看"真值里的内容有多少被预测覆盖到"（漏没漏），precision 看"预测里的内容有多少被真值证实"（编没编，即幻觉）。同时管 recall 和 precision，比只算 recall 的 VDCScore 更能抓幻觉。一个额外细节：当一句描述捆了多个属性（"戴眼镜穿蓝西装的老人"），NLI 会惩罚部分匹配，所以作者让 LLM 抽取时把属性拆开（拆成"戴眼镜的老人"和"穿蓝西装的老人"），让部分正确的预测也能拿到应得的分。

损失函数 / 训练策略¶

CARE 的两阶段 SFT：

Stage-I（细粒度字幕适配）：提示词固定为 "Describe the video in detail."，用 Tarsier Recap（动作丰富）+ LLaVA-Video-178k（短视频细节）混合数据全参微调，把输出对齐到细粒度文本空间。约 400 GPU 时，学习率 2e-5、batch 64、16 帧输入。
Stage-II（检索适配）：从 Stage-I 初始化，冻住视觉编码器只训 LLM。用 EOL（Explicit One-word Limitation）提示词 "<sent> Summary of the above sentence in one word:" 取下一个 token 的隐状态当句子嵌入 \(f_i\)，在 NLI 数据集上做纯文本对比学习，把输出从词表空间挪到嵌入空间。因为只用文本、不带视频输入，只需 24 GPU 时。对比损失：

\[\mathcal{L} = -\log\frac{e^{\cos(f_i, f_i^+)/\tau}}{\sum_{j=1}^{N}\left(e^{\cos(f_i, f_j^+)/\tau} + e^{\cos(f_i, f_j^-)/\tau}\right)}\]

其中 \(f_i, f_i^+, f_i^-\) 是句子 \(s_i\) 及其正样本、难负样本的嵌入，\(\cos(\cdot)\) 是余弦相似度，\(\tau\) 是温度。值得注意的是 Stage-II 全程没有视频参与，却能让模型获得强视频检索能力——因为 Stage-I 已经把视频对齐到了细粒度文本空间，文本侧的对比学习能"借道"迁移到视频侧。

实验关键数据¶

benchmark 统计对比¶

CaReBench 的字幕远比传统 benchmark 详细，且唯一同时具备层次化标注、静态物体、动态动作三者，又全程人工标注：

Benchmark	样本数	平均时长	平均词数	标注者	层次化	静态物体	动态动作
MSR-VTT	1,000	15.01s	9.41	人工	✗	✗	✗
DREAM-1K	1,000	8.9s	59.3	人工	✗	✗	✓
VDC	1,000	28.18s	500.91	GPT	✓	✓	✗
CaReBench	1,000	14.35s	227.95	人工	✓	✓	✓

主实验：检索与字幕¶

General Retrieval（zero-shot，R@K 越高越好）上，对比学习后的 MLLM 整体反超 CLIP 系，CARE 在两个方向都拿到最佳或并列最佳：

模型	T2V R@1	T2V R@5	V2T R@1	V2T R@5
CLIP L/14	51.2	83.4	54.7	86.9
InternVideo2 1B	72.5	93.7	69.5	94.6
Qwen2-VL 7B（对比训练后）	76.6	95.3	77.4	95.6
CARE 7B	77.0	95.6	79.0	96.8

字幕侧（CapST，DeepSeek-V3 当裁判），CARE 7B 在 Events 和 Objects 上整体超过所有开源模型，连 Qwen2-VL 72B、Qwen2.5-VL 7B 都被压住（如 Events Overall F1：CARE 35.1 vs Qwen2.5-VL 7B 31.1 vs Qwen2-VL 72B 30.5），说明现有模型即便堆到 72B 也仍缺细粒度描述能力。

消融实验：两阶段 SFT 的作用¶

"Unified Score"是检索 Avg. R@1 与字幕 Avg. F1 的平均：

配置	Avg. R@1（检索）	Avg. F1（字幕）	Unified Score
Baseline (Qwen2-VL)	25.6	26.8	26.2
+ 仅细粒度字幕适配	17.6 (−8.0)	33.8 (+7.0)	25.7 (−0.5)
+ 仅检索适配	77.0 (+51.4)	28.2 (+1.4)	52.6 (+26.4)
+ 两阶段全做	78.0 (+52.4)	33.4 (+6.6)	55.7 (+29.5)

关键发现¶

VLM 普遍靠空间捷径抄近路：从 general 切到 spatial 检索，VLM 几乎不掉分（Qwen2-VL −0.20、Tarsier −2.00）；切到 temporal 却暴跌（Qwen2-VL −24.70、Tarsier −20.75、MiniCPM-V −21.85）。即便动作线索被从字幕里抹掉，模型分数依旧稳，说明它们靠场景线索而非动作信息理解视频——这是 ReBias/空间-时间分离设计才能暴露出来的偏置。
检索和字幕能互相增益：检索适配让 baseline 的字幕 F1 从 26.8 涨到 28.2（+1.4），而字幕适配又把检索后的模型 R@1 从 77.0 推到 78.0（+1）——两个任务确实同源、能彼此促进，支持了"统一框架"的假设。
字幕不受 Stage-II 影响：做不做检索适配几乎不改变字幕性能，说明嵌入空间的对比学习没有损伤词表空间的生成能力。
泛化性：CARE 在 out-of-domain 的 MVBench（60.4）、TVBench（50.1）上同样有竞争力，TVBench 甚至超过 Gemini 1.5 Pro（46.5）。

亮点与洞察¶

"空间/时间分离标注"是把隐性问题显性化的杠杆：很多 benchmark 加难度靠堆数据，CaReBench 靠把字幕物理拆成两份，让"模型靠场景抄近路"这个一直存在却测不出来的现象第一次被量化——这是数据设计驱动洞察的典范，可迁移到任何需要解耦评测某两种能力的场景。
检索 = 字幕的统一视角很优雅：把两任务都写成 \(\phi:\mathbb{R}^{T\times H\times W\times C}\to\mathbb{R}^D\)（词表空间 vs 嵌入空间）的映射，一句话点破了为什么一个 MLLM 能两头通吃，理论上干净。
Stage-II 纯文本对比却能迁移到视频：冻住视觉塔、只用 NLI 文本数据训 24 GPU 时就拿到 SOTA 检索，本质是借 Stage-I 已建立的视频↔细粒度文本对齐做"免费午餐"，这个 trick 对想低成本给 MLLM 加检索能力的人很有参考价值。
CapST 拆属性的小细节很实在：把"戴眼镜穿蓝西装的老人"拆成两条再做 NLI，避免部分正确被一刀切惩罚，这种对评测公平性的打磨往往被忽视。

局限与展望¶

作者明确承认：CARE 只是揭示并量化了 VLM 的时空偏置，并没有解决这个偏置——CARE 自己的 ReBias 仍高达 17.53，和主流 MLLM 处在同一水平，没有真的变得更"时空平衡"。
benchmark 规模 1000 视频、聚焦 5-20 秒短视频（>80% 在此区间），长视频的细粒度理解未覆盖；且全来自 FineAction 的 4 大类日常动作，领域偏窄。
CapST/ReBias 重度依赖 LLM 裁判（DeepSeek-V3）抽取元素和做 NLI，裁判本身的能力和偏好会影响打分稳定性；人工对齐验证放在附录，正文不易核查。
改进方向：设计真正能降低 ReBias 的训练目标（如显式的时间对比/动作监督），把统一框架扩到长视频和更多视频类型。

评分¶

新颖性: ⭐⭐⭐⭐ 空间/时间分离标注 + ReBias/CapST 把视频时空偏置量化出来，benchmark 设计有真洞察；统一框架属优雅但非颠覆。
实验充分度: ⭐⭐⭐⭐ 检索/字幕/QA 多任务、十余个 baseline、消融清晰，但 benchmark 偏短视频单一来源。
写作质量: ⭐⭐⭐⭐ 动机—数据—指标—模型逻辑顺，指标公式交代清楚。
价值: ⭐⭐⭐⭐ benchmark + 指标 + 统一基线一套打包开源，对评测 VLM 细粒度时空理解很实用。