VC-Inspector: Advancing Reference-free Evaluation of Video Captions with Factual Analysis¶

会议: ACL 2026
arXiv: 2509.16538
代码: https://dipta007.github.io/VC-Inspector
领域: 视频理解 / 字幕评估
关键词: 视频字幕评估, 无参考评估, 事实准确性, 大型多模态模型, 幻觉检测

一句话总结¶

本文提出 VC-Inspector，一个基于开源轻量级多模态模型（Qwen2.5-VL 3B/7B）的无参考视频字幕评估指标，通过可控事实错误合成流水线生成训练数据，在 VATEX-Eval 上达到 \(\tau_b\)=42.58 的人类判断相关性，超越依赖 GPT-4o 的 G-VEval（\(\tau_b\)=39.40），且在幻觉检测基准上达到 99.6% 准确率。

研究背景与动机¶

领域现状：视频字幕评估主要依赖参考字幕的文本匹配指标（BLEU、ROUGE、CIDEr），但这些指标代价高昂、难以捕捉语义等价性。无参考评估是更实用的方向，但发展滞后。

现有痛点：(1) 基于预训练视觉-语言嵌入的无参考指标（如 EMScore、CLIPScore）受限于文本编码器上下文长度，且缺乏一致的评分尺度——同一视频不同字幕的分数差异很小，难以区分质量；(2) 使用 GPT-4o 等大型专有模型（如 G-VEval）评分的方法依赖 prompt 工程且不可复现；(3) 大多数现有方法以图像为中心，无法建模视频的时序动态。

核心矛盾：可靠的字幕评估应以事实准确性为核心——对象和动作的错误应按严重程度线性降低分数，但现有指标连基本的事实不一致（如错误对象）都检测不到。

本文目标：构建一个基于事实准确性的、可解释的、开源轻量级的视频字幕无参考评估指标。

切入角度：观察到训练事实感知评估器的主要瓶颈是缺乏不同事实质量等级的标注字幕——现有字幕要么正确要么错误，没有中间梯度。作者设计了一个基于 LLM 的可控事实错误合成流水线来解决这一数据瓶颈。

核心 idea：用 LLM 系统化替换 ground truth 字幕中的对象和动作来生成不同错误程度的伪字幕，配以确定性评分和解释性标注，用于微调轻量级多模态模型作为评估器。

方法详解¶

整体框架¶

流程分两步：(1) 数据生成——从 ActivityNet-Captions 的 ground truth 字幕出发，用 Llama-3.3-70B 可控替换对象和动作生成伪字幕，确定性计算质量分数（1-5 分），同时生成错误解释；(2) 模型训练——在 Qwen2.5-VL（3B/7B）上用 LoRA 微调，冻结视觉编码器和投影层，仅训练 LLM 部分。输入为视频+候选字幕，输出为质量分数和事实错误解释。

关键设计¶

可控事实错误合成流水线:
- 功能：解决缺乏多梯度事实质量标注数据的瓶颈
- 核心思路：给定 ground truth 字幕 \(X\)，用 LLM 提取对象集 \(\mathcal{O}\) 和动作集 \(\mathcal{A}\)，随机采样 \(K \sim \text{Unif}(0,M)\) 个对象和 \(L \sim \text{Unif}(0,N)\) 个动作进行替换。替换时要求同类别但不同含义（如 car→truck 而非 car→building）。分数用确定性公式计算：\(score = 1 - |\mathcal{R}|/(|\mathcal{O}|+|\mathcal{A}|)\)，离散化为 1-5 分。每个 ground truth 生成 10 个伪字幕，均衡采样后得到 44K 训练实例（ActivityNet-FG-It）
- 设计动机：相比 PAC-S/FactVC 只做二元正负对比，本方法生成多梯度质量的字幕，使评估器能更细腻地区分质量差异。确定性评分避免了 LLM 对浮点数比较的不可靠性
联合分数-解释训练范式:
- 功能：提升评估的可解释性并增强事实锚定
- 核心思路：模型不仅预测质量分数 \(S \in \{1,...,5\}\)，还生成文本解释 \(E\) 来说明哪些对象/动作存在错误。解释作为辅助监督信号，帮助模型学习更好的事实锚定。消融实验表明加入解释后 VATEX-Eval 上 \(\tau_b\) 从 34.29 提升至 37.99（+3.7 点）
- 设计动机：现有指标只输出单一标量分数，无法解释判断依据。解释不仅提升可解释性，还能作为反馈信号指导字幕改进——实验表明用 VC-Inspector 的解释引导 Qwen2.5-VL 迭代修正字幕，可在多个维度上提升字幕质量
视频原生的事实锚定架构:
- 功能：利用视频编码器捕捉时序动态，支持长上下文推理
- 核心思路：基于 Qwen2.5-VL（32K 上下文长度）作为骨干，冻结视觉编码器和投影层，仅用 LoRA 微调 LLM 部分（\(\alpha=r=32\), dropout=0.05）。每个视频均匀采样 32 帧，分辨率 224×224。训练使用标准语言建模损失，推理时 temperature=0 确保可复现
- 设计动机：相比基于图像编码器的指标（EMScore 基于 CLIP），视频原生模型能捕捉动作、事件序列等时序信息。相比 G-VEval（依赖 GPT-4o，仅拼接 3 帧），Qwen2.5-VL 原生支持视频输入

损失函数 / 训练策略¶

标准语言建模损失（next-token prediction），使用 LoRA 微调。全局 batch size 128，学习率 1e-4，4×A100 GPU 训练约 32 GPU 小时。

实验关键数据¶

主实验¶

VATEX-Eval 无参考设定下的人类判断相关性

方法	\(\tau_b\)	\(\rho\)	模型规模	开源
VC-Inspector-7B	42.58	45.99	7B	✓
G-VEval	39.40	-	GPT-4o	✗
VC-Inspector-3B	37.99	42.45	3B	✓
Qwen2.5-VL-7B	34.70	39.40	7B	✓
ViCLIPScore	30.92	39.86	-	✓
EMScore	22.88	29.79	-	✓
CLIPScore	22.33	29.09	-	✓

Flickr8K-Expert/CF 无参考设定（\(\tau_b\)）

方法	Expert	CF
VC-Inspector-7B	63.4	46.0
VC-Inspector-3B	59.9	39.0
HICE-S	55.9	37.2
PAC-S	53.9	36.0
CLIPScore	51.1	34.4

消融实验¶

配置	\(\tau_b\) (VATEX-Eval)	说明
改对象+动作 (完整)	37.99	最佳
仅改对象	36.40	-1.59
仅改动作	33.23	-4.76
无解释训练	34.29	解释带来 +3.7 提升

幻觉检测准确率

方法	FOIL-COCO	ActivityNet-FOIL
VC-Inspector-3B	99.6	99.3
FLEUR	96.8	-
PAC-S	90.2	91.0

关键发现¶

VC-Inspector-7B 在无参考设定下不仅超越所有无参考方法，甚至超过大多数需要参考字幕的指标
对象和动作错误都很重要，但对象错误对评估质量的贡献更大（仅改对象的 \(\tau_b\)=36.40 vs 仅改动作的 33.23）
解释辅助训练的提升显著（+3.7 \(\tau_b\) 点），且解释可用于迭代改进字幕质量
计算效率优于现有方法：0.30秒/视频 vs EMScore 的 0.42秒（单 A100）

亮点与洞察¶

确定性评分机制（基于替换比例）优于让模型/人类打分——避免了主观性和不一致性，同时确保分数在 0-1 固定区间内，保持序关系
解释不仅是可解释性工具，更是有效的训练信号——这种"评分+解释"的联合训练范式可迁移到其他评估任务（如文本摘要评估、对话质量评估）
在 Flickr8K 上将图像视为单帧视频处理仍然取得最佳结果，说明模型学到的事实锚定能力具有跨模态泛化性

局限与展望¶

目前仅关注对象和动作两种事实错误类型，未覆盖属性（颜色、大小）、空间关系、时序顺序等更细粒度的错误
训练数据来自 ActivityNet，在高度专业化视频（医学、工业）上的泛化能力有待验证
评估维度可进一步扩展到时序一致性、详细程度、风格适配等

评分¶

新颖性: ⭐⭐⭐⭐ 可控事实错误合成+联合分数解释训练是巧妙的组合设计
实验充分度: ⭐⭐⭐⭐⭐ 五个评测基准、多种设定、消融和计算效率分析面面俱到
写作质量: ⭐⭐⭐⭐ 动机清晰，实验逻辑严密
价值: ⭐⭐⭐⭐⭐ 提供了首个开源视频字幕事实评估工具，可直接用作 RL 奖励模型