HERBench: A Benchmark for Multi-Evidence Integration in Video Question Answering¶

会议: CVPR 2026
arXiv: 2512.14870
代码: 无
领域: 视频理解 / 多模态VLM
关键词: 视频问答基准, 多证据整合, 帧选择, 长视频理解, 时间推理

一句话总结¶

HERBench 是一个专为多证据整合设计的视频问答基准，包含 26,806 个五选一问题，每题结构性地要求融合 ≥3 个时间分散的非重叠视觉线索；通过提出最小必需帧集（MRFS）指标揭示了当前 Video-LLM 的两个关键瓶颈：帧检索不足和证据融合失败。

研究背景与动机¶

领域现状：Video-LLM（如 GPT-4o、Gemini、Qwen2.5-VL 等）在现有 VideoQA 基准上取得了不错的分数，看似视频理解能力在快速进步。
现有痛点：近期审计研究揭示，这些高分往往源于语言先验或单线索捷径，而非真正的时间推理。模型可以仅看一帧或利用语言偏见就答对问题，现有基准无法区分"真正理解视频"和"走捷径"。
核心矛盾：现有 VideoQA 基准的问题设计允许单线索捷径——一个关键帧或文字常识就足以回答。这使得我们无法确定模型是否真正具备跨时间整合多条证据的能力。
本文目标 (1) 设计一个结构性要求多证据整合（≥3 条分散线索）的基准；(2) 提出可度量"证据需求量"的量化指标 MRFS；(3) 诊断当前 Video-LLM 的具体失败模式——是帧选择的问题还是信息融合的问题。
切入角度：作者定义了"证据需求量"（Evidential Requirement, ER）的概念——回答一个问题所需的最少非冗余视觉证据数量。通过控制 ER ≥ 3，可以从根本上排除单线索捷径，使多证据推理成为不可绕过的要求。
核心 idea：通过结构性设计确保每个问题至少需要 3 条时间分散的视觉线索，配合 MRFS 指标量化帧融合难度，系统性揭示 Video-LLM 在帧检索与证据融合上的双重短板。

方法详解¶

整体框架¶

HERBench 是一个评估基准而非模型。它的核心是：(1) 一套 12 类组合推理任务的分类体系，组织为 4 个推理家族；(2) 一条三通道数据构造管线（目标跟踪+镜头分割+人工标注整合）；(3) MRFS 指标用于跨基准比较证据需求量。基准包含 336 个长视频（平均 395 秒），26,806 个五选一问题。

关键设计¶

四大推理家族与 12 个子任务:
- 功能：覆盖多证据整合的各种推理模式，确保每个问题不能通过单帧或语言先验解答
- 核心思路：(a) 时间推理与时序（TR&C）：包括镜头时序排列（TSO）、多人持续时间推理（MPDR）、动作序列完整性识别（ASII）——要求理解事件顺序、时间重叠和持续时间比较；(b) 指代与跟踪（R&T）：包括外观锚定行为交互（AGBI）、外观锚定属性识别（AGAR）、外观锚定定位轨迹（AGLT）——要求跨时间维持目标身份绑定；(c) 全局一致性与验证（GC&V）：包括虚假动作记忆（FAM）、场景验证排列（SVA）、虚假物体记忆（FOM）——要求全视频扫描验证存在性和检测缺失；(d) 多实体聚合与计数（MEA&N）：包括多实体定位（MEGL）、动作计数（AC）、区域限制人数统计（RLPC）——要求跨时间去重和集合级聚合
- 设计动机：这些任务重新设计了已有的 VideoQA 类别（时序排列、计数等），但关键区别在于每个问题结构性地强制 \(k \ge 3\)：答案必须从视频中多个不同时刻的线索组合推导，无法从单一帧或局部窗口获得
三通道数据构造管线:
- 功能：从不同粒度提取视频的时空信息，构造高质量多证据问题
- 核心思路：管线 I（目标跟踪与轨迹分析）：用 RF-DETR + DeepSORT 获取实体轨迹，通过 TrackRank 分数保留前 20% 实体，为每个轨迹生成不重叠的 A-card（外观描述）和 B-card（行为/轨迹描述），刻意将外观识别与行为查询分离到不同时间帧。管线 II（镜头分割）：用镜头边界检测将视频离散化为语义片段，用 MLLM 为每段生成场景卡片。管线 III（人工标注整合）：整合人工验证的旁白事件日志，建立真实的事件时序和计数
- 设计动机：三通道互补——管线 I 提供连续的微观实体动态，管线 II 提供宏观的场景结构，管线 III 提供人工验证的事实锚点。A/B 卡片的分离设计确保了身份绑定任务不能通过局部属性查找解决
最小必需帧集（MRFS）指标:
- 功能：量化模型回答一个问题所需融合的最少帧数，使跨基准比较成为可能
- 核心思路：固定一个 MLLM \(f\)、帧选择器 \(r\) 和帧预算 \(x\)，MRFS 定义为使模型从不正确变为正确的最小帧数 \(k\)。计算时先排除纯文本可解的问题（\(E(f(q, \varnothing), y) = 0\)），然后用自适应二分搜索在 \(k \in [1, x]\) 范围找最小成功索引，每个问题仅需 \(O(\log x)\) 次模型调用
- 设计动机：现有指标（Temporal Indispensability、Certificate Length）要么只测单帧 vs 多帧，要么依赖人工标注。MRFS 是自动化的、以模型为中心的指标，直接量化多证据聚合挑战

质量控制¶

通过 token 级别相似度检查和人工审查确保 A/B 卡片不泄露信息
丢弃被 ≥3/4 个盲 LLM 正确回答的题目（语言偏见去除）
分层抽样 15% 做专家验证，确认 \(k \ge 3\) 合规和答案唯一性
人类标注者在全视频访问下准确率 88.8%，在 oracle 帧下达 95.7%

实验关键数据¶

主实验¶

13 个 SOTA Video-LLM 评估，整体准确率仅 31-42%（随机猜 20%）：

模型	TR&C Avg.	R&T Avg.	GC&V Avg.	MEA&N Avg.	总体
GPT-4.1	25.4	66.0	37.1	29.0	39.4
Gemini-2.5-Flash	29.7	69.9	34.9	26.8	40.3
Qwen2.5-VL-72B	26.9	70.9	36.6	24.4	39.7
Ovis-2.5-9B	18.9	73.5	46.8	29.2	42.1
InternVL3.5-8B	33.6	70.2	29.7	30.8	41.1

跨基准 MRFS 比较¶

基准	视频数	问题数	MRFS↑	语言去偏	强制融合
MVBench	4,000	4,000	3.52	✗	✗
Video-MME	900	2,700	5.31	✗	✗
MINERVA	223	1,515	5.14	✓	✗
HERBench	336	26,806	5.49	✓	✓

关键发现¶

帧检索瓶颈（Finding 1）：自适应帧选择器虽优于均匀采样，但与 oracle 关键帧相比仍有显著差距——模型根本没找到关键证据帧
融合瓶颈（Finding 2）：即使给了 oracle 帧，模型准确率也只有适度提升，说明模型无法正确分配注意力到所有关键帧并整合信息
R&T 家族得分相对较高（~60-73%），因为这些任务中的外观描述提供了较强的视觉锚点；TR&C 和 MEA&N 家族得分最低（<30%），反映出模型在时序推理和多实体聚合上的严重短板
小模型（如 Ovis-2.5-9B）在某些任务上反而优于大模型（GPT-4.1），暗示问题不仅仅是模型规模

亮点与洞察¶

MRFS 指标的设计很精妙：它不是简单计算需要多少帧，而是固定一个帧选择器后用二分搜索找最小成功帧数，同时排除纯文本可解的问题，使得跨基准比较公平且计算高效
A/B 卡片分离设计：将外观描述和行为查询刻意放在不同时间帧，强制模型先通过外观描述在视频中定位目标，再跟踪到行为发生时刻才能回答，这种设计巧妙地将身份绑定做成了必须的多帧推理
双瓶颈诊断框架：通过 oracle 帧实验将帧选择与融合推理解耦，明确指出"找到帧"和"用好帧"是两个独立的挑战，为后续研究指明了清晰的方向

局限与展望¶

基准部分通过自动化管线生成，可能存在残留的系统性偏差
仅有 336 个视频，场景多样性可能不足以代表所有真实场景
MRFS 依赖于特定的帧选择器和模型，不同组合可能给出不同排序
主要评估现有模型的失败，但未提供改进模型的具体方案（纯诊断性质）
R&T 任务准确率较高，可能意味着这部分任务的 ER 设计不够严格

评分¶

新颖性: ⭐⭐⭐⭐ 首个以证据需求量为核心设计理念的 VideoQA 基准，MRFS 指标有创新
实验充分度: ⭐⭐⭐⭐⭐ 评估了 13 个模型，跨基准 MRFS 比较，多维度诊断分析
写作质量: ⭐⭐⭐⭐ 框架清晰，任务分类体系完整，但论文较长
价值: ⭐⭐⭐⭐ 诊断了 Video-LLM 的关键短板，为领域进步提供了重要参考