CaST-Bench: Benchmarking Causal Chain-Grounded Spatio-Temporal Reasoning for Video Question Answering¶

会议: CVPR 2026
arXiv: 2605.23216
代码: 无
领域: 视频理解 / 多模态VLM / 视频问答 / 因果推理 / Benchmark
关键词: 因果链、时空 grounding、视频问答、VLM 评测、忠实度

一句话总结¶

CaST-Bench 提出"因果链时空 grounding 视频问答"这一新任务——模型不仅要答对，还要把答案落到一条由时间段 + bounding box 标注的因果证据链上；通过人机协作流水线构建了 1,015 段视频、2,066 道题的高质量数据集，并设计了同时评估答案正确性与证据 grounding 的指标，实测 15 个主流 VLM 表现远低于人类（最佳 50.34% vs 人类 91.89%）。

研究背景与动机¶

领域现状：VLM 在视频理解上进步很快，但绝大多数视频问答基准（MVBench、Video-MME 等）问的都是"描述性"问题——"那个女人的包是什么颜色"，模型只要定位并描述物体/动作即可，本质是表层感知。

现有痛点：真正的因果推理要回答"为什么"（"那个女人为什么停下来"），需要模型主动去视频里搜寻一条因果链：既要找到原因证据（"小孩弯下腰"），也要找到结果证据（"女人在等待"），而且关键证据往往不在问题文本里出现。现有基准在这件事上有三类缺陷：① 大多数完全不要求推理过程有视觉 grounding；② 少数（如 NExT-GQA）只做时间定位，无法应对杂乱场景里的空间歧义；③ 还有些只为"问题中提到的物体"提供 grounding，而忽略了因果相关的隐藏证据。

核心矛盾：因果推理的正确性高度依赖能否定位到"真正起因果作用的时空证据"，但现有基准既没有提供这种细粒度的链式证据标注，也没有能区分"答对是靠真证据还是靠伪相关（confounder）"的评测指标，导致无法严格衡量 VLM 的因果能力。

本文目标：构建一个能联合考核「答得对」+「证据链找得准」的视频因果推理基准，覆盖时间段与空间框两种细粒度 grounding。

切入角度：作者把视频因果 QA 形式化成一张因果图——给定视频 \(V\) 与问题 \(Q\)，模型要发现并 grounding 出原因证据 \(V_c\) 和结果证据 \(V_e\)，连成因果链得到答案 \(A\)，同时要抵抗会引入伪相关的混淆因子 \(C\)。

核心 idea：用"因果链 = 多条带时间戳和 bbox 轨迹的证据"作为标注与评测的中心对象，让 grounding 准确性成为可量化、可诊断的一等公民。

方法详解¶

整体框架¶

CaST-Bench 不是一个模型，而是"任务定义 + 数据构建流水线 + 评测套件"三件套。任务输入是视频 \(V\) 和问题 \(Q\)，模型需先输出一条变长证据链 \(E_C=[E_1,\dots,E_K]\) 再给出答案 \(A\)；每条证据 \(E_i\) 包含起止时间 \(t_{start,i}, t_{end,i}\)、文字理由 \(R_i\) 和一组按 1-FPS 时间戳索引的 bounding box \(B_i=\{s_j:b_j\}\)。数据这一侧由一条多阶段人机协作流水线产出：先从自然视频里选难度足够的素材，再为每个被追踪实例生成时空细粒度描述，然后由"因果思考 VLM"基于这些描述生成带因果链的 QA，接着造干扰项并用三步过滤（含一个新颖的 mask 验证）保证题目难且因果链完整。最后用一套自定义指标，把"答案对不对"和"证据链准不准"拆开评。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["自然视频素材<br/>SA-V 数据集"] --> B["因果链时空任务定义<br/>证据链 Ec → 答案 A"]
    B --> C["人机协作数据构建<br/>选片→实例描述→QA与因果链生成→造干扰项"]
    C --> D["Mask 证据验证过滤<br/>遮住因果区域仍答对→丢弃"]
    D --> E["因果链 grounding 评测<br/>IM-tIoU / IM-vIoU"]
    E --> F["证据-答案忠实度评测<br/>Faithful Rate / Spurious Rate"]

关键设计¶

1. 因果链时空任务定义：把"答对"和"找对证据"绑成一个目标

针对"现有基准只看答案、不看推理是否落在真证据上"这个痛点，CaST-Bench 重新定义了任务输出：模型不能直接吐答案，必须先产出一条结构化因果链，链上每条证据都带显式时间段 \([t_{start,i}, t_{end,i}]\)、文字理由 \(R_i\) 和逐帧 bbox 映射 \(B_i=\{s_j:b_j\}_{j=1}^{P_i}\)（\(s_j\) 是 1-FPS 时间戳，\(b_j=[x_{min},y_{min},x_{max},y_{max}]\)）。这条链同时编码了"原因证据 \(V_c\)"和"结果证据 \(V_e\)"，并要求抵抗会造成伪相关的混淆因子 \(C\)。这样设计的好处是：grounding 准确性从"附加信息"变成任务的强制组成部分，既能逼模型基于真实因果线索而非语言/视觉捷径作答（提升准确率），又能把视觉证据连同答案一起呈现给用户（提升透明度与可信度）

2. 人机协作数据构建流水线：用 VLM 当苦力、人类当质检

针对"既要造因果链 QA、又要配细粒度时空证据，纯人工成本爆炸、纯 AI 又不可靠"的痛点，作者设计了一条多阶段流水线。视频来源刻意避开电影/电视剧（构图太工整、空间 grounding 太简单），改用 SA-V 数据集里带专家实例分割与追踪的自然视频，再用 VLM 过滤出"多物体各自在做不同事"的复杂场景，得到 1,015 段。接着是关键的实例描述阶段：视频里小物体多、互相干扰，VLM 直接描述容易出错，于是作者把"静态全帧 + 围绕目标实例裁剪的视频片段"组合成精心设计的视觉/文本 prompt 喂给 VLM 生成动作描述，再由人类专家用定制标注工具复核改写，最终产出 10,728 条高质量动态实例描述。然后让一个"因果思考 VLM"（Gemini-2.5-Pro）以实例描述 + 视频 + 问题类型 taxonomy 为输入，生成带因果链的结构化 QA——问题覆盖因果解释（CE）、反事实推理（CR）、预测预期（PA）、推断描述（ID）四大类。这种分工让大规模因果链标注变得可行，同时靠人类质检守住了证据时间戳和文字的质量

3. 干扰项 + Mask 证据验证过滤：保证"答对必须靠看视频"

针对"基准容易被语言先验或数据集偏差刷分"的痛点，作者从两端下手。造干扰项时按混淆来源分两类：文本型干扰项（只给问题文本、不看视频，让 LLM 生成貌似合理但错误的选项，抓"只读文本就猜"的模型）和视频型干扰项（挑视频里因果无关的实例造选项，抓"被视觉偏差带跑"的模型），每题共 6 个选项。过滤则是三步：① 文本过滤——LLM 不看视频就能答对的题删掉；② 新颖的视频 mask 过滤——把因果证据所在的所有时空区域遮黑，再让 VLM 答，若仍答对说明因果链不完整或题目能靠偏差解出，丢弃；③ 人工终审证据、答案、因果链。三轮过滤后只剩 40% 的初始 QA，从而保证留下的题既难、因果链又完整

4. 解耦的评测套件：把 grounding 质量和答案忠实度量化出来

针对"以前只有单目标时空定位指标、应付不了多实例多时段的因果链"的痛点，作者先用贪心匹配算法按时空重叠把预测实例和 GT 实例配对，再在配对上算两个指标：IM-tIoU（实例匹配时间 IoU，衡量时间准确性）

\[\text{IM-tIoU}=\frac{1}{|G|}\sum_{(p,g)\in M}\frac{|\text{span}(p)\cap\text{span}(g)|}{|\text{span}(p)\cup\text{span}(g)|}\]

和 IM-vIoU（在时间 IoU 基础上再乘上重叠帧上的逐帧空间 IoU 均值，衡量时空准确性）。更关键的是引入忠实度指标：忠实答案率 \(\mathcal{F}=\mathbb{E}[\mathbb{I}(\text{Acc}=1)\cdot\mathbb{I}(\text{IM-vIoU}\geq\tau_{st})]\) 统计"答对且证据 grounding 也好"的比例，伪答案率 \(\mathcal{S}=\mathbb{E}[\mathbb{I}(\text{Acc}=1)\cdot\mathbb{I}(\forall p,\text{vIoU}_p<\tau_{st})]\) 统计"答对但证据完全没 ground 准"的比例（实验取 \(\tau_{st}=0.1\)）。这套指标第一次让"这个答案到底是真懂还是蒙对的"变得可测量，也是本基准最核心的诊断价值所在

一个完整示例¶

以"那个女人为什么停下来"这道题走一遍：模型拿到视频 \(V\) 和问题 \(Q\) 后，要主动搜寻因果链——先定位原因证据 \(V_c\)"小孩弯下腰"（给出它出现的时间段 + 逐帧追踪框），再定位结果证据 \(V_e\)"女人在等待"（同样带时空标注），把两条证据连成链后推出答案"她在等小孩"。评测时：若预测证据的时空框和 GT 重叠达标（IM-vIoU ≥ 0.1）且答案正确，记一次"忠实答对"；若答案对但证据框完全没对上，则记入"伪答对"——这正是当前 VLM 的常态，说明它多半是靠语言先验蒙对而非真看到了因果线索。

实验关键数据¶

主实验¶

评测 4 个闭源 + 多个开源 VLM 变体（共 15 个代表性模型），所有模型必须先生成时空因果链再给答案；开源模型用 LLaMA-Factory 本地跑，GPT-5 系列因无原生视频输入改喂 1-FPS 均匀采样帧。

模型	MCQ 答案准确率	IM-tIoU(时间)	IM-vIoU(时空)	忠实率 ℱ	伪答率 𝒮
随机猜	16.67	–	–	–	–
Gemini-2.5-Pro(纯文本)	23.14	–	–	–	–
人类	91.89	–	–	–	–
Gemini-2.5-Pro	50.34	21.53	2.46	7.60	42.26
Gemini-2.5-Flash	45.60	27.63	3.52	9.97	33.35
GPT-5	46.32	26.61	4.31	12.68	32.91
Qwen3-VL-4B-Instruct	45.30	11.21	0.93	2.76	42.30
InternVL-3.5-30B-A3B	44.53	8.33	0.25	0.48	44.00
Qwen2.5-VL-7B-Instruct	41.09	3.72	0.09	0.29	40.80

最佳闭源模型 Gemini-2.5-Pro 仅 50.34%，最佳开源 Qwen3-VL-4B 仅 45.30%，离人类 91.89% 差一大截。纯文本输入 Gemini 只有 23.14%，证明视觉证据不可或缺。所有模型的时空 grounding（IM-vIoU）都极低（闭源 2–4%、开源大多 <1%），伪答率却高达 30–44%——意味着大量"答对"其实是建立在没 ground 准的证据上。

消融实验¶

配置	Gemini-2.5-Pro	GPT-5	GLM-4.1V-9B	Qwen2.5-VL-7B
w/o 因果链(直接答)	45.98	43.90	38.09	40.90
w/ 自生成因果链	50.34	46.32	39.55	41.09
Given GT 因果链	75.61	71.88	65.25	59.68

按问题类型看 Given GT 因果链下的准确率：反事实推理（CR）最难（30% 左右），因果解释（CE）最容易（Gemini 56.83），预测预期（PA）和推断描述（ID）居中。

关键发现¶

因果链是核心瓶颈：从"自生成链"到"喂入 GT 链"准确率猛涨约 20–25 个点（Gemini 50.34→75.61），且作者已用 LLM 抹去 GT 理由里可能泄露答案的句子、只留事实描述，说明这 20–25 点反映的是"正确因果 grounding 的贡献"而非答案泄露——当前模型自产因果链与理想链之间存在巨大且一致的差距。
答对 ≠ 看对：高伪答率（30–44%）+ 极低 IM-vIoU 共同说明，模型常靠伪相关蒙对；忠实率最高的 GPT-5 也才 12.68%。
"思考"变体未必更强：Qwen3-VL-8B-Instruct 反而比其 Thinking 版准确率高，过度的文本"思考"可能干扰视觉-语言对齐、甚至导致漏答。
规模不保证 grounding：InternVL-3.5-30B 比小模型 MCQ 更高，但 grounding/忠实度没有相应提升；多个模型家族里越大的变体伪答率反而越高。
干扰项分析：文本型干扰项最具迷惑性（trap rate 最高），视频型最低，说明模型仍偏好"听起来合理的文字选项"而非真实视觉证据。

亮点与洞察¶

把"忠实度"做成可测指标：\(\mathcal{F}\)/\(\mathcal{S}\) 这对忠实率/伪答率，第一次把"答对到底是真懂还是蒙对"量化出来，比单看准确率更能诊断模型的真实因果能力，这个思路可迁移到任何"答案 + 证据"型评测。
Mask 证据验证过滤很巧：遮掉因果证据区域后还能答对就丢题，等于用反事实的方式自动筛掉"靠偏差可解"的题，保证了每道留下来的题都真依赖那条因果链——这是个可复用的数据集去偏 trick。
GT 因果链消融把瓶颈钉死在"链构建"上：通过对照 w/o、w/、Given GT 三档，并提前消除答案泄露，干净地证明了"模型不是不会推理，而是找不准证据"，为后续研究指明方向（先攻 grounding 再谈推理）。
数据构建的"VLM 生成 + 人类质检"分工对任何需要细粒度时空标注的数据集都有借鉴价值，尤其是用"全帧 + 实例裁剪片段"组合 prompt 来缓解小物体描述错误。

局限与展望¶

只有基准、没有方法：本文诊断出"因果链构建是瓶颈"，但没有提出能改进 grounding 的模型方法，留给后续工作。
规模偏小：2,066 题相比 MVBench(4000)、CG-Bench(12129) 等并不大，主要因为 40% 的严苛过滤率；覆盖面与统计显著性上可能受限。
依赖 Gemini-2.5-Pro 当生成与评测引擎：因果链 QA 由 Gemini 生成、开放式评测又用它当 LLM judge，存在潜在的"出题人即裁判"偏置，可能对 Gemini 系模型略有利（其 MCQ 也确实最高，需注意 caveat）。
视频偏短：平均时长仅 13.68s、证据平均 5.65s，长视频/长程因果链的难度未被覆盖。
改进思路：可引入专门的时空证据检索/grounding 模块（如显式定位头）再做因果推理，或用 GT 因果链做监督微调来缩小自生成链与理想链的差距。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首个同时要求链式时空证据 grounding + 配套忠实度评测的视频因果基准，任务定义和 \(\mathcal{F}/\mathcal{S}\) 指标都是新东西。
实验充分度: ⭐⭐⭐⭐ 覆盖 15 个主流 VLM、四维度评测 + GT 链消融 + 干扰项/类别分析，但缺方法侧验证、规模偏小。
写作质量: ⭐⭐⭐⭐ 动机清晰、任务定义与指标公式严谨，流水线讲得明白。
价值: ⭐⭐⭐⭐⭐ 把"答对≠看对"这个长期被准确率掩盖的问题量化出来，且干净地证明因果链构建是瓶颈，对后续 VLM 研究有实打实的指导意义。