CaST-Bench: Benchmarking Causal Chain-Grounded Spatio-Temporal Reasoning for Video Question Answering¶
会议: CVPR 2026
arXiv: 2605.23216
代码: 无
领域: 视频理解 / 多模态VLM / 视频问答 / 因果推理 / Benchmark
关键词: 因果链、时空 grounding、视频问答、VLM 评测、忠实度
一句话总结¶
CaST-Bench 提出"因果链时空 grounding 视频问答"这一新任务——模型不仅要答对,还要把答案落到一条由时间段 + bounding box 标注的因果证据链上;通过人机协作流水线构建了 1,015 段视频、2,066 道题的高质量数据集,并设计了同时评估答案正确性与证据 grounding 的指标,实测 15 个主流 VLM 表现远低于人类(最佳 50.34% vs 人类 91.89%)。
研究背景与动机¶
领域现状:VLM 在视频理解上进步很快,但绝大多数视频问答基准(MVBench、Video-MME 等)问的都是"描述性"问题——"那个女人的包是什么颜色",模型只要定位并描述物体/动作即可,本质是表层感知。
现有痛点:真正的因果推理要回答"为什么"("那个女人为什么停下来"),需要模型主动去视频里搜寻一条因果链:既要找到原因证据("小孩弯下腰"),也要找到结果证据("女人在等待"),而且关键证据往往不在问题文本里出现。现有基准在这件事上有三类缺陷:① 大多数完全不要求推理过程有视觉 grounding;② 少数(如 NExT-GQA)只做时间定位,无法应对杂乱场景里的空间歧义;③ 还有些只为"问题中提到的物体"提供 grounding,而忽略了因果相关的隐藏证据。
核心矛盾:因果推理的正确性高度依赖能否定位到"真正起因果作用的时空证据",但现有基准既没有提供这种细粒度的链式证据标注,也没有能区分"答对是靠真证据还是靠伪相关(confounder)"的评测指标,导致无法严格衡量 VLM 的因果能力。
本文目标:构建一个能联合考核「答得对」+「证据链找得准」的视频因果推理基准,覆盖时间段与空间框两种细粒度 grounding。
切入角度:作者把视频因果 QA 形式化成一张因果图——给定视频 \(V\) 与问题 \(Q\),模型要发现并 grounding 出原因证据 \(V_c\) 和结果证据 \(V_e\),连成因果链得到答案 \(A\),同时要抵抗会引入伪相关的混淆因子 \(C\)。
核心 idea:用"因果链 = 多条带时间戳和 bbox 轨迹的证据"作为标注与评测的中心对象,让 grounding 准确性成为可量化、可诊断的一等公民。
方法详解¶
整体框架¶
CaST-Bench 不是一个模型,而是"任务定义 + 数据构建流水线 + 评测套件"三件套。任务输入是视频 \(V\) 和问题 \(Q\),模型需先输出一条变长证据链 \(E_C=[E_1,\dots,E_K]\) 再给出答案 \(A\);每条证据 \(E_i\) 包含起止时间 \(t_{start,i}, t_{end,i}\)、文字理由 \(R_i\) 和一组按 1-FPS 时间戳索引的 bounding box \(B_i=\{s_j:b_j\}\)。数据这一侧由一条多阶段人机协作流水线产出:先从自然视频里选难度足够的素材,再为每个被追踪实例生成时空细粒度描述,然后由"因果思考 VLM"基于这些描述生成带因果链的 QA,接着造干扰项并用三步过滤(含一个新颖的 mask 验证)保证题目难且因果链完整。最后用一套自定义指标,把"答案对不对"和"证据链准不准"拆开评。
%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
A["自然视频素材<br/>SA-V 数据集"] --> B["因果链时空任务定义<br/>证据链 Ec → 答案 A"]
B --> C["人机协作数据构建<br/>选片→实例描述→QA与因果链生成→造干扰项"]
C --> D["Mask 证据验证过滤<br/>遮住因果区域仍答对→丢弃"]
D --> E["因果链 grounding 评测<br/>IM-tIoU / IM-vIoU"]
E --> F["证据-答案忠实度评测<br/>Faithful Rate / Spurious Rate"]
关键设计¶
1. 因果链时空任务定义:把"答对"和"找对证据"绑成一个目标
针对"现有基准只看答案、不看推理是否落在真证据上"这个痛点,CaST-Bench 重新定义了任务输出:模型不能直接吐答案,必须先产出一条结构化因果链,链上每条证据都带显式时间段 \([t_{start,i}, t_{end,i}]\)、文字理由 \(R_i\) 和逐帧 bbox 映射 \(B_i=\{s_j:b_j\}_{j=1}^{P_i}\)(\(s_j\) 是 1-FPS 时间戳,\(b_j=[x_{min},y_{min},x_{max},y_{max}]\))。这条链同时编码了"原因证据 \(V_c\)"和"结果证据 \(V_e\)",并要求抵抗会造成伪相关的混淆因子 \(C\)。这样设计的好处是:grounding 准确性从"附加信息"变成任务的强制组成部分,既能逼模型基于真实因果线索而非语言/视觉捷径作答(提升准确率),又能把视觉证据连同答案一起呈现给用户(提升透明度与可信度)
2. 人机协作数据构建流水线:用 VLM 当苦力、人类当质检
针对"既要造因果链 QA、又要配细粒度时空证据,纯人工成本爆炸、纯 AI 又不可靠"的痛点,作者设计了一条多阶段流水线。视频来源刻意避开电影/电视剧(构图太工整、空间 grounding 太简单),改用 SA-V 数据集里带专家实例分割与追踪的自然视频,再用 VLM 过滤出"多物体各自在做不同事"的复杂场景,得到 1,015 段。接着是关键的实例描述阶段:视频里小物体多、互相干扰,VLM 直接描述容易出错,于是作者把"静态全帧 + 围绕目标实例裁剪的视频片段"组合成精心设计的视觉/文本 prompt 喂给 VLM 生成动作描述,再由人类专家用定制标注工具复核改写,最终产出 10,728 条高质量动态实例描述。然后让一个"因果思考 VLM"(Gemini-2.5-Pro)以实例描述 + 视频 + 问题类型 taxonomy 为输入,生成带因果链的结构化 QA——问题覆盖因果解释(CE)、反事实推理(CR)、预测预期(PA)、推断描述(ID)四大类。这种分工让大规模因果链标注变得可行,同时靠人类质检守住了证据时间戳和文字的质量
3. 干扰项 + Mask 证据验证过滤:保证"答对必须靠看视频"
针对"基准容易被语言先验或数据集偏差刷分"的痛点,作者从两端下手。造干扰项时按混淆来源分两类:文本型干扰项(只给问题文本、不看视频,让 LLM 生成貌似合理但错误的选项,抓"只读文本就猜"的模型)和视频型干扰项(挑视频里因果无关的实例造选项,抓"被视觉偏差带跑"的模型),每题共 6 个选项。过滤则是三步:① 文本过滤——LLM 不看视频就能答对的题删掉;② 新颖的视频 mask 过滤——把因果证据所在的所有时空区域遮黑,再让 VLM 答,若仍答对说明因果链不完整或题目能靠偏差解出,丢弃;③ 人工终审证据、答案、因果链。三轮过滤后只剩 40% 的初始 QA,从而保证留下的题既难、因果链又完整
4. 解耦的评测套件:把 grounding 质量和答案忠实度量化出来
针对"以前只有单目标时空定位指标、应付不了多实例多时段的因果链"的痛点,作者先用贪心匹配算法按时空重叠把预测实例和 GT 实例配对,再在配对上算两个指标:IM-tIoU(实例匹配时间 IoU,衡量时间准确性)
和 IM-vIoU(在时间 IoU 基础上再乘上重叠帧上的逐帧空间 IoU 均值,衡量时空准确性)。更关键的是引入忠实度指标:忠实答案率 \(\mathcal{F}=\mathbb{E}[\mathbb{I}(\text{Acc}=1)\cdot\mathbb{I}(\text{IM-vIoU}\geq\tau_{st})]\) 统计"答对且证据 grounding 也好"的比例,伪答案率 \(\mathcal{S}=\mathbb{E}[\mathbb{I}(\text{Acc}=1)\cdot\mathbb{I}(\forall p,\text{vIoU}_p<\tau_{st})]\) 统计"答对但证据完全没 ground 准"的比例(实验取 \(\tau_{st}=0.1\))。这套指标第一次让"这个答案到底是真懂还是蒙对的"变得可测量,也是本基准最核心的诊断价值所在
一个完整示例¶
以"那个女人为什么停下来"这道题走一遍:模型拿到视频 \(V\) 和问题 \(Q\) 后,要主动搜寻因果链——先定位原因证据 \(V_c\)"小孩弯下腰"(给出它出现的时间段 + 逐帧追踪框),再定位结果证据 \(V_e\)"女人在等待"(同样带时空标注),把两条证据连成链后推出答案"她在等小孩"。评测时:若预测证据的时空框和 GT 重叠达标(IM-vIoU ≥ 0.1)且答案正确,记一次"忠实答对";若答案对但证据框完全没对上,则记入"伪答对"——这正是当前 VLM 的常态,说明它多半是靠语言先验蒙对而非真看到了因果线索。
实验关键数据¶
主实验¶
评测 4 个闭源 + 多个开源 VLM 变体(共 15 个代表性模型),所有模型必须先生成时空因果链再给答案;开源模型用 LLaMA-Factory 本地跑,GPT-5 系列因无原生视频输入改喂 1-FPS 均匀采样帧。
| 模型 | MCQ 答案准确率 | IM-tIoU(时间) | IM-vIoU(时空) | 忠实率 ℱ | 伪答率 𝒮 |
|---|---|---|---|---|---|
| 随机猜 | 16.67 | – | – | – | – |
| Gemini-2.5-Pro(纯文本) | 23.14 | – | – | – | – |
| 人类 | 91.89 | – | – | – | – |
| Gemini-2.5-Pro | 50.34 | 21.53 | 2.46 | 7.60 | 42.26 |
| Gemini-2.5-Flash | 45.60 | 27.63 | 3.52 | 9.97 | 33.35 |
| GPT-5 | 46.32 | 26.61 | 4.31 | 12.68 | 32.91 |
| Qwen3-VL-4B-Instruct | 45.30 | 11.21 | 0.93 | 2.76 | 42.30 |
| InternVL-3.5-30B-A3B | 44.53 | 8.33 | 0.25 | 0.48 | 44.00 |
| Qwen2.5-VL-7B-Instruct | 41.09 | 3.72 | 0.09 | 0.29 | 40.80 |
最佳闭源模型 Gemini-2.5-Pro 仅 50.34%,最佳开源 Qwen3-VL-4B 仅 45.30%,离人类 91.89% 差一大截。纯文本输入 Gemini 只有 23.14%,证明视觉证据不可或缺。所有模型的时空 grounding(IM-vIoU)都极低(闭源 2–4%、开源大多 <1%),伪答率却高达 30–44%——意味着大量"答对"其实是建立在没 ground 准的证据上。
消融实验¶
| 配置 | Gemini-2.5-Pro | GPT-5 | GLM-4.1V-9B | Qwen2.5-VL-7B |
|---|---|---|---|---|
| w/o 因果链(直接答) | 45.98 | 43.90 | 38.09 | 40.90 |
| w/ 自生成因果链 | 50.34 | 46.32 | 39.55 | 41.09 |
| Given GT 因果链 | 75.61 | 71.88 | 65.25 | 59.68 |
按问题类型看 Given GT 因果链下的准确率:反事实推理(CR)最难(30% 左右),因果解释(CE)最容易(Gemini 56.83),预测预期(PA)和推断描述(ID)居中。
关键发现¶
- 因果链是核心瓶颈:从"自生成链"到"喂入 GT 链"准确率猛涨约 20–25 个点(Gemini 50.34→75.61),且作者已用 LLM 抹去 GT 理由里可能泄露答案的句子、只留事实描述,说明这 20–25 点反映的是"正确因果 grounding 的贡献"而非答案泄露——当前模型自产因果链与理想链之间存在巨大且一致的差距。
- 答对 ≠ 看对:高伪答率(30–44%)+ 极低 IM-vIoU 共同说明,模型常靠伪相关蒙对;忠实率最高的 GPT-5 也才 12.68%。
- "思考"变体未必更强:Qwen3-VL-8B-Instruct 反而比其 Thinking 版准确率高,过度的文本"思考"可能干扰视觉-语言对齐、甚至导致漏答。
- 规模不保证 grounding:InternVL-3.5-30B 比小模型 MCQ 更高,但 grounding/忠实度没有相应提升;多个模型家族里越大的变体伪答率反而越高。
- 干扰项分析:文本型干扰项最具迷惑性(trap rate 最高),视频型最低,说明模型仍偏好"听起来合理的文字选项"而非真实视觉证据。
亮点与洞察¶
- 把"忠实度"做成可测指标:\(\mathcal{F}\)/\(\mathcal{S}\) 这对忠实率/伪答率,第一次把"答对到底是真懂还是蒙对"量化出来,比单看准确率更能诊断模型的真实因果能力,这个思路可迁移到任何"答案 + 证据"型评测。
- Mask 证据验证过滤很巧:遮掉因果证据区域后还能答对就丢题,等于用反事实的方式自动筛掉"靠偏差可解"的题,保证了每道留下来的题都真依赖那条因果链——这是个可复用的数据集去偏 trick。
- GT 因果链消融把瓶颈钉死在"链构建"上:通过对照 w/o、w/、Given GT 三档,并提前消除答案泄露,干净地证明了"模型不是不会推理,而是找不准证据",为后续研究指明方向(先攻 grounding 再谈推理)。
- 数据构建的"VLM 生成 + 人类质检"分工对任何需要细粒度时空标注的数据集都有借鉴价值,尤其是用"全帧 + 实例裁剪片段"组合 prompt 来缓解小物体描述错误。
局限与展望¶
- 只有基准、没有方法:本文诊断出"因果链构建是瓶颈",但没有提出能改进 grounding 的模型方法,留给后续工作。
- 规模偏小:2,066 题相比 MVBench(4000)、CG-Bench(12129) 等并不大,主要因为 40% 的严苛过滤率;覆盖面与统计显著性上可能受限。
- 依赖 Gemini-2.5-Pro 当生成与评测引擎:因果链 QA 由 Gemini 生成、开放式评测又用它当 LLM judge,存在潜在的"出题人即裁判"偏置,可能对 Gemini 系模型略有利(其 MCQ 也确实最高,需注意 caveat)。
- 视频偏短:平均时长仅 13.68s、证据平均 5.65s,长视频/长程因果链的难度未被覆盖。
- 改进思路:可引入专门的时空证据检索/grounding 模块(如显式定位头)再做因果推理,或用 GT 因果链做监督微调来缩小自生成链与理想链的差距。
相关工作与启发¶
- vs MVBench / Video-MME: 它们以描述性 MCQ 为主、完全无视觉 grounding;CaST-Bench 聚焦因果问题且强制要求链式时空 grounding,难度与诊断性质完全不同。
- vs NExT-GQA / V-STaR: 这类做时空定位,但只针对"问题中提到的物体"做直接定位,不要求主动发现隐藏的因果证据链;CaST-Bench 是首个同时支持空间 + 时间链式证据 grounding 并配套 grounding 准确率评测的基准。
- vs Causal-VidQA / Video-Holmes / VR-Bench: 它们也想测因果推理,但要么只给文字线索、要么缺时空标注、要么不评 grounding 准确率;CaST-Bench 补上了"链式时空证据 + 评测"这块空白(见 Table 1)。
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 首个同时要求链式时空证据 grounding + 配套忠实度评测的视频因果基准,任务定义和 \(\mathcal{F}/\mathcal{S}\) 指标都是新东西。
- 实验充分度: ⭐⭐⭐⭐ 覆盖 15 个主流 VLM、四维度评测 + GT 链消融 + 干扰项/类别分析,但缺方法侧验证、规模偏小。
- 写作质量: ⭐⭐⭐⭐ 动机清晰、任务定义与指标公式严谨,流水线讲得明白。
- 价值: ⭐⭐⭐⭐⭐ 把"答对≠看对"这个长期被准确率掩盖的问题量化出来,且干净地证明因果链构建是瓶颈,对后续 VLM 研究有实打实的指导意义。