CRAFT: Critic-Refined Adaptive Key-Frame Targeting for Multimodal Video Question Answering¶

会议: ACL2026
arXiv: 2605.19075
代码: https://github.com/bhosalems/CRAFT
领域: 视频理解 / 多视频问答
关键词: 多视频问答, 证据归因, 关键帧选择, ASR, critic refinement

一句话总结¶

CRAFT 是一个面向新闻事件多视频问答的 claim-centric pipeline，它结合动态关键帧选择、ASR 转写、UNLI/MNLI/LLM critic 迭代修正和引用合并，在 MAGMaR-Test 上取得 0.739 macro average、0.810 reference recall 和 0.635 citation F1。

研究背景与动机¶

领域现状：多视频问答和 grounded generation 要求系统从一组相关视频中抽取事实，并为每个结论提供可追溯的视频来源。新闻事件场景尤其典型：答案可能分散在多个剪辑、不同语言报道、采访音频和画面文字中。

现有痛点：长视频对 VLM 有严重 token/frame budget 压力。统一采样会漏掉稀疏但关键的画面；只看画面又会丢失采访、播报和官方声明等语音证据；即使 relevant frames 被送入模型，VLM 仍可能生成没有视觉或音频支撑的细节。

核心矛盾：高分系统必须同时做到“覆盖更多事实”和“每个事实都有正确引用”。单纯提高召回会引入 unsupported claims，单纯保守又会漏掉参考答案中的关键信息。

本文目标：作者希望构建一个面向 MAGMaR 2026 oracle task 的多视频 QA 系统，让答案以原子 claim 为中间层，先抽取、验证和排序证据，再生成带引用的最终报告。

切入角度：CRAFT 不把 VLM 的初始回答当成最终答案，而是在 claim 级别加入 critic loop。它用 UNLI 做视频-claim temporal entailment，用 DeBERTa-v3 MNLI 筛查 claim 间矛盾，再用 Llama-3.2-3B 判定和给出修复反馈。

核心 idea：先把多视频证据拆成可验证的原子 claim，再用专门 critic 修掉弱支撑和矛盾 claim，最后把重复事实合并成带多来源引用的报告。

方法详解¶

CRAFT 的 pipeline 可以理解为“视频证据流构建 → 原子 claim 抽取 → critic 迭代修正 → claim 评分与选择 → 引用保留式生成”。它面向每个 query 和相关视频集合运行，保留从 chunk 到 parent video 的映射，保证最终引用能回到原始视频。

整体框架¶

输入是 persona、query 和相关视频列表。系统先把长视频切成最长 120 秒的 chunk，并为每个视频缓存 ASR 与翻译；然后对每个 query-video pair 用动态关键帧选择得到紧凑视觉输入，再让 Qwen3.5-9B/VL 抽取带来源、时间戳和证据类型的原子 claim。critic loop 对 claim 进行最多 4 轮修正，最后用 UNLI support score 排序 claim，并由文本 LLM 生成最终报告。

关键设计¶

查询条件化的多模态证据流:
- 功能：在长视频中为当前 query 提供最相关的视觉和语音证据。
- 核心思路：视频先按 120 秒 chunk 处理；每个唯一视频只转写一次，主 ASR 为 Qwen3-ASR-1.7B，低资源语言回退 Whisper-large-v3，并对非英语转写做英文翻译。视觉侧用 CLIP 图文相似度给候选帧打分，再选择兼顾相关性与时间覆盖的关键帧。
- 设计动机：多视频新闻问答中，关键证据可能出现在音频、画面或少数帧里。显式 ASR 和 DKS 能减少 uniform sampling 与 visual-only pipeline 的漏证据问题。
原子 claim 抽取与 critic loop:
- 功能：把 VLM 输出限制为可单独验证、可修复的事实单元。
- 核心思路：每个 claim 必须是单一陈述，并带 evidence modality。critic loop 使用三类检查：UNLI 对 cited video segment 打分，低于 0.05 的 claim 视为 unsupported，0.05 到 0.5 视为弱支撑；DeBERTa-v3 MNLI 找出 contradiction probability 超过 0.5 的候选矛盾；Llama-3.2-3B 再确认矛盾并返回 repair hint。
- 设计动机：最终报告级别才检查太粗，无法定位哪条事实错了。claim 级 critic 能把 hallucination、时间错配和跨 claim 矛盾尽早清理掉。
引用保留式 evidence pooling 与 consolidation:
- 功能：在跨视频合并事实时保留来源，不因去重而丢引用。
- 核心思路：同一 query 下所有 refined claims 先进入 evidence pool，每条记录仍保留 video id、timestamp、modality 和 claim id；UNLI 重新打分后选 top claims 作为 claim packet。最终文本 LLM 只能使用 packet 中的信息，并把多个支持同一事实的 source identifiers 合并到同一句话上。
- 设计动机：MAGMaR 同时评价信息质量和 citation correctness。如果简单去重，会提升简洁性但损伤 citation recall；引用合并能兼顾两者。

损失函数 / 训练策略¶

CRAFT 是系统 pipeline，没有端到端训练损失。关键策略是推理时约束和验证：DKS 用图文相似度选择帧，UNLI support score 用于 temporal grounding 和 claim ranking，MNLI 用作高召回矛盾候选筛选，Llama adjudicator 负责二次确认。critic loop 最多运行 \(R=4\) 轮，若 claim set 不再变化则提前终止。

实验关键数据¶

主实验¶

系统	MAGMaR Ref-P	MAGMaR Ref-R	MAGMaR Cite-F1	MAGMaR Avg	WikiVideo Ref-F1	WikiVideo Cite-F1	WikiVideo Avg
Molmo2-8B	0.623	0.541	0.457	0.518	0.661	0.552	0.607
InternVL-3.5-30B + ASR	0.761	0.722	0.600	0.672	0.831	0.727	0.779
Gemma-4-31B + ASR	0.712	0.701	0.580	0.644	0.754	0.640	0.697
CRAFT Baseline	0.437	0.756	0.359	0.518	0.834	0.764	0.814
+ Critic Loop	0.491	0.766	0.360	0.535	0.842	0.773	0.822
+ Atomic Claims	0.808	0.762	0.426	0.673	0.735	0.848	0.809
+ ASR / Full CRAFT	0.760	0.810	0.635	0.739	0.854	0.762	0.823

Full CRAFT 在 MAGMaR-Test 上取得最高 overall average 0.739，并且 reference recall 0.810、citation F1 0.635。WikiVideo 上 average 为 0.823，略高于 baseline 的 0.814，也强于 InternVL/Gemma 的 visual+ASR 变体。

消融实验¶

消融	Ref-P	Ref-R	Ref-F1	Cite-P	Cite-R	Cite-F1	Avg	结论
CRAFT full	0.760	0.810	0.783	0.935	0.512	0.635	0.739	完整系统
Qwen3-Omni-30B-A3B 替代 ASR-based backbone	0.745	0.761	0.735	0.878	0.346	0.471	0.656	直接音频输入不如显式 ASR 转写
Qwen 替代 UNLI	0.732	0.788	0.759	0.874	0.469	0.601	0.704	专门 temporal entailment 对 citation 很重要
Qwen 替代 Llama-3.2-3B adjudicator	0.763	0.812	0.787	0.937	0.516	0.619	0.732	3B adjudicator 已足够
Qwen unified critic，无 MNLI screen	0.743	0.798	0.770	0.909	0.493	0.619	0.722	NLI 预筛选提供了泛化 prompt 难替代的信号

关键发现¶

Atomic claim formatting 是 MAGMaR precision 的关键，从 baseline Ref-P 0.437 提升到 0.808。
ASR 是补足召回和 citation 的核心来源。加入 ASR 后 Ref-R 达到 0.810，Cite-F1 从 0.426 提升到 0.635。
显式 ASR transcript 比直接音频条件化更适合 claim-centric verification，因为名字、日期和数字可以被后续文本 verifier 直接检查。
低帧预算下 DKS 能提升 precision，例如 MAGMaR reduced-frame DKS 的 Ref-P 为 0.822，高于 uniform 的 0.775，但 recall 可能下降，说明关键帧选择仍有覆盖性问题。
辅助生成质量上，CRAFT 在 MAGMaR 的 ROUGE-L/BERTScore/AnsRel 为 0.1839/0.1709/0.6504，在 WikiVideo 为 0.3014/0.2683/0.6664，均高于对比 VLM。

亮点与洞察¶

这篇论文最有价值的地方是把 grounded video QA 的中间表示变成 claim，而不是直接生成段落。claim 足够小，才能被模型、NLI 和 entailment scorer 逐条验证。
ASR 的作用被证明很强。新闻视频里大量事实来自讲话内容，visual-only VLM 很容易漏掉采访和播报信息。
critic loop 的设计很务实。UNLI、MNLI 和小 LLM 各司其职，不强行让一个大模型包办所有验证。
citation merging 是很贴合任务指标的工程设计。它避免同一事实重复写多次，同时保留多个支持来源，有利于 citation recall。

局限与展望¶

召回和 citation recall 仍然困难。Full CRAFT 在 MAGMaR 上 Cite-R 只有 0.512，说明找到正确事实和把事实指到正确视频仍未完全解决。
低资源语言 ASR 仍是脆弱点。系统会过滤低词汇多样性或重复严重的转写，这能减少噪声，但也可能丢掉资源稀缺语言中的有用信息。
DKS 在低帧预算下会提高 precision，但可能牺牲 recall；未来需要更好地平衡 query relevance 和广覆盖。
未来方向包括更强跨视频检索、更鲁棒 multilingual ASR、更精确的 claim-to-video attribution，以及把人类评估反馈纳入系统调优。

评分¶

新颖性: ⭐⭐⭐⭐ 单个组件多有前例，但把 ASR、DKS、claim critic 和 citation merging 组合成完整系统很扎实。
实验充分度: ⭐⭐⭐⭐ 覆盖 MAGMaR 和 WikiVideo，并有多项系统消融；人类评估放在附录，主文更偏自动指标。
写作质量: ⭐⭐⭐⭐ 方法流程清楚，指标解释充分；表格较密集，读者需要关注 MAGMaR 和 WikiVideo 设置差异。
价值: ⭐⭐⭐⭐ 对需要“回答 + 引用”的视频 RAG / 新闻分析系统很有参考价值，尤其是 claim-centric evidence pipeline。