跳转至

CRAFT: Critic-Refined Adaptive Key-Frame Targeting for Multimodal Video Question Answering

会议: ACL2026
arXiv: 2605.19075
代码: https://github.com/bhosalems/CRAFT
领域: 视频理解 / 多视频问答
关键词: 多视频问答, 证据归因, 关键帧选择, ASR, critic refinement

一句话总结

CRAFT 是一个面向新闻事件多视频问答的 claim-centric pipeline,它结合动态关键帧选择、ASR 转写、UNLI/MNLI/LLM critic 迭代修正和引用合并,在 MAGMaR-Test 上取得 0.739 macro average、0.810 reference recall 和 0.635 citation F1。

研究背景与动机

领域现状:多视频问答和 grounded generation 要求系统从一组相关视频中抽取事实,并为每个结论提供可追溯的视频来源。新闻事件场景尤其典型:答案可能分散在多个剪辑、不同语言报道、采访音频和画面文字中。

现有痛点:长视频对 VLM 有严重 token/frame budget 压力。统一采样会漏掉稀疏但关键的画面;只看画面又会丢失采访、播报和官方声明等语音证据;即使 relevant frames 被送入模型,VLM 仍可能生成没有视觉或音频支撑的细节。

核心矛盾:高分系统必须同时做到“覆盖更多事实”和“每个事实都有正确引用”。单纯提高召回会引入 unsupported claims,单纯保守又会漏掉参考答案中的关键信息。

本文目标:作者希望构建一个面向 MAGMaR 2026 oracle task 的多视频 QA 系统,让答案以原子 claim 为中间层,先抽取、验证和排序证据,再生成带引用的最终报告。

切入角度:CRAFT 不把 VLM 的初始回答当成最终答案,而是在 claim 级别加入 critic loop。它用 UNLI 做视频-claim temporal entailment,用 DeBERTa-v3 MNLI 筛查 claim 间矛盾,再用 Llama-3.2-3B 判定和给出修复反馈。

核心 idea:先把多视频证据拆成可验证的原子 claim,再用专门 critic 修掉弱支撑和矛盾 claim,最后把重复事实合并成带多来源引用的报告。

方法详解

CRAFT 的 pipeline 可以理解为“视频证据流构建 → 原子 claim 抽取 → critic 迭代修正 → claim 评分与选择 → 引用保留式生成”。它面向每个 query 和相关视频集合运行,保留从 chunk 到 parent video 的映射,保证最终引用能回到原始视频。

整体框架

输入是 persona、query 和相关视频列表。系统先把长视频切成最长 120 秒的 chunk,并为每个视频缓存 ASR 与翻译;然后对每个 query-video pair 用动态关键帧选择得到紧凑视觉输入,再让 Qwen3.5-9B/VL 抽取带来源、时间戳和证据类型的原子 claim。critic loop 对 claim 进行最多 4 轮修正,最后用 UNLI support score 排序 claim,并由文本 LLM 生成最终报告。

关键设计

  1. 查询条件化的多模态证据流:

    • 功能:在长视频中为当前 query 提供最相关的视觉和语音证据。
    • 核心思路:视频先按 120 秒 chunk 处理;每个唯一视频只转写一次,主 ASR 为 Qwen3-ASR-1.7B,低资源语言回退 Whisper-large-v3,并对非英语转写做英文翻译。视觉侧用 CLIP 图文相似度给候选帧打分,再选择兼顾相关性与时间覆盖的关键帧。
    • 设计动机:多视频新闻问答中,关键证据可能出现在音频、画面或少数帧里。显式 ASR 和 DKS 能减少 uniform sampling 与 visual-only pipeline 的漏证据问题。
  2. 原子 claim 抽取与 critic loop:

    • 功能:把 VLM 输出限制为可单独验证、可修复的事实单元。
    • 核心思路:每个 claim 必须是单一陈述,并带 evidence modality。critic loop 使用三类检查:UNLI 对 cited video segment 打分,低于 0.05 的 claim 视为 unsupported,0.05 到 0.5 视为弱支撑;DeBERTa-v3 MNLI 找出 contradiction probability 超过 0.5 的候选矛盾;Llama-3.2-3B 再确认矛盾并返回 repair hint。
    • 设计动机:最终报告级别才检查太粗,无法定位哪条事实错了。claim 级 critic 能把 hallucination、时间错配和跨 claim 矛盾尽早清理掉。
  3. 引用保留式 evidence pooling 与 consolidation:

    • 功能:在跨视频合并事实时保留来源,不因去重而丢引用。
    • 核心思路:同一 query 下所有 refined claims 先进入 evidence pool,每条记录仍保留 video id、timestamp、modality 和 claim id;UNLI 重新打分后选 top claims 作为 claim packet。最终文本 LLM 只能使用 packet 中的信息,并把多个支持同一事实的 source identifiers 合并到同一句话上。
    • 设计动机:MAGMaR 同时评价信息质量和 citation correctness。如果简单去重,会提升简洁性但损伤 citation recall;引用合并能兼顾两者。

损失函数 / 训练策略

CRAFT 是系统 pipeline,没有端到端训练损失。关键策略是推理时约束和验证:DKS 用图文相似度选择帧,UNLI support score 用于 temporal grounding 和 claim ranking,MNLI 用作高召回矛盾候选筛选,Llama adjudicator 负责二次确认。critic loop 最多运行 \(R=4\) 轮,若 claim set 不再变化则提前终止。

实验关键数据

主实验

系统 MAGMaR Ref-P MAGMaR Ref-R MAGMaR Cite-F1 MAGMaR Avg WikiVideo Ref-F1 WikiVideo Cite-F1 WikiVideo Avg
Molmo2-8B 0.623 0.541 0.457 0.518 0.661 0.552 0.607
InternVL-3.5-30B + ASR 0.761 0.722 0.600 0.672 0.831 0.727 0.779
Gemma-4-31B + ASR 0.712 0.701 0.580 0.644 0.754 0.640 0.697
CRAFT Baseline 0.437 0.756 0.359 0.518 0.834 0.764 0.814
+ Critic Loop 0.491 0.766 0.360 0.535 0.842 0.773 0.822
+ Atomic Claims 0.808 0.762 0.426 0.673 0.735 0.848 0.809
+ ASR / Full CRAFT 0.760 0.810 0.635 0.739 0.854 0.762 0.823

Full CRAFT 在 MAGMaR-Test 上取得最高 overall average 0.739,并且 reference recall 0.810、citation F1 0.635。WikiVideo 上 average 为 0.823,略高于 baseline 的 0.814,也强于 InternVL/Gemma 的 visual+ASR 变体。

消融实验

消融 Ref-P Ref-R Ref-F1 Cite-P Cite-R Cite-F1 Avg 结论
CRAFT full 0.760 0.810 0.783 0.935 0.512 0.635 0.739 完整系统
Qwen3-Omni-30B-A3B 替代 ASR-based backbone 0.745 0.761 0.735 0.878 0.346 0.471 0.656 直接音频输入不如显式 ASR 转写
Qwen 替代 UNLI 0.732 0.788 0.759 0.874 0.469 0.601 0.704 专门 temporal entailment 对 citation 很重要
Qwen 替代 Llama-3.2-3B adjudicator 0.763 0.812 0.787 0.937 0.516 0.619 0.732 3B adjudicator 已足够
Qwen unified critic,无 MNLI screen 0.743 0.798 0.770 0.909 0.493 0.619 0.722 NLI 预筛选提供了泛化 prompt 难替代的信号

关键发现

  • Atomic claim formatting 是 MAGMaR precision 的关键,从 baseline Ref-P 0.437 提升到 0.808。
  • ASR 是补足召回和 citation 的核心来源。加入 ASR 后 Ref-R 达到 0.810,Cite-F1 从 0.426 提升到 0.635。
  • 显式 ASR transcript 比直接音频条件化更适合 claim-centric verification,因为名字、日期和数字可以被后续文本 verifier 直接检查。
  • 低帧预算下 DKS 能提升 precision,例如 MAGMaR reduced-frame DKS 的 Ref-P 为 0.822,高于 uniform 的 0.775,但 recall 可能下降,说明关键帧选择仍有覆盖性问题。
  • 辅助生成质量上,CRAFT 在 MAGMaR 的 ROUGE-L/BERTScore/AnsRel 为 0.1839/0.1709/0.6504,在 WikiVideo 为 0.3014/0.2683/0.6664,均高于对比 VLM。

亮点与洞察

  • 这篇论文最有价值的地方是把 grounded video QA 的中间表示变成 claim,而不是直接生成段落。claim 足够小,才能被模型、NLI 和 entailment scorer 逐条验证。
  • ASR 的作用被证明很强。新闻视频里大量事实来自讲话内容,visual-only VLM 很容易漏掉采访和播报信息。
  • critic loop 的设计很务实。UNLI、MNLI 和小 LLM 各司其职,不强行让一个大模型包办所有验证。
  • citation merging 是很贴合任务指标的工程设计。它避免同一事实重复写多次,同时保留多个支持来源,有利于 citation recall。

局限与展望

  • 召回和 citation recall 仍然困难。Full CRAFT 在 MAGMaR 上 Cite-R 只有 0.512,说明找到正确事实和把事实指到正确视频仍未完全解决。
  • 低资源语言 ASR 仍是脆弱点。系统会过滤低词汇多样性或重复严重的转写,这能减少噪声,但也可能丢掉资源稀缺语言中的有用信息。
  • DKS 在低帧预算下会提高 precision,但可能牺牲 recall;未来需要更好地平衡 query relevance 和广覆盖。
  • 未来方向包括更强跨视频检索、更鲁棒 multilingual ASR、更精确的 claim-to-video attribution,以及把人类评估反馈纳入系统调优。

相关工作与启发

  • vs uniform frame sampling VLM: 统一采样简单,但长视频中关键帧稀疏,容易漏证据;CRAFT 用 DKS 按 query 选择关键帧。
  • vs Video-RAG pipeline: 许多 Video-RAG 依赖单一视觉流或最终回答聚合;CRAFT 把 verification 提前到 claim extraction 阶段。
  • vs critic-driven video QA: 以往 verifier 常作为最终角色检查答案;CRAFT 在每个 query-video claim set 上迭代修正,粒度更细。
  • 对后续系统的启发: 多模态生成任务如果要求引用,应该优先设计可验证中间对象,并让最终生成器只能使用经过验证的 evidence packet。

评分

  • 新颖性: ⭐⭐⭐⭐ 单个组件多有前例,但把 ASR、DKS、claim critic 和 citation merging 组合成完整系统很扎实。
  • 实验充分度: ⭐⭐⭐⭐ 覆盖 MAGMaR 和 WikiVideo,并有多项系统消融;人类评估放在附录,主文更偏自动指标。
  • 写作质量: ⭐⭐⭐⭐ 方法流程清楚,指标解释充分;表格较密集,读者需要关注 MAGMaR 和 WikiVideo 设置差异。
  • 价值: ⭐⭐⭐⭐ 对需要“回答 + 引用”的视频 RAG / 新闻分析系统很有参考价值,尤其是 claim-centric evidence pipeline。