跳转至

Multimodal Fact-Level Attribution for Verifiable Reasoning

会议: ICML 2026
arXiv: 2602.11509
代码: github.com/meetdavidwan/murgat
领域: 多模态VLM / 可验证推理 / 评测
关键词: 多模态归因, 引用质量评测, 原子事实分解, MURGAT-SCORE, 推理-引用解耦

一句话总结

MURGAT 是首个评测 MLLM 在多模态推理输出中"按事实粒度精确引用模态+时间段"能力的基准,搭配一个三步评估协议(可验证句识别 → 原子事实分解 → 归因质量)和高度与人工对齐的自动评测器 MURGAT-SCORE(Pearson 0.84),揭示了强模型即使答案对也常常胡乱引用,且强推理常以牺牲可验证引用为代价。

研究背景与动机

领域现状:MLLM 越来越多被用在多步推理 + 长文回答的现实任务上(视频问答、医学报告、教育演示),可靠部署要求输出"可追溯"——即每个事实性主张都能映射回输入的某个模态、某个时间段。现有文本归因(Gao 2023b)和视频时序定位(Hendricks 2017、Lei 2021)已有不少工作,但侧重观察式或检索式(直接定位"出现在哪一帧")的简单场景。

现有痛点:(1) 现有评测要么只测视觉一种模态,要么只测整体源级(whole-video)粒度,不区分"可观察句"与"推理句",导致模型即便给出错误时间戳也容易得高分;(2) 真实任务需要跨视频 + 音频 + 图表等异构模态联合归因,且需要按"原子事实"细粒度评估;(3) 主流"先生成 → 后归因"管道往往会牺牲推理质量来换引用质量。

核心矛盾:内部 latent 推理过程 与 可验证的 surface 引用 在 MLLM 里是脱节的——更长的思考往往让最终引用更难追踪;越严格的引用要求又会扼杀复杂推理能力。

本文目标:(1) 构造能区分"观察 vs 推理"的细粒度多模态归因基准;(2) 给出一个高度与人工对齐的自动评测器,让大规模 benchmark 可负担;(3) 系统刻画 reasoning effort、模型规模、归因策略与最终归因质量的关系。

切入角度:把响应分成三层处理——只对可观察句要求引用,把句子拆成原子事实做精度/召回评估,并明确区分模态和时间段。这样可以把"推理质量"与"引用质量"完全解耦评测,从而暴露它们之间的 trade-off。

核心 idea:把可验证多模态归因评测重构成"句级筛选 → 原子事实分解 + 引用传播 → 集合化的 precision/recall 蕴含验证"三阶段流水线,用 MLLM-as-judge 选最优自动评估器并校准到人工。

方法详解

整体框架

任务:给定多模态输入 \(I\)(视频/音频/图表)+ 问题 \(Q\),MLLM 生成响应 \(R=\{r_i\}\);对每个可验证句子 \(r_i\) 还需给出引用集 \(C_i = \{c_i^j\}\),每个 \(c_i^j\) 指定模态 + 时间段(如 (audio, 0:42-0:46))。评测分三步:(1) Verifiable Claim Identification —— 用 LLM verifier 判定 \(r_i\) 是否可观察,过滤掉推理句;(2) Atomic Fact Decomposition —— 把可验证句分解为原子事实集 \(A_i = \{a_i^1, \ldots, a_i^n\}\),并通过 decontextualization 把代词替换成具体实体;同时把句级 \(C_i\) 传播到每个原子事实;(3) Attribution Quality —— 对每个 \((a_i^j, C_i)\) 做双向蕴含校验,算 recall(联合引用是否完全支持事实)+ precision(每个引用是否严格必要)。

关键设计

  1. 可验证句识别:把"观察"和"推理"分开

    • 功能:避免对推理句强制要求引用,也避免模型靠"在推理句上不引用"白嫖高分。
    • 核心思路:LLM verifier 判断每个句子 \(r_i\) 是否可以从 \(I\) 中直接观察到,得到 \(R_v = \{r_i \in R \mid \text{Verifier}(r_i, I) = \text{True}\}\)。例如"录像明确把推力定义为正向(音频 0:42-0:46,视觉 0:45)"是可验证句应保留;"因此该说法不正确"是推理句应丢弃。然后只在带引用的可验证句子集 \(R_{vc} = \{r_i \in R_v \mid C_i \neq \emptyset\}\) 上做后续评估。
    • 设计动机:传统归因评测把所有句子一视同仁,要么逼着模型在推理句上硬塞引用(破坏推理质量),要么把推理句作为"不可归因"罚分(不公平)。先做这一层过滤,让 precision/recall 只在"该有引用的地方"算,是这套评测协议最关键的工程取舍。
  2. 原子事实分解 + 引用传播 + decontextualization

    • 功能:把"一句话可能包含多个事实"的混淆消除,让 precision/recall 在最细粒度上计算。
    • 核心思路:对每个 \(r_i \in R_{vc}\),调用 LLM 分解器拆成原子事实 \(\{a_i^1, \ldots, a_i^n\}\),每个原子事实必须是"最小、可独立验证"的claim;同时做 decontextualization 把代词解析回具体实体;最后把句级引用集 \(C_i\) 复制到所有原子事实,得到 pair 集 \(\{(a_i^j, C_i)\}\)
    • 设计动机:单纯句级评估会让"对一半错一半"的复合句拿到不准确分数;引用传播保留了原始句子的引用上下文,不需要 MLLM 在生成时按原子粒度分别引用(不现实);decontextualization 是 FActScore(Min 2023)已经被验证有效的做法,本文按需扩展到多模态。
  3. 集合化的双向蕴含 + MURGAT-SCORE 校准

    • 功能:把"引用是否足够支持事实"和"每个引用是否必要"两个角度都覆盖,并选一个最接近人工评判的 MLLM judge。
    • 核心思路:对每个 \((a_i^j, C_i)\),先用 MLLM 判定 \(C_i\) 联合是否蕴含 \(a_i^j\)(recall);若蕴含则进一步逐个 \(c_i^k\) 测试是否严格必要(precision,类似 leave-one-out)。整体指标 MURGAT-S 综合 coverage = \(|R_{vc}|/|R_v|\) + precision/recall/F1。作者在 WorldSense 与 Video-MMMU 两个数据集上收集了完整三任务的人工标注,扫描多个 MLLM 作为 judge(Gemini-2.5-Flash、Gemini-3-Flash/Pro、Qwen3-Omni-Instruct/Thinking),最后选出 Pearson r=0.84 的最优 judge 组合,显著超过 next-best LLM-as-judge (r=0.59)。
    • 设计动机:双向校验避免"塞一堆冗余引用就拿高 recall"的作弊;引用按"模态+时间段"对齐是多模态归因的本质差异点;用人类标注校准 judge 是把 MLLM-as-judge 从主观估计变成可信代理评测的必要步骤。

损失函数 / 训练策略

本文不训练模型,只构建评测协议;MURGAT-SCORE 是评测指标。可选研究方向是 programmatic 解耦推理与引用的 inference-time 方法(先推理 → 后单独抽引用),论文实验中已经验证可提升 +9.6 MURGAT-S 但代价是答案准确率下降。

实验关键数据

主实验

在 WorldSense + Video-MMMU 上评测多种强 MLLM。

模型 QA 准确率 MURGAT-S 现象
Gemini-3-Pro 大模型 + 更多思考 → 引用更准
Gemini-2.5-Flash 答案对但引用经常错或缺
Qwen3-Omni-Instruct 偏低 单步指令版引用质量一般
Qwen3-Omni-Thinking 略升 反而下降 小模型加思考 → 引用更乱
解耦 "先推理 → 后抽引用" pipeline 答案略降 +9.6 系统性 trade-off

消融实验

配置 关键现象 说明
不做 Verifiable Claim Identification 推理句被惩罚 precision/recall 失真
不做原子分解 句级评估,复合句不公平 部分对部分错被打高分
不做引用 leave-one-out precision 失效 模型用大量冗余引用刷分
Judge 用 GPT-4o-mini 单模型 r=0.59 比最优组合显著差
Judge 用 Gemini-3-Pro + 校准 r=0.84 MURGAT-S 最终设置

关键发现

  • "推理税"现象:在简单识别任务上加引用要求会降低 QA 准确率(reasoning tax),但在复杂推理任务上反而有 scaffold 作用——结构化引用强制模型把推理链拆细。
  • 模型规模与 effort 的交互:Gemini-3-Pro 在加大思考预算后 MURGAT-S 仍涨;小模型(Qwen3-Omni-Thinking)反而越想越偏,可能是 latent 推理与 surface 引用脱节。
  • 强模型即使 QA 正确,引用错误率也很高(hallucinated grounding),说明 MLLM 内部"知道答案"和"知道在哪看到答案"是两个不同能力。

亮点与洞察

  • "可验证 vs 推理句"显式区分:把归因评测从"对所有句子苛求"重新定义为"只对该验证的句子评测",是这篇工作最关键的协议设计,给后续多模态归因研究确立了评测范式。
  • 原子事实 + 模态+时间戳引用:把文本归因里的 FActScore 思路严格扩展到多模态(必须指出"在视频 1:16 的画面"或"在音频 0:42-0:46"),且 leave-one-out 校验严防冗余引用,评测稳健性比之前的源级归因强很多。
  • MURGAT-SCORE 与人工高一致:r=0.84 的 LLM-as-judge 让大规模自动化评测可行;同时其多 judge 校准方法可迁移到任何需要 MLLM 作为 evaluator 的设定。

局限与展望

  • 评测依赖 LLM verifier / decomposer / entailment judge,本身可能引入偏差;尽管做了人工校准,跨域泛化仍存在风险。
  • 数据集主要来自 WorldSense 与 Video-MMMU,对其他模态组合(如医学影像 + 病历 + 实验图谱)的可扩展性需要验证。
  • 没有从训练侧提出方案——如何让 MLLM 在不损失推理的前提下学到准确引用,是个开放问题;论文只展示"解耦 pipeline" trade-off 但没系统训练。
  • 引用粒度(时间段)依赖人工分段精度;模糊边界的事实可能给 precision 引入噪声。

相关工作与启发

  • vs MCiteBench / MAVIS:它们关注图像级 VQA + 文档级证据,模态单一且粒度粗;MURGAT 强制模态 + 时间段双标签,且加入音频/图表。
  • vs MIRAGE:MIRAGE 用原子分解 + VLM 校验做多模态 RAG,发现强模型也常胡乱引用;MURGAT 的协议更细(区分 verifiable vs reasoning),且引用粒度到时间段。
  • vs 视频时序定位(Hendricks 2017、Lei 2021):传统视频定位假设目标段已经在 prompt 里指定;本文要求模型自己选证据,更贴近真实推理任务。
  • vs FActScore (Min 2023):原子事实分解的灵感直接来自 FActScore,但扩展到多模态 + 引用集合的双向校验。

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 把"可验证 vs 推理"显式分离 + 多模态时间段级引用,是这一领域第一次完整闭环。
  • 实验充分度: ⭐⭐⭐⭐ 覆盖多个强模型 + 解耦 pipeline + reasoning effort scan,但只有 2 个数据集。
  • 写作质量: ⭐⭐⭐⭐⭐ 图 1 把整个协议直观呈现,定义和示例非常清晰。
  • 价值: ⭐⭐⭐⭐⭐ 给可信 MLLM 部署的可验证性研究提供了基础设施,会被后续工作广泛引用。