跳转至

Can LLMs Evaluate Complex Attribution in QA? Automatic Benchmarking using Knowledge Graphs

会议: ACL 2025
arXiv: 2401.14640
领域: 图学习
关键词: 归因评估, 知识图谱, 问答系统, 大语言模型, 基准构建

一句话总结

提出 CAQA 基准,利用知识图谱自动生成包含四类归因类别(支持、部分支持、矛盾、无关)与四种推理复杂度的大规模问答归因评估数据集(161K 样本),系统评测 25 种自动归因评估器,揭示"部分支持"识别与复杂推理场景为当前评估器的核心瓶颈。

研究背景与动机

核心问题: 归因问答(Attributed QA, AQA)旨在让模型生成答案的同时提供引用证据以缓解幻觉,但即使 Bing Chat、Perplexity 等最先进系统仍频繁产生错误归因,急需可靠的自动归因评估方法。

现有基准的三大缺陷:

缺陷 具体表现 代表基准
归因类别不完整 大多仅区分"支持/不支持"二分类,少数增加"部分支持"但规模小且依赖人工 HAGRID (2.6K), ExpertQA (2.2K)
忽视归因复杂度 未考虑需要多条证据、多步推理才能验证答案的复杂场景 ALCE (800 样本)
依赖人工标注 人工标注成本高、效率低,难以扩展到大规模 AttrEval-Gen (242 样本)

关键观察: 作者分析实际 AQA 系统输出,发现错误归因可细分为三类——部分支持(证据缺少部分事实)、矛盾(证据与答案冲突)、无关(证据与答案无关),且现实场景中常需跨多条证据进行 union、intersection、concatenation 等逻辑推理,这些维度在现有基准中完全缺失。

解决思路: 利用知识图谱(KG)的结构化事实和 KGQA 数据集中现成的查询-答案对,通过子图编辑策略自动生成四类归因类别,通过查询扩展引入四级推理复杂度,构建大规模、无需人工标注的归因评估基准。

方法详解

整体框架

CAQA 构建流程由四个步骤组成:(1) 从 KGQA 数据集收集基本逻辑查询;(2) 使用交集/并集运算扩展查询复杂度;(3) 将查询在 KG 中接地,通过子图编辑生成四类归因;(4) 使用 ChatGPT 将结构化子图转换为自然语言引用文本。

关键设计

1. 基于知识图谱子图编辑的四类归因生成策略

从 KGQA 数据集(GrailQA、WebQuestionsSP)收集三类基本查询(单三元组、路径、树形),将扩展查询在 Freebase KG 中接地获得完整子图 \(\mathcal{G}\) 作为支持归因,随后通过三种编辑策略生成负类归因:部分支持——对子图进行部分删除(路径查询随机删除一个三元组,树形查询删除一条路径),使证据不完整;矛盾——将答案实体替换为同类型非答案实体,使推理结果与答案冲突;无关——从 KG 中选取结构相似但实体无关的子图,仅保留主语实体。

2. 基于查询扩展的四级推理复杂度

定义四级归因复杂度以解耦评估器的推理能力:Single(单条引用即可验证)、Union(答案由多条独立引用的并集推出)、Intersection(答案由共享实体的多条引用的交集推出)、Concatenation(答案由链式引用推出)。查询扩展规则为:单三元组查询使用 union 扩展(检索同名实体生成并集查询),路径查询和树形查询使用 intersection 扩展(附加新的约束三元组或目标约束),各操作等概率应用。

3. 自动化数据生成流水线

使用 ChatGPT 执行三项转换:将编辑后的 KG 子图转换为自然语言引用文本,将扩展后的逻辑查询转换为自然语言问题,将答案实体改写为完整的答案陈述。最终生成的每条样本包含五个字段:问题 \(q\)、答案陈述 \(\tilde{a}\)、引用文本 \(c\)、归因类别标签 \(t\) 和复杂度标签 \(r\),实现了从结构化知识到自然语言归因评估数据的端到端自动化。

实验关键数据

数据集统计

维度 类别 训练集 测试集 总计
归因类别 支持 (Sup.) 39,489 6,668 46,157
部分支持 (Par.) 28,868 5,065 33,933
矛盾 (Con.) 36,620 6,423 43,043
无关 (Irr.) 32,234 5,807 38,041
复杂度 Single 73,795 10,443 84,238
Concatenation 46,783 8,455 55,238
Union 5,347 886 6,233
Intersection 11,286 4,179 15,465
总计 137,211 23,963 161,174

主实验结果

Zero-shot 各类别 F1 分数:

评估器 支持 部分支持 矛盾 无关 总体
GPT-4 0.771 0.456 0.745 0.473 0.630
GPT-4o 0.769 0.445 0.598 0.626 0.630
Qwen-2.5 (72B) 0.629 0.266 0.701 0.471 0.571
Gemma-2 (27B) 0.653 0.184 0.569 0.646 0.566
LLaMA-3.1 (70B) 0.688 0.168 0.547 0.609 0.544
LLaMA-3.1 (8B) 0.544 0.049 0.130 0.017 0.318
AutoIS (11B) 0.609
AttrScore (13B) 0.687 0.523 0.541 0.521

Fine-tuning 设置 F1 分数:

评估器 支持 部分支持 矛盾 无关 总体
LLaMA-3 (8B) 0.935 0.901 0.935 0.928 0.926
LLaMA-3.1 (8B) 0.946 0.919 0.944 0.934 0.941
Mistral-v0.3 (7B) 0.944 0.921 0.947 0.935 0.942
Vicuna (13B) 0.942 0.923 0.939 0.923 0.933

关键发现

  1. 部分支持是最难识别的类别:即使最强的 GPT-4 在 zero-shot 下仅 0.456 F1,评估器倾向于将"部分支持"误判为"支持"
  2. 关键词共现导致误判:评估器常因关键词重叠(如共现"video game"和实体名)而忽略语义关系差异,将无关或部分支持误判为支持
  3. 复杂推理场景挑战更大:GPT-4 在 Single 上 0.685 但 Concatenation 骤降至 0.451;非 GPT 模型在 union/intersection 场景下同样显著下降
  4. 少样本对大模型有益对小模型有限:≥70B 模型和 GPT 系列在 few-shot 下平均提升 4.84%,小模型几乎无提升甚至下降
  5. 自动标注与人工高度一致:自动生成类别与人工标注的 Pearson 相关系数达 0.97
  6. 跨分布泛化:在 OOD 测试集 ALCE-FineGrained 上,CAQA 微调的 Vicuna-13B 总体 F1=0.52 优于 AttrScore 的 0.36

亮点与洞察

  • 基于 KG 子图编辑的自动化方法将 KGQA 数据集作为归因生成的结构化骨架,避免人工标注成本,且天然保证标签正确性
  • "部分支持"类别填补现有基准的关键空白——实际系统中大量错误属于"证据不完整但不矛盾",现有二分类基准完全无法捕捉
  • 复杂度维度的引入首次将归因评估与推理复杂度解耦,揭示评估器在多步推理场景下的根本弱点
  • 微调后 7-8B 小模型即可达到 90%+ F1,证明归因评估能力可高效学习,不仅依赖模型规模
  • 161K 规模为归因评估研究提供了迄今最大的训练/测试资源

局限性

  • 基于 Freebase KG,主要涵盖事实性知识问答,对观点性、时序推理、数学推理等场景覆盖不足
  • 自然语言转换依赖 ChatGPT,生成引用文本可能存在模式化倾向,与真实网页引用多样性有差距
  • 部分支持类别在单三元组查询下无法生成(删除唯一三元组后变为无关),导致 Single 复杂度下该类别覆盖不足
  • 仅使用交集和并集两种逻辑运算,未考虑否定(Negation)等更复杂的逻辑操作

相关工作

  • 归因问答: Menick et al. (2022) 训练归因模型;Gao et al. (2023) 提出 ALCE 基准;RAG 系统通过检索增强归因
  • 归因评估: AutoIS (Honovich et al., 2022) 和 AttrScore (Yue et al., 2023) 为代表的自动评估器;HAGRID、ExpertQA、AttributionBench 等基准
  • 知识图谱问答: GrailQA、WebQuestionsSP 提供结构化查询-答案对
  • 幻觉检测: FActScore (Min et al., 2023) 提出子事实级别评估框架

评分

  • 新颖性: ★★★★☆ — 首个结合 KG 自动生成四类归因 + 四级复杂度的基准,方法论创新显著
  • 技术深度: ★★★★☆ — 查询扩展和子图编辑策略设计精巧,逻辑严密完整
  • 实验充分性: ★★★★★ — 25 种评估器、三种设置、OOD 测试、人工一致性验证,极其全面
  • 实用价值: ★★★★☆ — 161K 数据集为归因评估研究提供重要资源,微调方案可直接落地