Can LLMs Evaluate Complex Attribution in QA? Automatic Benchmarking using Knowledge Graphs¶
会议: ACL 2025
arXiv: 2401.14640
领域: 图学习
关键词: 归因评估, 知识图谱, 问答系统, 大语言模型, 基准构建
一句话总结¶
提出 CAQA 基准,利用知识图谱自动生成包含四类归因类别(支持、部分支持、矛盾、无关)与四种推理复杂度的大规模问答归因评估数据集(161K 样本),系统评测 25 种自动归因评估器,揭示"部分支持"识别与复杂推理场景为当前评估器的核心瓶颈。
研究背景与动机¶
核心问题: 归因问答(Attributed QA, AQA)旨在让模型生成答案的同时提供引用证据以缓解幻觉,但即使 Bing Chat、Perplexity 等最先进系统仍频繁产生错误归因,急需可靠的自动归因评估方法。
现有基准的三大缺陷:
| 缺陷 | 具体表现 | 代表基准 |
|---|---|---|
| 归因类别不完整 | 大多仅区分"支持/不支持"二分类,少数增加"部分支持"但规模小且依赖人工 | HAGRID (2.6K), ExpertQA (2.2K) |
| 忽视归因复杂度 | 未考虑需要多条证据、多步推理才能验证答案的复杂场景 | ALCE (800 样本) |
| 依赖人工标注 | 人工标注成本高、效率低,难以扩展到大规模 | AttrEval-Gen (242 样本) |
关键观察: 作者分析实际 AQA 系统输出,发现错误归因可细分为三类——部分支持(证据缺少部分事实)、矛盾(证据与答案冲突)、无关(证据与答案无关),且现实场景中常需跨多条证据进行 union、intersection、concatenation 等逻辑推理,这些维度在现有基准中完全缺失。
解决思路: 利用知识图谱(KG)的结构化事实和 KGQA 数据集中现成的查询-答案对,通过子图编辑策略自动生成四类归因类别,通过查询扩展引入四级推理复杂度,构建大规模、无需人工标注的归因评估基准。
方法详解¶
整体框架¶
CAQA 构建流程由四个步骤组成:(1) 从 KGQA 数据集收集基本逻辑查询;(2) 使用交集/并集运算扩展查询复杂度;(3) 将查询在 KG 中接地,通过子图编辑生成四类归因;(4) 使用 ChatGPT 将结构化子图转换为自然语言引用文本。
关键设计¶
1. 基于知识图谱子图编辑的四类归因生成策略
从 KGQA 数据集(GrailQA、WebQuestionsSP)收集三类基本查询(单三元组、路径、树形),将扩展查询在 Freebase KG 中接地获得完整子图 \(\mathcal{G}\) 作为支持归因,随后通过三种编辑策略生成负类归因:部分支持——对子图进行部分删除(路径查询随机删除一个三元组,树形查询删除一条路径),使证据不完整;矛盾——将答案实体替换为同类型非答案实体,使推理结果与答案冲突;无关——从 KG 中选取结构相似但实体无关的子图,仅保留主语实体。
2. 基于查询扩展的四级推理复杂度
定义四级归因复杂度以解耦评估器的推理能力:Single(单条引用即可验证)、Union(答案由多条独立引用的并集推出)、Intersection(答案由共享实体的多条引用的交集推出)、Concatenation(答案由链式引用推出)。查询扩展规则为:单三元组查询使用 union 扩展(检索同名实体生成并集查询),路径查询和树形查询使用 intersection 扩展(附加新的约束三元组或目标约束),各操作等概率应用。
3. 自动化数据生成流水线
使用 ChatGPT 执行三项转换:将编辑后的 KG 子图转换为自然语言引用文本,将扩展后的逻辑查询转换为自然语言问题,将答案实体改写为完整的答案陈述。最终生成的每条样本包含五个字段:问题 \(q\)、答案陈述 \(\tilde{a}\)、引用文本 \(c\)、归因类别标签 \(t\) 和复杂度标签 \(r\),实现了从结构化知识到自然语言归因评估数据的端到端自动化。
实验关键数据¶
数据集统计¶
| 维度 | 类别 | 训练集 | 测试集 | 总计 |
|---|---|---|---|---|
| 归因类别 | 支持 (Sup.) | 39,489 | 6,668 | 46,157 |
| 部分支持 (Par.) | 28,868 | 5,065 | 33,933 | |
| 矛盾 (Con.) | 36,620 | 6,423 | 43,043 | |
| 无关 (Irr.) | 32,234 | 5,807 | 38,041 | |
| 复杂度 | Single | 73,795 | 10,443 | 84,238 |
| Concatenation | 46,783 | 8,455 | 55,238 | |
| Union | 5,347 | 886 | 6,233 | |
| Intersection | 11,286 | 4,179 | 15,465 | |
| 总计 | — | 137,211 | 23,963 | 161,174 |
主实验结果¶
Zero-shot 各类别 F1 分数:
| 评估器 | 支持 | 部分支持 | 矛盾 | 无关 | 总体 |
|---|---|---|---|---|---|
| GPT-4 | 0.771 | 0.456 | 0.745 | 0.473 | 0.630 |
| GPT-4o | 0.769 | 0.445 | 0.598 | 0.626 | 0.630 |
| Qwen-2.5 (72B) | 0.629 | 0.266 | 0.701 | 0.471 | 0.571 |
| Gemma-2 (27B) | 0.653 | 0.184 | 0.569 | 0.646 | 0.566 |
| LLaMA-3.1 (70B) | 0.688 | 0.168 | 0.547 | 0.609 | 0.544 |
| LLaMA-3.1 (8B) | 0.544 | 0.049 | 0.130 | 0.017 | 0.318 |
| AutoIS (11B) | 0.609 | — | — | — | — |
| AttrScore (13B) | 0.687 | — | 0.523 | 0.541 | 0.521 |
Fine-tuning 设置 F1 分数:
| 评估器 | 支持 | 部分支持 | 矛盾 | 无关 | 总体 |
|---|---|---|---|---|---|
| LLaMA-3 (8B) | 0.935 | 0.901 | 0.935 | 0.928 | 0.926 |
| LLaMA-3.1 (8B) | 0.946 | 0.919 | 0.944 | 0.934 | 0.941 |
| Mistral-v0.3 (7B) | 0.944 | 0.921 | 0.947 | 0.935 | 0.942 |
| Vicuna (13B) | 0.942 | 0.923 | 0.939 | 0.923 | 0.933 |
关键发现¶
- 部分支持是最难识别的类别:即使最强的 GPT-4 在 zero-shot 下仅 0.456 F1,评估器倾向于将"部分支持"误判为"支持"
- 关键词共现导致误判:评估器常因关键词重叠(如共现"video game"和实体名)而忽略语义关系差异,将无关或部分支持误判为支持
- 复杂推理场景挑战更大:GPT-4 在 Single 上 0.685 但 Concatenation 骤降至 0.451;非 GPT 模型在 union/intersection 场景下同样显著下降
- 少样本对大模型有益对小模型有限:≥70B 模型和 GPT 系列在 few-shot 下平均提升 4.84%,小模型几乎无提升甚至下降
- 自动标注与人工高度一致:自动生成类别与人工标注的 Pearson 相关系数达 0.97
- 跨分布泛化:在 OOD 测试集 ALCE-FineGrained 上,CAQA 微调的 Vicuna-13B 总体 F1=0.52 优于 AttrScore 的 0.36
亮点与洞察¶
- 基于 KG 子图编辑的自动化方法将 KGQA 数据集作为归因生成的结构化骨架,避免人工标注成本,且天然保证标签正确性
- "部分支持"类别填补现有基准的关键空白——实际系统中大量错误属于"证据不完整但不矛盾",现有二分类基准完全无法捕捉
- 复杂度维度的引入首次将归因评估与推理复杂度解耦,揭示评估器在多步推理场景下的根本弱点
- 微调后 7-8B 小模型即可达到 90%+ F1,证明归因评估能力可高效学习,不仅依赖模型规模
- 161K 规模为归因评估研究提供了迄今最大的训练/测试资源
局限性¶
- 基于 Freebase KG,主要涵盖事实性知识问答,对观点性、时序推理、数学推理等场景覆盖不足
- 自然语言转换依赖 ChatGPT,生成引用文本可能存在模式化倾向,与真实网页引用多样性有差距
- 部分支持类别在单三元组查询下无法生成(删除唯一三元组后变为无关),导致 Single 复杂度下该类别覆盖不足
- 仅使用交集和并集两种逻辑运算,未考虑否定(Negation)等更复杂的逻辑操作
相关工作¶
- 归因问答: Menick et al. (2022) 训练归因模型;Gao et al. (2023) 提出 ALCE 基准;RAG 系统通过检索增强归因
- 归因评估: AutoIS (Honovich et al., 2022) 和 AttrScore (Yue et al., 2023) 为代表的自动评估器;HAGRID、ExpertQA、AttributionBench 等基准
- 知识图谱问答: GrailQA、WebQuestionsSP 提供结构化查询-答案对
- 幻觉检测: FActScore (Min et al., 2023) 提出子事实级别评估框架
评分¶
- 新颖性: ★★★★☆ — 首个结合 KG 自动生成四类归因 + 四级复杂度的基准,方法论创新显著
- 技术深度: ★★★★☆ — 查询扩展和子图编辑策略设计精巧,逻辑严密完整
- 实验充分性: ★★★★★ — 25 种评估器、三种设置、OOD 测试、人工一致性验证,极其全面
- 实用价值: ★★★★☆ — 161K 数据集为归因评估研究提供重要资源,微调方案可直接落地