跳转至

Attribution, Citation, and Quotation: A Survey of Evidence-based Text Generation with Large Language Models

会议: ACL 2026
arXiv: 2508.15396
代码: https://github.com/faerber-lab/AttributeCiteQuote
领域: 综述/NLP
关键词: 证据基础文本生成, 引用归因, LLM可信性, 评估框架, RAG

一句话总结

本文系统综述了 134 篇关于 LLM 证据基础文本生成的论文,首次提出统一分类学(归因方式 × 引用特征 × 任务),分析了 300 个评估指标并归纳为七大维度六种方法,为该碎片化领域提供了全景式参考框架。

研究背景与动机

领域现状:LLM 面临幻觉生成和知识局限等可信性挑战,越来越多研究关注"证据基础文本生成"——让 LLM 输出可追溯到支撑证据。但该领域高度碎片化:有的叫"引用"(citation, 75% 论文使用),有的叫"归因"(attribution, 62%),有的叫"引述"(quotation, 13%),且各自评估实践孤立。

现有痛点:(1) 缺乏统一术语和分类体系,研究者难以定位自己的工作;(2) 评估标准不一致——300 个指标但仅 2 个框架(ALCE、G-Eval)被多篇论文复用;(3) RAG 虽然流行但仅是七种相关方法之一,过度聚焦 RAG 会遗漏其他重要方法。

核心矛盾:快速增长的研究兴趣(2024 年论文数是 2023 年的 3.4 倍,75% 论文发表在 2023 年之后)vs. 缺乏统一视角来整合和比较不同方法。

本文目标:提供第一个专门针对 LLM 证据基础文本生成的系统性综述,建立统一分类学,分析评估实践,识别研究趋势和未来方向。

切入角度:采用 PRISMA 协议进行系统映射研究,从 805 篇去重论文中筛选出 134 篇相关论文,使用多面分类方法构建分类学。

核心 idea:将"引用"、"归因"和"引述"统一为"证据基础文本生成"范式,通过三维分类学和七维评估框架为碎片化领域提供系统化视角。

综述框架/分类体系

整体分类学

本文提出三维独立分类学,捕捉证据基础文本生成的核心设计选择:

  • 维度一:归因方式 — 内容如何关联到证据(参数式 vs. 非参数式)
  • 维度二:引用特征 — 证据的形式和呈现(模态、粒度、样式、可见性、频率)
  • 维度三:任务 — 应用场景(QA、接地生成、摘要等六类任务)

关键分类维度

  1. 归因方式 (Attribution Approach):

    • 功能:描述 LLM 如何将生成内容关联到支撑证据
    • 核心分类:参数式(25 篇)——纯 LLM(利用现有能力,占参数式的 72%)、模型中心(修改架构/训练)、数据中心(策划/增强数据)。非参数式(126 篇)——后检索(58%,RAG 为代表)、后生成(18%,先生成再检索证据)、生成中(4%,动态判断是否需要检索)、上下文内(20%,用户直接提供证据)
    • 关键发现:参数式归因严重不足,模型和数据中心方法尤其缺乏关注。非参数式中后检索占主导,但生成中归因(如 Self-RAG)是有前景但被低估的新方向
  2. 引用特征 (Citation Characteristics):

    • 功能:描述证据的具体呈现方式
    • 核心分类:引用模态——文本 96%、图表、表格、视觉。证据级别——文档级 43%、段落级 40%、句子级 12%、token 级 2%。引用样式——行内引用 62%、引用报告、段落展示、叙述性引用、高亮梯度、引述。可见性——最终回复 91% vs. 中间文本。频率——多重引用 64% vs. 单一引用
    • 关键发现:非文本证据模态(图表、表格、图像)严重未开发(仅 4%);细粒度证据(句子级、token 级)虽占比小但增长更快
  3. 任务分布 (Task Landscape):

    • 功能:映射该领域的应用场景
    • 核心分类:QA 和接地文本生成为主导任务,摘要、事实验证为中等,引用文本生成和相关工作生成为新兴任务
    • 关键发现:评估实践主要围绕 QA 任务开发,可能不适用于新兴任务(如引用文本生成需要更多关于引用选择推理的评估)

LLM 集成方式

训练(45% 论文使用):以监督微调为主,主要用于改善归因行为。预训练较少使用。 提示(78% 论文使用):以零/少样本提示为主。专门针对引用行为的策略包括 chain-of-citation、chain-of-quote 和 conflict-aware 提示。

文献分析/覆盖范围

评估指标体系

300 个指标按七大评估维度分类

评估维度 何时使用 主要方法 代表指标(复用次数)
归因 (Attribution) 无标注证据时 NLI 为主 Citation NLI P/R/F1 (33/33/16), Auto-AIS (11), FActScore (7)
引用 (Citation) 有标注证据时 检索为主 Citation Retrieval P/R/F1 (6/6/5), Citation Accuracy (2)
正确性 (Correctness) 始终需要 词汇重叠/NLI Exact Match (12), BLEU-N (5), Claim Recall (17)
语言质量 模型被修改时 LLM-as-Judge G-Eval Fluency (4), MAUVE (21), Perplexity (4)
保留度 后生成归因时 词汇重叠 Preservation-Levenshtein (3), F1-AP (2)
相关性 用户场景 LLM-as-Judge G-Eval Relevance (3), RAGAS (2)
检索 非参数归因时 检索指标 P@k (4), R@k (4), MRR (3)

评估指导原则

维度类别 何时评估 说明
核心维度 归因或引用 + 正确性 始终应评估正确性;归因和引用根据证据可用性二选一
上下文维度 语言质量、保留度、相关性、检索 取决于任务设计和系统架构

关键发现

  • 仅 2 个框架(ALCE、G-Eval)和 2 个基准被多篇论文复用,评估标准化严重不足
  • 134 篇论文中识别出 19 个框架、11 个基准和 231 个数据集
  • 文本在引用模态中占 96%,多模态证据几乎空白
  • 参数式归因虽然对理解模型内部知识和数据溯源至关重要,但严重被忽视
  • 人工评估在正确性维度仍占主导,反映了自动指标在捕捉语义错误方面的局限

亮点与洞察

  • 将"引用"、"归因"和"引述"统一为"证据基础文本生成"是重要的概念贡献,消除了长期的术语混乱
  • 七维评估指南(Table 1)为实践者提供了清晰的指标选择建议——核心维度 vs. 上下文维度的区分极为实用
  • 参数式归因的三分法(纯 LLM / 模型中心 / 数据中心)比此前的二分法更精细
  • 识别出生成中归因(in-generation)作为有前景但被低估的方向——仅占 4% 但代表了更紧密集成检索和生成的趋势
  • 指出了引用行为可能存在类似人类作者的偏差,呼吁研究 LLM 引用推理的可解释性

局限与展望

  • 单一搜索字符串可能遗漏部分相关研究(敏感性分析显示仅 4% 额外发现)
  • 仅覆盖英文论文,可能低估非英语研究
  • 人工筛选和分类不可避免引入一定主观性
  • 四大未来方向:(1) 参数式和混合归因的深入研究;(2) 标准化评估框架(当前 300 指标仅 2 框架被复用);(3) 可解释的引用推理——理解 LLM 为何选择特定来源;(4) 多模态证据支持——从 96% 文本向图表、表格、图像扩展

相关工作与启发

  • vs Li et al. (2023a): 唯一先前相关综述,但已严重过时(75%+ 论文发表在其之后),且未覆盖完整范式
  • vs Huang & Chang (2024): 立场论文仅强调引用重要性,未系统综述
  • vs RAG surveys: RAG 综述仅覆盖后检索这一种方法,本文覆盖七种归因方式
  • vs 幻觉/接地综述: 聚焦不同侧面,本文专注于证据生成而非检测

评分

  • 新颖性: ⭐⭐⭐⭐ 首次对证据基础文本生成进行全面统一分类,三维分类学设计合理
  • 实验充分度: ⭐⭐⭐⭐⭐ 134 篇论文、300 个指标、19 框架、231 数据集、11 基准的覆盖范围极全面
  • 写作质量: ⭐⭐⭐⭐⭐ 结构清晰,多维度分析平衡,每节附有精炼的 "Takeaways" 总结
  • 价值: ⭐⭐⭐⭐⭐ 对快速增长但碎片化领域的全景梳理,对研究者和实践者都有重要参考价值