Attribution, Citation, and Quotation: A Survey of Evidence-based Text Generation with Large Language Models¶

会议: ACL 2026
arXiv: 2508.15396
代码: https://github.com/faerber-lab/AttributeCiteQuote
领域: 综述/NLP
关键词: 证据基础文本生成, 引用归因, LLM可信性, 评估框架, RAG

一句话总结¶

本文系统综述了 134 篇关于 LLM 证据基础文本生成的论文，首次提出统一分类学（归因方式 × 引用特征 × 任务），分析了 300 个评估指标并归纳为七大维度六种方法，为该碎片化领域提供了全景式参考框架。

研究背景与动机¶

领域现状：LLM 面临幻觉生成和知识局限等可信性挑战，越来越多研究关注"证据基础文本生成"——让 LLM 输出可追溯到支撑证据。但该领域高度碎片化：有的叫"引用"（citation, 75% 论文使用），有的叫"归因"（attribution, 62%），有的叫"引述"（quotation, 13%），且各自评估实践孤立。

现有痛点：(1) 缺乏统一术语和分类体系，研究者难以定位自己的工作；(2) 评估标准不一致——300 个指标但仅 2 个框架（ALCE、G-Eval）被多篇论文复用；(3) RAG 虽然流行但仅是七种相关方法之一，过度聚焦 RAG 会遗漏其他重要方法。

核心矛盾：快速增长的研究兴趣（2024 年论文数是 2023 年的 3.4 倍，75% 论文发表在 2023 年之后）vs. 缺乏统一视角来整合和比较不同方法。

本文目标：提供第一个专门针对 LLM 证据基础文本生成的系统性综述，建立统一分类学，分析评估实践，识别研究趋势和未来方向。

切入角度：采用 PRISMA 协议进行系统映射研究，从 805 篇去重论文中筛选出 134 篇相关论文，使用多面分类方法构建分类学。

核心 idea：将"引用"、"归因"和"引述"统一为"证据基础文本生成"范式，通过三维分类学和七维评估框架为碎片化领域提供系统化视角。

综述框架/分类体系¶

整体分类学¶

本文提出三维独立分类学，捕捉证据基础文本生成的核心设计选择：

维度一：归因方式 — 内容如何关联到证据（参数式 vs. 非参数式）
维度二：引用特征 — 证据的形式和呈现（模态、粒度、样式、可见性、频率）
维度三：任务 — 应用场景（QA、接地生成、摘要等六类任务）

关键分类维度¶

归因方式 (Attribution Approach):
- 功能：描述 LLM 如何将生成内容关联到支撑证据
- 核心分类：参数式（25 篇）——纯 LLM（利用现有能力，占参数式的 72%）、模型中心（修改架构/训练）、数据中心（策划/增强数据）。非参数式（126 篇）——后检索（58%，RAG 为代表）、后生成（18%，先生成再检索证据）、生成中（4%，动态判断是否需要检索）、上下文内（20%，用户直接提供证据）
- 关键发现：参数式归因严重不足，模型和数据中心方法尤其缺乏关注。非参数式中后检索占主导，但生成中归因（如 Self-RAG）是有前景但被低估的新方向
引用特征 (Citation Characteristics):
- 功能：描述证据的具体呈现方式
- 核心分类：引用模态——文本 96%、图表、表格、视觉。证据级别——文档级 43%、段落级 40%、句子级 12%、token 级 2%。引用样式——行内引用 62%、引用报告、段落展示、叙述性引用、高亮梯度、引述。可见性——最终回复 91% vs. 中间文本。频率——多重引用 64% vs. 单一引用
- 关键发现：非文本证据模态（图表、表格、图像）严重未开发（仅 4%）；细粒度证据（句子级、token 级）虽占比小但增长更快
任务分布 (Task Landscape):
- 功能：映射该领域的应用场景
- 核心分类：QA 和接地文本生成为主导任务，摘要、事实验证为中等，引用文本生成和相关工作生成为新兴任务
- 关键发现：评估实践主要围绕 QA 任务开发，可能不适用于新兴任务（如引用文本生成需要更多关于引用选择推理的评估）

LLM 集成方式¶

训练（45% 论文使用）：以监督微调为主，主要用于改善归因行为。预训练较少使用。提示（78% 论文使用）：以零/少样本提示为主。专门针对引用行为的策略包括 chain-of-citation、chain-of-quote 和 conflict-aware 提示。

文献分析/覆盖范围¶

评估指标体系¶

300 个指标按七大评估维度分类

评估维度	何时使用	主要方法	代表指标（复用次数）
归因 (Attribution)	无标注证据时	NLI 为主	Citation NLI P/R/F1 (33/33/16), Auto-AIS (11), FActScore (7)
引用 (Citation)	有标注证据时	检索为主	Citation Retrieval P/R/F1 (6/6/5), Citation Accuracy (2)
正确性 (Correctness)	始终需要	词汇重叠/NLI	Exact Match (12), BLEU-N (5), Claim Recall (17)
语言质量	模型被修改时	LLM-as-Judge	G-Eval Fluency (4), MAUVE (21), Perplexity (4)
保留度	后生成归因时	词汇重叠	Preservation-Levenshtein (3), F1-AP (2)
相关性	用户场景	LLM-as-Judge	G-Eval Relevance (3), RAGAS (2)
检索	非参数归因时	检索指标	P@k (4), R@k (4), MRR (3)

评估指导原则¶

维度类别	何时评估	说明
核心维度	归因或引用 + 正确性	始终应评估正确性；归因和引用根据证据可用性二选一
上下文维度	语言质量、保留度、相关性、检索	取决于任务设计和系统架构

关键发现¶

仅 2 个框架（ALCE、G-Eval）和 2 个基准被多篇论文复用，评估标准化严重不足
134 篇论文中识别出 19 个框架、11 个基准和 231 个数据集
文本在引用模态中占 96%，多模态证据几乎空白
参数式归因虽然对理解模型内部知识和数据溯源至关重要，但严重被忽视
人工评估在正确性维度仍占主导，反映了自动指标在捕捉语义错误方面的局限

亮点与洞察¶

将"引用"、"归因"和"引述"统一为"证据基础文本生成"是重要的概念贡献，消除了长期的术语混乱
七维评估指南（Table 1）为实践者提供了清晰的指标选择建议——核心维度 vs. 上下文维度的区分极为实用
参数式归因的三分法（纯 LLM / 模型中心 / 数据中心）比此前的二分法更精细
识别出生成中归因（in-generation）作为有前景但被低估的方向——仅占 4% 但代表了更紧密集成检索和生成的趋势
指出了引用行为可能存在类似人类作者的偏差，呼吁研究 LLM 引用推理的可解释性

局限与展望¶

单一搜索字符串可能遗漏部分相关研究（敏感性分析显示仅 4% 额外发现）
仅覆盖英文论文，可能低估非英语研究
人工筛选和分类不可避免引入一定主观性
四大未来方向：(1) 参数式和混合归因的深入研究；(2) 标准化评估框架（当前 300 指标仅 2 框架被复用）；(3) 可解释的引用推理——理解 LLM 为何选择特定来源；(4) 多模态证据支持——从 96% 文本向图表、表格、图像扩展

评分¶

新颖性: ⭐⭐⭐⭐ 首次对证据基础文本生成进行全面统一分类，三维分类学设计合理
实验充分度: ⭐⭐⭐⭐⭐ 134 篇论文、300 个指标、19 框架、231 数据集、11 基准的覆盖范围极全面
写作质量: ⭐⭐⭐⭐⭐ 结构清晰，多维度分析平衡，每节附有精炼的 "Takeaways" 总结
价值: ⭐⭐⭐⭐⭐ 对快速增长但碎片化领域的全景梳理，对研究者和实践者都有重要参考价值