Attribution, Citation, and Quotation: A Survey of Evidence-based Text Generation with Large Language Models¶
会议: ACL 2026
arXiv: 2508.15396
代码: https://github.com/faerber-lab/AttributeCiteQuote
领域: 综述/NLP
关键词: 证据基础文本生成, 引用归因, LLM可信性, 评估框架, RAG
一句话总结¶
本文系统综述了 134 篇关于 LLM 证据基础文本生成的论文,首次提出统一分类学(归因方式 × 引用特征 × 任务),分析了 300 个评估指标并归纳为七大维度六种方法,为该碎片化领域提供了全景式参考框架。
研究背景与动机¶
领域现状:LLM 面临幻觉生成和知识局限等可信性挑战,越来越多研究关注"证据基础文本生成"——让 LLM 输出可追溯到支撑证据。但该领域高度碎片化:有的叫"引用"(citation, 75% 论文使用),有的叫"归因"(attribution, 62%),有的叫"引述"(quotation, 13%),且各自评估实践孤立。
现有痛点:(1) 缺乏统一术语和分类体系,研究者难以定位自己的工作;(2) 评估标准不一致——300 个指标但仅 2 个框架(ALCE、G-Eval)被多篇论文复用;(3) RAG 虽然流行但仅是七种相关方法之一,过度聚焦 RAG 会遗漏其他重要方法。
核心矛盾:快速增长的研究兴趣(2024 年论文数是 2023 年的 3.4 倍,75% 论文发表在 2023 年之后)vs. 缺乏统一视角来整合和比较不同方法。
本文目标:提供第一个专门针对 LLM 证据基础文本生成的系统性综述,建立统一分类学,分析评估实践,识别研究趋势和未来方向。
切入角度:采用 PRISMA 协议进行系统映射研究,从 805 篇去重论文中筛选出 134 篇相关论文,使用多面分类方法构建分类学。
核心 idea:将"引用"、"归因"和"引述"统一为"证据基础文本生成"范式,通过三维分类学和七维评估框架为碎片化领域提供系统化视角。
方法详解¶
整体框架¶
本文按 PRISMA 协议做系统映射研究:从 805 篇去重论文中筛出 134 篇相关工作,再用多面(faceted)分类方法逐篇编码。核心产物是一套三维独立分类学——把"归因方式(内容如何关联到证据)× 引用特征(证据以何种形态呈现)× 任务(应用场景)"三个正交维度组合起来,任何一篇证据基础文本生成工作都能被定位到这个立方体里;在此之上再叠加一层 LLM 集成方式(训练 vs. 提示)的横切视角,回答"模型用什么手段获得归因能力"。
关键设计¶
1. 归因方式:参数式 vs. 非参数式的二分再细分。 这一维刻画 LLM 把生成内容关联到支撑证据的根本路径,是分类学最核心的一面。参数式(25 篇)让证据进入模型权重,再细分为纯 LLM(直接利用既有能力,占参数式的 72%)、模型中心(改架构/改训练)、数据中心(策划/增强数据)三支;非参数式(126 篇)让证据停在权重之外,按检索发生的时机切成后检索(58%,RAG 为代表)、后生成(18%,先生成再回头找证据)、生成中(4%,模型动态判断当下是否需要检索)、上下文内(20%,用户直接把证据塞进 prompt)。这套三分法比此前简单的"RAG / 非 RAG"更精细,并直接暴露出领域的失衡:参数式整体被严重忽视,而生成中归因(如 Self-RAG)虽仅占 4%,却代表检索与生成更紧密耦合的前沿方向。
2. 引用特征:五个子面刻画证据的"长相"。 同样的证据可以有完全不同的呈现方式,本维用五个子面把它拆开——引用模态(文本 96%,图/表/视觉几乎空白)、证据级别(文档级 43%、段落级 40%、句子级 12%、token 级 2%)、引用样式(行内引用 62%,以及引用报告、段落展示、叙述性引用、高亮梯度、引述等)、可见性(最终回复 91% vs. 中间文本)、频率(多重引用 64% vs. 单一引用)。把这些子面并列后能一眼看出两个结构性空白:非文本模态严重未开发(仅 4%),而句子级/token 级这类细粒度证据虽占比小却增长最快,提示更精细的可追溯性正在成为趋势。
3. 任务:六类应用场景的版图。 第三维映射工作落在什么任务上,发现 QA 与接地文本生成是两大主导任务,摘要、事实验证居中,引用文本生成与相关工作生成属新兴任务。这一面的价值在于揭示评估范式的路径依赖:现有指标几乎都是围着 QA 长出来的,搬到新兴任务(如引用文本生成更需要对"为何选这条引用"的推理做评估)时未必适用。
此外,分类学叠加了一层 LLM 集成方式 的横切视角:训练(45% 论文,以监督微调改善归因行为为主,预训练较少)与提示(78% 论文,以零/少样本为主,并发展出 chain-of-citation、chain-of-quote、conflict-aware 等针对引用行为的专用提示策略),回答的是"模型靠什么手段获得归因能力"这一与上述三维正交的问题。
实验关键数据¶
文献分析/覆盖范围¶
评估指标体系¶
300 个指标按七大评估维度分类
| 评估维度 | 何时使用 | 主要方法 | 代表指标(复用次数) |
|---|---|---|---|
| 归因 (Attribution) | 无标注证据时 | NLI 为主 | Citation NLI P/R/F1 (33/33/16), Auto-AIS (11), FActScore (7) |
| 引用 (Citation) | 有标注证据时 | 检索为主 | Citation Retrieval P/R/F1 (6/6/5), Citation Accuracy (2) |
| 正确性 (Correctness) | 始终需要 | 词汇重叠/NLI | Exact Match (12), BLEU-N (5), Claim Recall (17) |
| 语言质量 | 模型被修改时 | LLM-as-Judge | G-Eval Fluency (4), MAUVE (21), Perplexity (4) |
| 保留度 | 后生成归因时 | 词汇重叠 | Preservation-Levenshtein (3), F1-AP (2) |
| 相关性 | 用户场景 | LLM-as-Judge | G-Eval Relevance (3), RAGAS (2) |
| 检索 | 非参数归因时 | 检索指标 | P@k (4), R@k (4), MRR (3) |
评估指导原则¶
| 维度类别 | 何时评估 | 说明 |
|---|---|---|
| 核心维度 | 归因或引用 + 正确性 | 始终应评估正确性;归因和引用根据证据可用性二选一 |
| 上下文维度 | 语言质量、保留度、相关性、检索 | 取决于任务设计和系统架构 |
关键发现¶
- 仅 2 个框架(ALCE、G-Eval)和 2 个基准被多篇论文复用,评估标准化严重不足
- 134 篇论文中识别出 19 个框架、11 个基准和 231 个数据集
- 文本在引用模态中占 96%,多模态证据几乎空白
- 参数式归因虽然对理解模型内部知识和数据溯源至关重要,但严重被忽视
- 人工评估在正确性维度仍占主导,反映了自动指标在捕捉语义错误方面的局限
亮点与洞察¶
- 将"引用"、"归因"和"引述"统一为"证据基础文本生成"是重要的概念贡献,消除了长期的术语混乱
- 七维评估指南(Table 1)为实践者提供了清晰的指标选择建议——核心维度 vs. 上下文维度的区分极为实用
- 参数式归因的三分法(纯 LLM / 模型中心 / 数据中心)比此前的二分法更精细
- 识别出生成中归因(in-generation)作为有前景但被低估的方向——仅占 4% 但代表了更紧密集成检索和生成的趋势
- 指出了引用行为可能存在类似人类作者的偏差,呼吁研究 LLM 引用推理的可解释性
局限与展望¶
- 单一搜索字符串可能遗漏部分相关研究(敏感性分析显示仅 4% 额外发现)
- 仅覆盖英文论文,可能低估非英语研究
- 人工筛选和分类不可避免引入一定主观性
- 四大未来方向:(1) 参数式和混合归因的深入研究;(2) 标准化评估框架(当前 300 指标仅 2 框架被复用);(3) 可解释的引用推理——理解 LLM 为何选择特定来源;(4) 多模态证据支持——从 96% 文本向图表、表格、图像扩展
相关工作与启发¶
- vs Li et al. (2023a): 唯一先前相关综述,但已严重过时(75%+ 论文发表在其之后),且未覆盖完整范式
- vs Huang & Chang (2024): 立场论文仅强调引用重要性,未系统综述
- vs RAG surveys: RAG 综述仅覆盖后检索这一种方法,本文覆盖七种归因方式
- vs 幻觉/接地综述: 聚焦不同侧面,本文专注于证据生成而非检测
评分¶
- 新颖性: ⭐⭐⭐⭐ 首次对证据基础文本生成进行全面统一分类,三维分类学设计合理
- 实验充分度: ⭐⭐⭐⭐⭐ 134 篇论文、300 个指标、19 框架、231 数据集、11 基准的覆盖范围极全面
- 写作质量: ⭐⭐⭐⭐⭐ 结构清晰,多维度分析平衡,每节附有精炼的 "Takeaways" 总结
- 价值: ⭐⭐⭐⭐⭐ 对快速增长但碎片化领域的全景梳理,对研究者和实践者都有重要参考价值