Stress Testing Factual Consistency Metrics for Long-Document Summarization¶
会议: ACL2026
arXiv: 2511.07689
代码: https://github.com/zainmujahid/metricEval-longSum
领域: 文本生成 / 摘要评测
关键词: 事实一致性, 长文档摘要, 鲁棒性评测, 检索式评分, 指标压力测试
一句话总结¶
这篇论文把六个常用 reference-free factuality metrics 放到长文档摘要中做压力测试,发现它们会被事实保持的改写、检索窗口大小和高信息密度 claim 显著影响,说明短摘要指标不能直接信任地迁移到长文档场景。
研究背景与动机¶
领域现状:抽象摘要系统越来越流畅,但 factual consistency 仍然是核心风险。传统 ROUGE/BLEU 只能看表面重叠,不能判断摘要事实是否被源文档支持。因此近年来出现了很多 reference-free factuality metrics,例如 NLI 型 SummaC、QA 型指标、生成概率型 BARTScore,以及 MiniCheck、AlignScore、UniEval 等更综合的指标。
现有痛点:这些指标多数是在短文档摘要上提出和验证的,默认源文档和摘要可以一起编码,或证据可以在局部上下文中找到。长文档摘要不同:证据可能跨越数百到数千 token,摘要中的一个句子可能压缩了多个段落甚至多个文档的信息,指标常常需要先检索证据片段再判断一致性。
核心矛盾:一个事实一致的摘要在改写、简化、压缩或同义替换后,事实性不应该改变;但很多 factuality metrics 可能依赖局部词汇匹配、句法形式或检索片段,导致对事实保持的表面变化产生分数波动。
本文目标:作者要回答三个问题:现有 factuality metrics 在事实保持扰动下是否稳定;长文档检索上下文窗口会怎样影响指标;摘要 claim 的信息密度和证据分散程度会不会让指标失效。
切入角度:论文没有提出新指标,而是设计了一个 stress-testing protocol。它在三个长文档摘要数据集上对原始摘要生成七类 meaning-preserving perturbations,再用统一的 retrieval-based scoring 框架调用六个指标,对比原始和扰动后的 factuality 分数。
核心 idea:如果一个 factuality metric 真正评估事实一致性,它应该对语义等价的扰动保持稳定,并能在长文档中随检索窗口和 claim 密度变化给出合理分数;反之,分数大幅波动就是指标脆弱性的证据。
方法详解¶
这项工作的方法重点是评测协议。它把扰动生成、检索式评分和 claim density 分析组合起来,专门暴露长文档摘要场景下的指标失真。
整体框架¶
输入是源文档和人工摘要。首先,作者用 GPT-4o 为每个摘要生成七种事实保持扰动版本,包括 paraphrased、simplified、synonym replaced、less diverse、logically equivalent negated、summarized、added source text。然后,对原摘要和扰动摘要的每个句子,从源文档中检索 Top-K 相似句子,并扩展周围窗口作为证据 snippet。每个 factuality metric 对摘要句和候选证据 snippet 打分,取最大值作为该句得分,再对所有摘要句平均得到 summary-level 分数。最后,作者比较扰动前后分数差异,分析 retrieval window size 和 claim similarity 对指标的影响。
关键设计¶
-
七类事实保持扰动:
- 功能:在不改变事实含义的情况下改变摘要表面形式,测试指标是否真正语义鲁棒。
- 核心思路:Paraphrased 改写句法和措辞,Simplified 拆短复杂结构,Synonym Replaced 替换近义词,Less Diverse 降低词汇多样性,Negated 使用逻辑等价的否定表达,Summarized 进一步压缩摘要,Added Source Text 插入源文档中真实但与主摘要关系较弱的句子。作者还用 NLI-based faithfulness check 做 sanity check,确认除 Negated 外多数扰动的 contradiction rate 很低。
- 设计动机:长文档摘要的事实评测不应该被文风、句法或轻微压缩影响。若指标对这些扰动敏感,就说明它可能测的是局部形式匹配,而不是事实支撑。
-
检索式长文档 factuality scoring:
- 功能:让短输入 factuality metrics 能在长文档上运行,并观察检索粒度对评分的影响。
- 核心思路:对每个摘要句 \(s_j\),用 SBERT embedding 与源文档每个句子计算相似度,取 Top-K 源句,并把每个命中句扩展为窗口 \(w\) 的上下文片段 \(d_{j,k}^{(w)}\)。然后用指标 \(M\) 分别评估 \(s_j\) 和这些 snippet 的一致性,句子得分取 \(max_k M(s_j,d_{j,k}^{(w)})\),摘要分数对句子平均。实验中作者改变 \(w=0,1,2\),观察更大上下文是否提高指标分数和稳定性。
- 设计动机:长文档里证据常常不在单句内。固定检索一个句子可能让指标误判,而扩展窗口能提供更多局部上下文。但如果指标不会利用额外上下文,窗口变大也不会改善。
-
claim information density / similarity 分析:
- 功能:衡量摘要句是否是“压缩且证据分散”的 claim,并分析这种 claim 对指标的影响。
- 核心思路:作者计算每个 summary sentence 与源文档所有句子的平均 cosine similarity,\(Sim(s_j,D)=1/n * \sum_i cos(e_j,e_i^D)\)。高相似度表示这个 claim 和文档很多位置都有语义重叠,往往更泛化、更压缩,证据也更分散;低相似度则通常是具体、局部、易验证的 claim。作者按 similarity bin 分组,观察不同指标的平均 factuality 分数变化。
- 设计动机:长摘要里最难评估的并不是单点事实,而是把多个段落整合成一句概括的 claim。这个分析可以揭示指标是否在处理 distributed evidence 时失效。
损失函数 / 训练策略¶
本文不训练模型。它评测六个公开 factuality metrics:BARTScore、MiniCheck、SummaC-Conv、SummaC-ZS、AlignScore 和 UniEval。所有指标使用公开版本,不做任务特定微调或校准,以模拟研究和工程中“直接拿指标评估长文档摘要”的常见做法。实验在 SQuALITY、LexAbSumm、ScholarQABench 三个长文档摘要数据集上进行,覆盖科幻小说、法律判决和科研多文档问答摘要。
实验关键数据¶
主实验¶
三个数据集差异很大:LexAbSumm 文档最长且法律语言最结构化,ScholarQABench 摘要最长且是多文档科学场景。
| 数据集 | 样本数 | 平均摘要句数 | 平均摘要 tokens | 平均文档句数 | 平均文档 tokens | 摘要类型 |
|---|---|---|---|---|---|---|
| SQuALITY | 260 | 12.5 | 273 | 456.6 | 6,131 | 人写摘要 |
| LexAbSumm | 351 | 4.2 | 169 | 385.9 | 10,840 | 人写摘要 |
| ScholarQABench | 100 | 43.2 | 1,158 | 575.4 | 14,652 | 人写摘要 |
消融实验¶
这里的核心“消融”是 retrieval window size。扩大窗口通常提高 factuality score,尤其对法律领域明显;但 NLI 类 SummaC 对窗口不太敏感。
| 指标 | ScholarQA w=0 | ScholarQA w=2 | SQuALITY w=0 | SQuALITY w=2 | LexAbSumm w=0 | LexAbSumm w=2 | 观察 |
|---|---|---|---|---|---|---|---|
| BARTScore | 0.03 | 0.02 | 0.03 | 0.03 | 0.15 | 0.16 | 整体分数低,窗口收益很小 |
| MiniCheck | 0.17 | 0.15 | 0.11 | 0.19 | 0.47 | 0.60 | SQuALITY 和法律域明显受益 |
| SummaC-Conv | 0.22 | 0.25 | 0.22 | 0.24 | 0.33 | 0.34 | 变化较小 |
| SummaC-ZS | 0.14 | 0.20 | 0.11 | 0.14 | 0.36 | 0.39 | 有小幅提升 |
| AlignScore | 0.15 | 0.27 | 0.10 | 0.24 | 0.36 | 0.64 | 对窗口最敏感之一 |
| UniEval | 0.72 | 0.74 | 0.67 | 0.70 | 0.81 | 0.84 | 基线高且稳定 |
扰动鲁棒性结果¶
下表摘录三个数据集的 per-dataset scores,可以看到 Negated 对 UniEval/MiniCheck 打击很大,LexAbSumm 中 AlignScore 和 BARTScore 对改写/压缩更脆弱。
| 数据集 | 指标 | Original | Paraphrased | Simplified | Negated | Summarized | Added Source Text | 观察 |
|---|---|---|---|---|---|---|---|---|
| LexAbSumm | BARTScore | 0.16 | 0.09 | 0.11 | 0.07 | 0.08 | 0.23 | 法律域表面改写导致明显下降 |
| LexAbSumm | MiniCheck | 0.84 | 0.85 | 0.85 | 0.40 | 0.84 | 0.78 | 除逻辑否定外很稳 |
| LexAbSumm | AlignScore | 0.52 | 0.38 | 0.56 | 0.38 | 0.42 | 0.58 | 对 paraphrase / negation 敏感 |
| ScholarQABench | UniEval | 0.73 | 0.73 | 0.72 | 0.32 | 0.72 | 0.73 | 多数扰动稳定,否定失败 |
| SQuALITY | SummaC-ZS | 0.13 | 0.12 | 0.14 | 0.11 | 0.10 | 0.19 | 整体分数低且波动 |
| SQuALITY | MiniCheck | 0.56 | 0.56 | 0.55 | 0.30 | 0.53 | 0.57 | 相对稳定但仍怕 negation |
关键发现¶
- MiniCheck 和 UniEval 整体最稳,但它们同样处理不好 logically equivalent negations。UniEval 在三个数据集上 Negated 分数都大幅下降到约 0.32-0.39。
- LexAbSumm 是最不稳定的领域。法律文本的长句、术语和逻辑结构让 AlignScore、SummaC-ZS、UniEval 等在 mean absolute score change 上更敏感。
- 扩大检索窗口通常有帮助,尤其是 LexAbSumm;但这也说明指标很依赖检索配置,不能把 metric score 当作独立于上下文选择的事实真值。
- claim similarity 分析显示,LexAbSumm 和 SQuALITY 中高相似度、信息密度更高的 claim 分数更低,说明压缩性强、证据分散的句子更难评估。ScholarQABench 反而常出现上升趋势,可能因为多文档中重复证据更多。
亮点与洞察¶
- 论文没有追求提出第七个指标,而是系统展示“现有指标在长文档下到底哪里不可靠”。这对实际使用 factuality metrics 很有价值。
- 扰动选择覆盖面较广:从同义替换、简化到额外插入源句,能区分指标是怕词汇变化、逻辑变化还是内容压缩。
- Claim similarity 这个分析很聪明。它把“长文档摘要难评估”具体化为证据分散和语义 hubness,而不只是泛泛说上下文太长。
- Added Source Text 是一个现实的扰动:插入的句子来自源文档、事实上真实,但和摘要主线可能无关。这能测试指标是否区分“真实”与“合适”。
局限与展望¶
- 扰动由 GPT-4o 自动生成,作者只用 NLI 做 sanity check,没有大规模人工确认每个扰动都全局等价。Negated 尤其容易被句级 NLI 误判或真的改变局部含义。
- 论文没有把 metric output 和长文档人类 factuality judgment 直接对齐,因此只能说明指标稳定性问题,不能完整判断哪个指标最接近人类。
- 检索策略固定为 SBERT 相似度和 Top-K 句子窗口,未探索 query-aware retrieval、multi-hop evidence retrieval 或 cross-encoder reranking。
- 只覆盖英语的科幻、法律和科学数据,医学、金融、新闻、多语言场景可能有不同失败模式。
相关工作与启发¶
- vs LongDocFACTScore: 本文沿用检索式句级评估思想,但重点不是提出新评分,而是分析不同 metric 在检索上下文变化下是否稳定。
- vs Ramprasad and Wallace 的短文档鲁棒性测试: 本文把事实保持扰动迁移到长文档场景,并额外加入检索窗口和 claim density 分析,揭示长上下文特有失败模式。
- vs MiniCheck / UniEval: MiniCheck 和 UniEval 在扰动下相对稳,但对 negation 和特定领域仍有缺陷,说明高性能指标也需要长文档校准。
- 对摘要系统评测的启发: 不能只报告一个 factuality 分数。更合理的做法是同时报告扰动稳定性、检索窗口敏感性和高密度 claim 子集表现。
评分¶
- 新颖性: ⭐⭐⭐⭐☆ 贡献在评测协议和失败模式刻画,问题选得准。
- 实验充分度: ⭐⭐⭐⭐☆ 六个指标、七类扰动、三个长文档数据集和窗口/claim 分析覆盖较全。
- 写作质量: ⭐⭐⭐⭐☆ 逻辑清晰,实验设计解释充分,部分图表结果需要结合附录阅读。
- 价值: ⭐⭐⭐⭐⭐ 对长文档摘要评测和 factuality metric 使用者非常有警示意义。