Benchmarking Uncertainty Quantification Methods for Large Language Models with LM-Polygraph¶

会议: ACL 2025 (TACL 2025)
arXiv: 2406.15627
代码: https://github.com/IINemo/lm-polygraph
领域: LLM评测
关键词: 不确定性量化, 幻觉检测, 基准测试, 置信度校准, 文本生成

一句话总结¶

构建了 LM-Polygraph 不确定性量化（UQ）基准，实现了30+种SOTA方法，在11个文本生成任务上系统评估了UQ和置信度归一化技术的效果，为LLM幻觉检测提供了统一的评测框架。

研究背景与动机¶

领域现状：大语言模型的快速发展推动了其在各种场景中的应用，但"幻觉"问题——模型生成看似合理但实际错误的内容——始终是一个关键挑战。不确定性量化（Uncertainty Quantification, UQ）是应对这一问题的重要技术手段：如果能准确估计模型对其输出的"信心"，就能在信心低时提醒用户或触发更可靠的回退机制。

现有痛点：当前UQ研究存在严重的碎片化问题：（1）不同论文使用不同的UQ方法实现，缺乏统一的代码库；（2）评测数据集和指标不一致，导致方法之间难以公平比较；（3）许多方法仅在特定任务上评测，缺乏跨任务的泛化性分析；（4）置信度归一化——将原始UQ分数转化为可解释的概率——这一重要问题被大多数工作忽略。

核心矛盾：UQ方法众多，但没有一个统一的平台来公平、可控地比较它们的效果。不同论文的实验设置差异太大，使得研究者无法判断哪种方法在什么场景下最有效。

本文目标：构建一个全面的UQ基准，（1）统一实现SOTA方法，（2）提供可控的评测环境，（3）覆盖多种文本生成任务，（4）支持置信度归一化方法的评估。

切入角度：作者在之前的 LM-Polygraph（EMNLP 2023 Demo）框架基础上，大幅扩展了方法库和评测范围，从一个工具升级为一个完整的基准平台。

核心 idea：统一框架下的大规模UQ方法对比，涵盖白盒和黑盒方法、序列级和claim级粒度、以及置信度归一化评估。

方法详解¶

整体框架¶

LM-Polygraph 基准包含三个层次：（1）方法库：实现了30+种UQ方法，涵盖信息论方法、语义多样性方法、密度估计方法、集成方法、反思方法等多个类别；（2）评测平台：支持11个任务的统一评测，包括QA、摘要、翻译、事实验证等；（3）归一化评测：额外评估将原始UQ分数转化为可解释置信度的归一化方法。

关键设计¶

多类别UQ方法实现 (Multi-Category UQ Methods):
- 功能：提供涵盖所有主流UQ范式的统一实现
- 核心思路：将UQ方法分为以下几大类别：（a）信息论方法（白盒）：基于token概率的方法如最大序列概率、困惑度、平均/最大token熵、蒙特卡洛序列熵、点互信息等；（b）语义多样性方法：通过多次采样检测输出的语义一致性，如语义熵（Semantic Entropy）、TokenSAR、EigenScore 等；（c）密度估计方法：利用隐藏层表示的密度来估计是否为分布外输入，如马氏距离、鲁棒密度估计等；（d）反思方法：让模型自己评估其输出的可靠性，如 p(True)、Verbalized Uncertainty；（e）黑盒方法：不需要访问模型内部的方法，如基于图拉普拉斯特征值的 EigV、词汇相似度 LexSim 等
- 设计动机：只有实现所有主流方法才能进行公平、全面的比较，避免因实现差异导致的评测偏差
统一评测环境 (Unified Evaluation Environment):
- 功能：提供可控、可复现的评测框架
- 核心思路：对每个任务定义标准的数据集划分、预处理流程、和评测指标。主要评测指标包括：AUROC（区分正确和错误输出的能力）、AUPR（精确率-召回率曲线下面积）、以及校准误差（ECE）。支持在序列级（整个输出是否可靠）和claim级（单个声明是否可靠）两个粒度上评估
- 设计动机：缺乏统一评测环境是当前UQ研究碎片化的根本原因，必须从平台层面解决
置信度归一化评测 (Confidence Normalization Assessment):
- 功能：评估将原始UQ分数转化为可解释概率值的归一化方法
- 核心思路：原始的UQ分数（如熵、概率等）通常不能直接解释为"模型有X%的把握"。本文评估了多种归一化方法，包括Platt Scaling、温度缩放（Temperature Scaling）、等保序回归（Isotonic Regression）等，测量它们在将UQ分数映射为校准概率后的ECE
- 设计动机：对于实际应用，一个可解释的置信度分数（如"这个回答有85%的可能是正确的"）比一个原始的熵值更有用

评测任务覆盖¶

涵盖11个任务：开放域问答（TriviaQA、CoQA、Natural Questions）、阅读理解、文本摘要（CNN/DM、XSum）、机器翻译（WMT）、常识推理、事实验证、数学推理等。

实验关键数据¶

主实验¶

UQ方法在不同任务上的AUROC表现（检测错误输出的能力）：

UQ方法类别	代表方法	QA任务平均AUROC	摘要任务平均AUROC	翻译任务平均AUROC	总体排名
信息论（白盒）	Mean Token Entropy	0.72	0.68	0.71	中等
信息论（白盒）	Perplexity	0.70	0.66	0.69	中等
语义多样性	Semantic Entropy	0.78	0.73	0.74	最佳
语义多样性	EigenScore	0.76	0.71	0.73	优秀
密度估计	Mahalanobis Distance	0.65	0.62	0.63	较弱
反思方法	p(True)	0.74	0.70	0.68	良好
黑盒	EigV (Graph Laplacian)	0.75	0.72	0.71	良好
黑盒	Verbalized UQ	0.71	0.67	0.65	中等

消融实验——归一化方法效果¶

归一化方法	平均ECE↓	平均AUROC	说明
无归一化	0.32	0.74	原始分数校准差
Platt Scaling	0.12	0.74	AUROC不变，校准显著改善
Temperature Scaling	0.14	0.74	效果接近Platt
Isotonic Regression	0.09	0.74	最佳校准效果
Histogram Binning	0.15	0.73	简单但有效

关键发现¶

语义多样性方法总体最优：Semantic Entropy 和 EigenScore 在大多数任务上表现最好，因为它们能够区分"相同意思的不同表述"和"真正不同的回答"
白盒方法优于黑盒方法：能访问token概率的方法普遍优于只能看到最终输出的方法，但差距随模型变大而缩小
密度估计方法表现不佳：基于隐藏层表示的方法在NLG任务上效果有限，可能因为这些方法最初为分类任务设计
置信度归一化至关重要：原始UQ分数的校准误差很高（ECE~0.32），归一化后可降至0.09，使得置信度分数真正可解释
没有"一种方法适用所有场景"：不同任务和模型下最优方法可能不同，但语义多样性方法是最稳健的选择
Claim级评估比序列级更有挑战：在claim级别上识别不可靠的具体声明比判断整个输出是否可靠困难得多

亮点与洞察¶

这是目前最全面的LLM不确定性量化基准，实现了30+种方法并在11个任务上统一评测
首次系统评测了置信度归一化方法，这对实际部署非常重要
开源的代码库（468 stars）已成为UQ研究的事实标准工具
基准设计支持新方法的轻松集成，降低了后续研究的门槛

局限与展望¶

当前评测主要针对英语模型，多语言场景下的UQ行为可能不同
某些UQ方法（如语义多样性方法）需要多次采样，计算开销大，文中对效率的比较不够充分
未涵盖多模态LLM的不确定性量化
未来可以探索结合多种UQ方法的集成策略、以及UQ方法在实际部署中的用户体验影响

评分¶

新颖性: ⭐⭐⭐ — 方法层面新颖性有限（主要是benchmark贡献），但系统性和全面性弥补了这一点
实验充分度: ⭐⭐⭐⭐⭐ — 30+种方法、11个任务、多个模型的大规模评测，是目前最全面的UQ基准
写作质量: ⭐⭐⭐⭐ — 框架描述清晰，结论有实用价值
价值: ⭐⭐⭐⭐⭐ — TACL发表+83次引用，已成为UQ领域的标准参考，代码库广泛使用