SConU: Selective Conformal Uncertainty in Large Language Models¶

会议: ACL 2025
arXiv: 2504.14154
代码: Zhiyuan-GG/SConU
领域: LLM 可靠性、不确定性量化
关键词: conformal prediction、可交换性、p-value、错误覆盖率、QA

一句话总结¶

SConU 首次在 LLM 的保形不确定性框架中引入显著性检验，通过构建两种保形 p-value 来识别并过滤违反可交换性假设的不确定性数据异常点，从而在单域和跨域 QA 场景中实现对错误覆盖率（miscoverage rate）的严格管理。

研究背景与动机¶

保形预测在 LLM 中的应用：Split Conformal Prediction (SCP) 提供分布无关、模型无关的覆盖保证，近期研究将其应用于 LLM 的 QA 任务，通过关联非一致性分数（NS）与不确定性状态来实现用户指定风险水平下的可靠响应覆盖。
可交换性假设的脆弱性：现有保形不确定性框架假设校准集和测试样本的 NS 序列满足可交换性（exchangeability），但在实际 NLG 任务中这一条件难以验证和保证。作者观察到即使在单一领域内，多个 LLM 在 MMLU-Pro 数据集上也出现显著的覆盖异常（empirical miscoverage rate 超过理论上限）。
跨域问题尤为严重：当校准集和测试集来自不同学科时（如用健康学科校准数学学科），错误覆盖率严重偏离目标值。这是因为不同模型在不同领域的不确定性分布差异巨大。
已有方法的缺陷：现有框架手动移除校准集中采样空间不包含正确答案的样本，限制了可处理的测试样本数量且损害了统计严谨性。

方法详解¶

整体框架¶

SConU 的工作流程：(1) 部署 LLM 和校准集后，先计算最小可管理风险水平 \(\alpha_l\)；(2) 对每个测试样本进行显著性检验，判断其不确定性是否与校准数据分布一致；(3) 过低的保形 p-value 表示违反可交换性，拒绝回答；(4) 对通过检验的测试样本执行保形程序，提供有限样本覆盖保证。

关键设计¶

基本保形 p-value（SConU）：对测试样本 \(x_{N+1}\)，构建 \(p_{N+1} = \frac{1 + \sum_{i=1}^{N} \mathbf{1}\{u_i \geq u_{N+1}\}}{N+1}\)，其中 \(u_i\) 是用预测熵（Predictive Entropy）度量的不确定性。该 p-value 衡量测试样本的不确定性在校准集中的相对位置。
增强保形 p-value（SConU-Pro）：在计数标准中加入预测状态条件 \(p'_{N+1} = \frac{1 + \sum_{i=1}^{N} \mathbf{1}\{u_i \geq u_{N+1}, y_i^* \in E(x_i, \mathcal{D}_{cal}, \alpha)\}}{N+1}\)，过滤掉校准集中自身在风险水平 \(\alpha\) 下无法覆盖正确答案的样本的干扰。
最小风险水平推导：不移除任何校准样本，而是推导出校准集能管理的最小风险水平 \(\alpha_l = N L_N(1) / (N+1)\)，即候选集中不包含正确答案的比例决定了可控风险的下界。

损失函数¶

本文非训练方法，不涉及传统损失函数。核心是统计检验：在显著性水平 \(\delta\) 下，若保形 p-value 低于 \(\delta\) 则拒绝零假设（即认为测试样本是不确定性异常点），拒绝回答。

实验¶

主实验：MMLU-Pro 单域/跨域覆盖管理¶

学科	指标	无 OD (基本 ConU)	SConU	SConU-Pro
Health	EMR @ α=0.1	0.12±0.04 (违规)	0.09±0.02	0.08±0.01
Economics	EMR @ α=0.1	0.15±0.06 (违规)	0.09±0.03	0.09±0.02
跨域(Health→Math)	EMR @ α=0.28	0.45 (严重违规)	0.26	0.24

实验覆盖 8 个 LLM（LLaMA-3.1-8B、Qwen2.5-14B 等），100 次随机试验的均值和标准差。

消融实验：采样大小校准¶

数据集	LLM	β=0.1	β=0.2	β=0.3
TriviaQA	LLaMA-3.2-3B	0.088±0.015	0.177±0.011	0.273±0.019
MedMCQA	LLaMA-3.1-8B	0.087±0.006	0.177±0.038	0.197±0.009
TriviaQA	Qwen2.5-14B	0.084±0.020	0.173±0.008	0.173±0.008

采样大小校准验证了保持校准集完整性的必要性：通过 Eq.(4) 可保证 \(\geq 1-\beta\) 的概率在采样中覆盖正确答案。

关键发现¶

即使在单一领域内，基本 ConU 框架也频繁出现 EMR 超过风险水平的违规情况；SConU 通过过滤异常点有效将 EMR 控制在目标以下
SConU-Pro 通过考虑校准数据自身的预测状态，进一步提升了异常检测的精度
保持校准集完整性（不手动移除无正确答案的样本）使得校准集能覆盖更广泛的领域分布
不确定性度量的选择（PE vs SE vs LN+SC）对条件覆盖性能有显著影响
预测集中存在大量语义冗余，对人机交互 QA 应用提出了去冗余需求

论文亮点¶

首次在 LLM 保形不确定性框架中实现显著性检验来检测可交换性违反
提出两种保形 p-value 的正式统计验证，具有坚实的理论基础
保持校准集完整性的设计理念新颖且实用，推导出最小可管理风险水平
在 8 个 LLM、多个 QA 数据集上的广泛实验验证了方法的通用性

局限性¶

保形 p-value 检验本质上是保守的，可能过度拒绝可回答的测试样本，降低回答覆盖率
当校准集规模较小时 p-value 的分辨力有限
目前主要验证在 MCQA 和开放式 QA 上，对更复杂的 NLG 任务（如摘要、翻译）的适用性未验证
条件覆盖在大多数 NLG 场景下仍然不可实现，只能逼近

评分¶

维度	分数
新颖性	⭐⭐⭐⭐⭐
技术深度	⭐⭐⭐⭐⭐
实验充分性	⭐⭐⭐⭐
写作质量	⭐⭐⭐⭐
总体推荐	⭐⭐⭐⭐