Unsupervised Conformal Inference: Bootstrapping and Alignment to Control LLM Uncertainty¶

会议: ICLR 2026
arXiv: 2509.23002
代码: 无
领域: 图像生成
关键词: 无监督共形推断, 自举法, LLM幻觉检测, Gram矩阵, 共形对齐

一句话总结¶

提出无监督共形推断框架（BB-UCP），通过Gram矩阵交互能量评分、批次自举校准和共形对齐，在无标签、API兼容条件下实现LLM生成的分布无关有限样本覆盖率保证，有效检测和过滤幻觉输出。

研究背景与动机¶

领域现状¶

领域现状：LLM不确定性量化（UQ）对可信AI至关重要。黑盒API场景下无法获取梯度、logits或隐藏状态，必须仅从采样输出进行决策。现有方法包括语义熵、自一致性和基于嵌入几何的方法。

现有痛点：(1) 共形预测（CP）提供分布无关的有限样本保证，但生成式任务打破了经典监督设定——文本提示不是可量化的协变量；(2) Full-UCP需要对每个候选重新计算（计算密集），Split-UCP数据效率低（分割成本高）；(3) 现有方法未能将低成本信号与高成本质量指标校准对齐。

核心矛盾：需要label-free、API兼容、有理论保证的测试时过滤机制，但现有CP方法不适用于无监督生成场景。

本文目标：如何在无标签、仅黑盒API的设定下，为LLM生成提供有理论保证的质量控制？

切入角度：利用响应嵌入的Gram矩阵几何信号作为一致性评分，设计批次化和自举增强的无监督共形预测，通过共形对齐将廉价信号与质量谓词校准。

核心 idea：用Gram矩阵交互能量量化响应典型性，通过自举校准稳定阈值，通过共形对齐将几何信号与事实性目标绑定。

方法详解¶

整体框架¶

三层框架：(1) Gram矩阵非典型性评分——衡量每个响应与同组响应的对齐程度；(2) BB-UCP——批次自举校准求精确分位数；(3) 共形对齐——校准单一严格参数 \(\tau\) 使用户谓词在未见批次上以概率 \(\geq 1-\alpha\) 成立。

关键设计¶

非典型性评分:
- 交互能量 \(e(i;G) = \|G_{:,i}\|_2 = \|Vv_i\|_2\)，单位范数嵌入下 \(e(i;G) = (\sum_j \cos^2\theta_{ij})^{1/2}\)
- 边界：\(1 \leq e(i;G) \leq \sqrt{n}\)（Theorem 2.1）
- 非典型性评分 \(\Phi(i;G) = 1 - {e(i;G)}/{B_E}\)，高值表示高新颖性/不典型
批次自举UCP（BB-UCP）:
- B-UCP：批内leave-one-out计算残差 \(R_{j,i} = \phi(Y_{j,i}; \mathcal{B}_{j,-i})\)，跨批汇聚后取调整分位数
- BB-UCP：在B-UCP基础上对每批残差做自举，稳定经验分位数，降低异常批次影响
- 覆盖率保证（Theorem 3.1-3.2）：在批次可交换性假设下 \(\Pr\{Y_{n+1} \in C_n\} \geq 1-\alpha\)
共形对齐:
- 参数化严格度 \(\tau \in [0,1]\)，过滤保留集 \(\hat{J}_j(\tau) = \{i: Q_{j,i} > \tau\}\)
- 谓词 \(\mathcal{P}_j^{\text{CVAR}}(\tau)\) 基于CVaR差值评估保留集vs丢弃集的质量差距
- 校准 \(\hat{\tau}\) 为历史批次最小通过严格度的 \(K = \lceil(1-\alpha)(J+1)\rceil\) 阶统计量
- 对齐保证（Theorem 3.3）：\(\Pr\{\mathcal{P}_{J+1}(\hat{\tau}) = 1\} \geq 1-\alpha\)

评估指标¶

事实性严重度 \(\text{FS}(a) = 1 - \max_{r \in \mathcal{R}_q} \text{BERTScoreF1}(\text{head}(a), r)\)，仅评估答案头部（首句或Final字段），truncated至16 tokens。

损失函数 / 训练策略¶

模型采用端到端训练，优化目标综合考虑任务损失和正则化项。

实验关键数据¶

实验1：单查询校准（S-UCP vs BB-UCP）¶

BB-UCP在所有数据集和所有 \(\alpha\) 水平上产生更小的区间长度
BB-UCP覆盖率更保守（高于目标），但阈值更紧

实验2：跨查询校准¶

LOQO经验覆盖率在所有数据集上接近 \(1-\alpha\) 目标
\(\Delta\text{FS} > 0\) 在所有数据集和所有 \(\alpha\) 上成立（保留集事实性更好）
NQ-Open上 \(\Delta\text{FS} \approx 0.209\)（最大提升）

实验3：共形对齐（CVaR-gap）¶

跨所有数据集和风险水平，事实性严重度降低值一致为正
NQ-Open和NQ-Open-Vend上中位数改善最大

关键发现¶

自举机制有效稳定阈值估计，在保持保守覆盖率的同时产生更紧区间
Gram矩阵几何信号与事实性高度相关，无需logits或梯度
小池/低多样性场景（NQ-Open）中覆盖率略低于目标，但事实性提升依然显著
共形对齐将廉价几何信号与昂贵事实性指标有效桥接

亮点与洞察¶

完全无标签、API兼容：不需要token概率、梯度或标注数据，仅用采样输出和嵌入
理论与实用完美结合：分布无关的有限样本保证（不依赖特定模型假设）+ 实际的幻觉检测效果
三层递进设计精巧：从评分→校准→对齐，每层解决一个核心问题
共形对齐的通用性：可适配任意非递减右连续谓词，应用范围广泛

局限与展望¶

批次可交换性假设在实际部署中可能被违反
轻量嵌入模型（MiniLM）可能丢失语义细微差异
对生成多样性低的场景（如简单事实问题），Gram矩阵区分度降低
可以探索将此框架应用于多模态LLM的幻觉检测

补充细节¶

数据集：ASQA（歧义）、NQ-Open（单跳事实）、HotpotQA（多跳组合）、AmbigQA（别名与答案集）
嵌入模型：all-MiniLM-L6-v2（轻量级句子编码器）
BERTScore使用roberta-large + baseline rescaling
消融包括解码熵压力测试和供应商/模型切换
支持OpenAI、Together、Gemini等多供应商API
自举重采样计算开销低，保持可交换性，可直接部署

评分¶

新颖性: ⭐⭐⭐⭐⭐ 无监督共形预测+Gram几何+共形对齐的组合具有高度原创性
实验充分度: ⭐⭐⭐⭐ 四个QA数据集、三个实验维度、两个消融分析
写作质量: ⭐⭐⭐⭐ 理论严谨但符号较重，需要读者有CP背景
价值: ⭐⭐⭐⭐⭐ 提供了LLM部署中急需的实用质量控制工具