Position: Uncertainty Quantification in LLMs is Just Unsupervised Clustering¶

会议: ICML 2026
arXiv: 2605.19220
代码: 无（position paper）
领域: LLM 安全 / 不确定性量化
关键词: Position Paper、Uncertainty Quantification、置信幻觉、聚类范式、外部真值

一句话总结¶

这是一篇位置论文，核心论断：当前 LLM 不确定性量化（UQ）的主流方法（Semantic Entropy、图谱方法、P(true) 等）在机制上与无监督聚类同构——它们只衡量"模型生成的内部一致性"而非"外部正确性"，因此面对"自信幻觉"（confident hallucination）天然失效；作者诊断出参数敏感性、内部评估循环、缺乏 ground truth 三大病灶，并提出从评估、机制、grounding 三个支柱转向"监督式保障"的路线图。

研究背景与动机¶

领域现状：LLM 落地高风险领域（医疗、法律）的最大障碍是幻觉，业界主流安全网是 UQ：给每个 query+answer 配一个不确定性分数，触发阈值就拒答。技术路线大致三派——基于熵（Semantic Entropy 及变体 SAE/SEN/KLE/SNNE/SDLG）、基于图（SGC/GU/SGD/SeSE/GENUINE/U-EigV）、基于言辞自评（P(true)/CIn/SelfCheckGPT/UaIT）。

现有痛点：尽管 UQ 论文越来越多，模型却在"自信地胡说八道"。AUROC 等指标看起来不错，但部署到真实场景里仍然漏接关键错误，让用户产生虚假安全感。

核心矛盾：作者诊断这是一个 范畴错误（category error）——所有主流 UQ 方法都在测"模型生成之间彼此有多稳定"，而非"答案与外部事实有多接近"。当模型对一个错误答案非常一致时（自信幻觉），这些方法就会反过来给出"高置信度"，与安全初衷彻底背道。

本文目标：(i) 证明主流 UQ 方法在机制上同构于无监督聚类；(ii) 揭示这种同构带来的三大病理——参数敏感、内部评估循环、缺乏 ground truth；(iii) 给出 evaluation / mechanism / grounding 三支柱的路线图，把 UQ 从"无监督启发式"推向"有监督保证"。

切入角度：用"是聚类吗？"这一统一视角解构 SE / 图谱 / P(true) 三类方法的数学结构，再借用聚类研究里"内部有效性指数无法保证语义正确"的经典教训，把 UQ 的根本缺陷暴露在同一框架下。

核心 idea：UQ ≠ 测量"真假"，UQ = 测量"模型生成之间的几何/语义分离度"——这是无监督聚类，缺乏外部锚点；唯一出路是引入外部 ground truth + 监督机制。

方法详解¶

整体框架¶

这篇 position paper 主张：当前所有主流 UQ 方法都只是换了壳的无监督聚类，量的是"模型生成之间彼此有多分离"，而非"答案与外部事实有多接近"，因此遇到自信幻觉必然失效。它的论证不是提一个新方法，而是搭一条"诊断 → 处方"的链：先把 Semantic Entropy、图谱、P(true) 三类方法在数学上 reduce 成同一种聚类操作，再顺着这个同构推出参数敏感、内部评估循环、缺乏 ground truth 三大病灶，最后给出 evaluation / mechanism / grounding 三支柱的改造蓝图，把 UQ 从"无监督启发式"推向"有监督保证"。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["主流 UQ 方法<br/>Semantic Entropy / 图谱 / P(true)"] --> B["三类方法同构于聚类<br/>显式聚类 · 谱聚类 · 潜在置信聚类"]
    B --> C["三大病理诊断<br/>参数敏感 · 内部评估陷阱 · 缺乏 ground truth"]
    C --> D["三支柱路线图<br/>评估 · 机制 · grounding"]
    D --> E["从无监督启发式<br/>→ 有监督保证"]

关键设计¶

1. 三类主流 UQ 方法在机制上同构于聚类：一次证明，一并反对

这是整篇论证的地基——只要确认 SE、图谱、P(true) 三者本质是同一件事，就不必逐一拆解，反对"无监督聚类无法保证语义正确"一次即可。Semantic Entropy 是显式聚类：用 NLI 模型把采样出的回答集合 \(\mathcal{S}=\{s_1,\dots,s_m\}\) 划进语义等价类 \(C_1,\dots,C_M\)，再算类分布的熵 \(U_{\text{SE}}(C\mid x)=-\sum_{i=1}^M p(C_i\mid x)\log p(C_i\mid x)\)，其中 NLI 模型扮演"聚类准则"、熵扮演"聚类纯度"。图谱方法是隐式谱聚类：用成对相似度 \(w_{j_1,j_2}=(a_{j_1,j_2}+a_{j_2,j_1})/2\) 构权重图 \(W\)，做归一化 Laplacian \(L=I-D^{-1/2}WD^{-1/2}\)，再用 \(U_{\text{EigV}}=\sum_{k=1}^m\max(0,1-\lambda_k)\) 数"有效语义模数"——这是不显式分配标签的谱聚类，等价于谱聚类的"内部有效性指数"。P(true) 是潜在置信聚类：把 \(U_{\text{P(true)}}(x,\hat{y})=1-P(\text{``True''}\mid x,\hat{y})\) 当作对模型内部"高置信区域"的隶属度测试，论文用 Qwen2.5-32B 在 QASC 上的 PCA 可视化（Fig.2）证明 high-P(true) 与 low-P(true) 样本在隐层空间几何分离成两簇，几何上就是一次 soft cluster assignment。论文同时明确把 token-level perplexity、Deep Ensembles、监督式分类器（Azaria & Mitchell 2023）划在框架之外——前两者因性能不佳被边缘化，后者恰恰是作者推崇的"有监督"方向。

2. 三大病理诊断：把"聚类同构"翻译成部署中的安全隐患

确认了同构之后，作者把这个抽象判断落成三个可观测的工程后果，逼 UQ 研究者直面"漂亮的 AUROC ≠ 安全"。第一是参数敏感性危机：UQ 分数受温度、NLI 阈值、采样数 \(n\)、prompt 等超参剧烈影响，Tab.1 的 Jaccard 实证显示在 QASC + Qwen2.5-32B 上，SE 与 EigV 的 Top-10% 高不确定样本只有 0.134 重叠、SE 与 P(true) 只有 0.080——不同方法连"谁不确定"都达不成共识。第二是内部评估陷阱：AUROC 默认"内部稳定 = 真实正确"，但自信幻觉彻底打破这个假设，错误答案越稳定反而被打越高的置信分，这与聚类里 Silhouette 系数"内部紧致 ≠ 外部有意义"是同一个病。第三是缺乏 ground truth（judge problem）：UQ 靠 AUROC 与 correctness 的相关性来评，而开放任务上的 correctness 本身要靠 RougeL > 0.3 或另一个 LLM judge 来打分，judge 自己又有噪、易偏；Fig.3 直接展示当 correctness 阈值 \(\tau\) 漂移时方法排名整体抖动——评估管线建在一把不稳的尺子上。

3. 三支柱路线图：evaluation → mechanism → grounding，逐环切除对内部一致性的依赖

三个支柱分别回答"如何评、如何造、用什么真值评"。评估支柱把 UQ 当成二元告警系统（accept / reject），借鉴 Carlini et al. 2022 的 MIA 范式——固定 FPR < 0.1% 度量 TPR，专门盯"高置信幻觉"这一小撮关键样本；同时提出 AUSC（Area Under the Stability Curve），跨超参（如温度 \(T\in[0,1]\)）扫一遍 AUROC，要求方法在整个合理参数区间都稳定，而不是 cherry-pick 最优点。机制支柱一方面把 Conformal Prediction 重新定位成下游评估框架——固定覆盖率（如 90%）下比较各方法作为 nonconformity score 时的 set size，自信幻觉会被强制以"集合爆炸"暴露；另一方面在 Post-training（RLHF）阶段做 Uncertainty Alignment，奖励模型显式输出"I am confident that …"对"It is possible that …"这类粒度化置信标记，把不确定性从隐式几何特征变成显式语言信号。Grounding 支柱则强制先做 Unit Testing——UQ 方法要先在 code（HumanEval 这类执行可判）、math（最终答案是常量）等可程序判定的场景跑过 AUROC 与 TPR@low-FPR，再谈开放任务——并辅以 Atomic Fact Verification：把开放生成拆成原子声明，用搜索引擎、KB、Lean4 等形式化定理证明器、多跳 deep search agent 这些"非 LLM 判官"逐条核验，打破"LLM 判 LLM"的循环。配套地，论文把推荐指标收敛到 TPR@FPR<0.1% 与 AUSC，并把 Conformal Prediction 固定覆盖率下的 set size 作为"truth-aware"代理。

实验关键数据¶

主实验¶

论文不做新方法实验，而是用支撑性数值"证伪"主流 UQ 范式的可靠性。

评估实验	数据 / 模型	关键结果	结论
Jaccard 重叠（Tab.1）	QASC, Qwen2.5-32B	SE vs EigV Top-10% = 0.134；SE vs P(true) Top-10% = 0.080；EigV vs P(true) = 0.224	不同方法对"谁不确定"严重不一致
P(true) 隐空间可视化（Fig.2）	QASC, Qwen2.5-32B	High-P(true) 与 low-P(true) 样本在 PCA 上几何分离成两簇	P(true) 本质是隐空间聚类隶属测试
Correctness 阈值敏感（Fig.3）	改编自 Liu et al. 2025b	\(\tau\) 变化时 UQ 方法排名反复颠倒	"judge 自己不稳"使 AUROC 评估失效

消融实验¶

论证	支撑证据	病理 → 处方
自信幻觉破坏一致性代理	Simhi et al. 2025；Kalavasis et al. 2025	内部一致性 → 改用 worst-case TPR
参数敏感 vs 鲁棒性	Cecere et al. 2025 (温度)、Kuhn 2023 (\(n\))、Farquhar 2024 (NLI 阈值)	单点最优汇报 → 改用 AUSC
RLHF 反向"反校准"	Kadavath 2022、Achiam 2023	期待 scaling 解决 → 改用 Uncertainty Alignment + CP
开放生成需可验证真值	Yao 2022（code）、Hendrycks（math）	LLM-as-judge 循环 → 改用 Lean4 / 原子事实

关键发现¶

不同方法连"谁不确定"都谈不拢：Jaccard 仅 0.08–0.22，说明各方法量的是不同维度，把任意一个当作"安全网"都缺乏外部基准来仲裁。
几何分离 ≠ 真实可信：P(true) 的 PCA 可视化恰好证伪它在做事实判别——它做的是"输出落在置信簇内还是外"，与真假无关。
AUROC 被简单样本稀释：易例占多数会把 AUROC 拉高，但部署中危险的只有"高置信但错误"的那一小撮，这正是 MIA 风格 TPR@low-FPR 要专门盯的部分。
RLHF 反而加剧问题：对齐人类偏好让模型语气更权威，scaling 不会自动解决校准——只会让幻觉看起来"更专业"，使聚类病理放大。

亮点与洞察¶

范畴错误这个标签足够锋利：把一整条 UQ 研究线一刀切到"无监督聚类"上，给后续工作提供了清晰的"是 / 否在做监督校准"分类轴，是这类 position paper 该做的"换视角"。
MIA 类比是高质量迁移：直接把 Carlini et al. 2022 的 worst-case 评估范式搬到 UQ，意味着"高风险系统应在尾部用 TPR@low-FPR 评估"这一通用原则正在 ML 安全语境里跨子领域统一。
CP 当评估器的视角值得复用：固定覆盖率下比较 set size 是"逼方法把幻觉外化为可观测代价"的巧思，可推广到任何打分式安全机制的横向比较。
AUSC 是个实操可落地的反 p-hacking 工具：要求方法跨超参稳定，可直接成为 benchmark 报告的强制项，把"调参出 SOTA"的灰色地带堵死。

局限与展望¶

没给出完整新方法或基准：路线图层面够清晰，但 TPR@low-FPR、AUSC、Atomic Fact 体系都是建议，缺一个端到端实证 demo 说明"换了之后大家排名会怎样"。
论证依赖部分二手实证：Fig.3 直接改编自 Liu et al. 2025b，Tab.1 的 Jaccard 只在 QASC + Qwen2.5-32B 一对模型/数据上测，跨模型可重复性需后续工作补齐。
形式化验证落地困难：Lean4 / 原子事实校验在医学、法律这类"事实但非形式化"领域代价高昂，论文未讨论该范式的可扩展性瓶颈。
对"不可避免的主观开放生成"留白：作者承认创意写作存在合理多样性，但只给出"用原子事实拆分"这一种处方，没有提出适用于风格 / 偏好不确定性的替代方案。