Automatic Layer Selection for Hallucination Detection¶
会议: ICML 2026
arXiv: 2605.26366
代码: https://github.com/DesoloYw/Automatic-Layer-Selection-for-Hallucination-Detection
领域: LLM评估
关键词: 幻觉检测, 中间层选择, 内在维度, 隐藏状态探测, 大语言模型
一句话总结¶
提出 FEPoID(内在维度的首个有效峰值)作为无需训练的自动层选择准则,并结合首句截断策略(FST),在多种 QA 和摘要幻觉检测基准上持续选出接近最优的中间层,显著超越已有基线方法。
研究背景与动机¶
领域现状:大语言模型(LLM)在实际部署中常产生流畅但事实错误的输出(幻觉),检测这些幻觉而不修改模型本身是一个关键的实用问题。已有研究表明,LLM 中间层的隐藏状态比最终层更强地编码了与幻觉相关的信号,基于此出现了隐藏状态探测(hidden-state probing)的检测范式。
现有痛点:虽然中间层包含更丰富的幻觉信号,但最优层的位置在不同模型架构、不同数据集之间差异很大。现有方法要么使用固定的中间层(如中间层),要么对所有候选层逐一评估,前者不可靠,后者计算代价过高。缺少一个高效且有原则的自动层选择方法。
核心矛盾:最优层的位置依赖于模型和数据,不存在通用的固定选择规则;同时已有的用于衡量层质量的指标(如 RankMe、曲率、梯度范数等)虽然在其他场景有用,但在幻觉检测的层选择上表现不稳定。
本文目标:(1) 系统评估各类层选择准则在幻觉检测中的有效性;(2) 提出一个无需训练、计算高效、跨模型/数据集鲁棒的自动层选择方法;(3) 解决表征提取时的 token 位置选择问题。
切入角度:作者观察到内在维度(ID)随层演变的曲线呈现稳定的多峰模式——中间层出现第一个峰值,靠近输出层出现第二个更高的峰值。作者假设第一个峰值捕捉了抽象语义信息(与幻觉检测相关),而第二个峰值主要反映表面词汇复杂度(对检测无益)。
核心 idea:选择内在维度曲线上的"首个有效峰值"(FEPoID)作为层选择准则,同时用首句截断(FST)去除生成末尾的噪声,两者联合实现无监督、高效的幻觉检测。
方法详解¶
整体框架¶
在隐藏状态探测框架下,预训练 LLM 保持冻结,从选定层提取最后一个 token 的表征,训练一个轻量 MLP 分类器进行幻觉检测(二分类)。输入为 prompt 和生成答案的拼接。关键问题在于如何自动选择最优层以及最优 token 位置。
关键设计¶
-
FEPoID(内在维度首个有效峰值):
- 功能:自动选择幻觉检测中最优的中间层,无需任何标注数据或训练
- 核心思路:使用 TwoNN 估计器计算每一层表征矩阵 \(\mathbf{Z}^{(\ell)} \in \mathbb{R}^{N \times d}\) 的内在维度 \(d_{\text{ID}}^{(\ell)}\)。对 ID 曲线找所有局部极大值,从浅到深扫描。引入前向窗口 \(w\)(默认 7)过滤虚假峰值:若候选峰值层 \(\ell\) 满足 \(d_{\text{ID}}^{(\ell)} < d_{\text{ID}}^{(\min(\ell+w, L))}\) 且窗口内 ID 单调递增,则丢弃该峰值。选择存活的最早峰值对应的层
- 设计动机:直接取最大 ID 的层往往选到末端层(表面复杂度高但语义信息少),而首个有效峰值恰好处于抽象语义信息最丰富的位置,实验证实该层与 oracle 最优层高度一致
-
首句截断策略(FST):
- 功能:解决表征提取时 token 位置选择问题,去除生成末尾引入的噪声
- 核心思路:用基于规则的句子边界检测器定位第一个生成句子的末尾 token,提取该位置而非整个序列最后一个 token 的隐藏状态。无需真实答案标注,也不依赖辅助 LLM
- 设计动机:LLM(尤其是 LLaMA)生成时经常在第一句给出答案后继续生成,出现三种退化行为——不一致续写(后文与首句答案矛盾)、语义漂移(偏离问题主题)、退化重复(反复重述相同信息)。这些噪声污染了末尾 token 的表征,而首句截断有效规避了这些问题
-
系统化层选择准则评估:
- 功能:全面对比 6 种现有层选择准则,建立幻觉检测场景下的基准
- 核心思路:基于四个假设(丰富语义、任务对齐、信息压缩、高效信息容量),评估了 RankMe(信息论)、验证损失/RGN/SNR(梯度)、曲率和 ID(几何)六个准则。在多模型、多数据集上逐层训练 MLP 并记录 AUROC
- 设计动机:这些准则在各自原始场景中表现良好,但从未在幻觉检测的自动层选择中被系统比较,实验表明没有一个能稳定胜出,从而激发了 FEPoID 的提出
实验关键数据¶
主实验(QA 任务)¶
在 5 个 QA 数据集和 2 个指令微调模型上的 AUROC 对比(提取最后生成 token 表征,\(w=7\)):
| 方法 | CoQA | SQuAD | HotpotQA | TriviaQA | PsiLoQA | 平均 |
|---|---|---|---|---|---|---|
| Pred. Entropy | 0.583 | 0.570 | 0.710 | 0.686 | 0.360 | 0.582 |
| Semantic Entropy | 0.500 | 0.552 | 0.445 | 0.551 | 0.608 | 0.531 |
| Lexical Similarity | 0.678 | 0.599 | 0.729 | 0.684 | 0.408 | 0.620 |
| EigenScore | 0.525 | 0.530 | 0.599 | 0.588 | 0.508 | 0.550 |
| Probing + Val Loss | 0.671 | 0.616 | 0.768 | 0.786 | 0.784 | 0.725 |
| Probing + Curvature | 0.632 | 0.618 | 0.741 | 0.737 | 0.757 | 0.697 |
| Probing + ID | 0.671 | 0.613 | 0.693 | 0.707 | 0.737 | 0.684 |
| Probing + FEPoID | 0.671 | 0.638 | 0.781 | 0.752 | 0.786 | 0.725 |
以上为 LLaMA-3.1-8B-Instruct 结果。FEPoID 在平均 AUROC 上达到最优,且在 Mistral-7B 上平均 AUROC 达 0.853,同样排名第一。
摘要任务与计算效率¶
| 方法 | HaluEval | CNN/DM | 平均 | 计算时间(秒) |
|---|---|---|---|---|
| RankMe | 0.608 | 0.577 | 0.592 | 27.3 |
| Curvature | 0.549 | 0.592 | 0.571 | 45.2 |
| Val Loss | 0.596 | 0.586 | 0.591 | 29.6 |
| RGN | 0.571 | 0.582 | 0.577 | 58.2 |
| SNR | 0.553 | 0.547 | 0.550 | 57.9 |
| FEPoID | 0.617 | 0.600 | 0.608 | 10.1 |
LLaMA-3.1-8B-Instruct 上结果。FEPoID 不仅检测性能最优,计算时间仅为其他方法的 1/3 到 1/6。
关键发现¶
- FEPoID 在 QA 和摘要两类任务、5 种模型规模(1B-8B)、base 和 instruct 两种调优策略上均稳定表现最优或接近最优,展现了极强的泛化能力
- FST 对所有基线方法均带来一致的 AUROC 提升(方法无关的增益),在 LLaMA 上提升尤为显著(因为 LLaMA 生成更容易出现末尾噪声),Fisher 分离度和轮廓系数均大幅改善
- 直接选最大 ID 层的策略在 HotpotQA、TriviaQA 等数据集上会选到过深的层,导致性能下降;而 FEPoID 通过前向窗口机制稳定地避免了这个陷阱
- 超参数 \(w\) 的敏感性分析表明 FEPoID 对 \(w\) 的选择非常鲁棒,性能在较大范围内保持稳定
亮点与洞察¶
- FEPoID 的设计极其优雅——仅靠 TwoNN 内在维度估计加一个前向窗口即可实现无训练、无标注的自动层选择,计算开销可以忽略不计(全部 32 层仅需约 10 秒),这使其在实际部署中极具吸引力
- FST 的"方法无关"特性非常实用:它不仅改善了隐藏状态探测,还提升了不确定性方法和词汇相似度等完全不同范式的基线,说明"末尾噪声"是一个普遍且被低估的问题
- "ID 曲线双峰假设"提供了理解 Transformer 层级表征的新视角:中间峰值 = 抽象语义,末端峰值 = 表面复杂度,这一洞察可迁移到其他需要选择中间层表征的下游任务
局限与展望¶
- 实验仅覆盖 1B-8B 规模的模型,更大模型(70B+)的层选择行为可能不同,FEPoID 的双峰假设是否仍成立有待验证
- FST 依赖规则式句子边界检测,对非英语语言或非自然句子结构的生成(如代码、数学推导)可能不适用
- 当前仅在 QA 和摘要任务上验证,开放式生成(如对话、创意写作)中幻觉的定义和分布不同,泛化性有待测试
- 可探索将 FEPoID 的层选择动态化——针对不同输入样本选择不同层,或组合多层表征以进一步提升检测性能
相关工作与启发¶
- INSIDE(Chen et al., 2024):利用 LLM 内部状态进行幻觉检测,固定选择中间层,FEPoID 提供了更优的自动化替代
- Semantic Entropy(Farquhar et al., 2024):从语义层面估计不确定性,但需要多次采样,本文的隐藏状态探测方法仅需单次前向传播
- EigenScore(Chen et al., 2024):基于隐藏状态协方差谱性质评估表征质量,但其层选择策略次优
- ID 与层选择的关系:Cheng et al.(2025)发现最大 ID 附近的层最先迁移到下游任务,本文进一步细化为"首个有效峰值才是最优选择"