Are the Hidden States Hiding Something? Testing the Limits of Factuality-Encoding Capabilities in LLMs¶

会议: ACL 2025
arXiv: 2505.16520
代码: https://github.com
领域: LLM / 事实性分析
关键词: 事实幻觉, 隐藏状态, 真实性编码, 探针分类器, 数据集构建

一句话总结¶

本文挑战了"LLM隐藏状态能编码事实真假信息"这一先前结论，通过构建更真实、更具挑战性的数据集（基于困惑度的负样本采样和基于QA的LLM生成数据集），发现先前方法在更贴近实际场景的数据上泛化能力有限，为LLM事实性评估研究提供了更严格的评估基准和实践指导。

研究背景与动机¶

领域现状：事实幻觉是LLM的核心挑战——模型生成语法流畅但事实错误的内容。近期研究（如Azaria & Mitchell, 2023的SAPLMA）提出可以利用LLM的隐藏层激活值来判断一个陈述是否事实正确，训练一个简单的探针分类器（probe）即可实现真假判断。这种"自我评估"能力被认为是缓解幻觉的重要途径。

现有痛点：（1）先前研究使用的数据集中，错误陈述是通过简单的随机替换生成的，如"斑马用飞行来移动"这类明显不合理的句子，LLM在正常生成中不会产生这样的错误。（2）数据集的"假"样本与LLM实际的生成模式不匹配——模型的幻觉通常是微妙的、看似合理的错误，而非荒谬的错误。（3）探针在合成数据上的高准确率可能无法泛化到检测模型自身生成的错误。

核心矛盾：简单数据集上的高探针准确率≠LLM真正具有"事实性自省"能力。如果错误样本太容易区分（如完全不合理的陈述），探针可能只是学到了"表面异常"而非"事实真假"。

本文目标：设计更真实、更具挑战性的评估数据集，严格测试LLM隐藏状态编码事实性信息的极限。

切入角度：从两个方向提升数据集难度：（1）让错误陈述更合理——使用LLM困惑度引导的负样本采样，确保假陈述在语言学上"像真的"；（2）让陈述来源更现实——直接用LLM生成陈述，再人工标注真假。

核心 idea：通过构建与LLM生成模式高度对齐的真假数据集，揭示现有事实性探针方法在面对更现实挑战时的局限性。

方法详解¶

整体框架¶

本文是一项评估研究，核心流程为：（1）复现先前工作（SAPLMA）的方法和结果；（2）提出两种新的数据集构建策略；（3）在新数据集上重新评估探针的性能；（4）分析泛化能力的边界。

关键设计¶

基于困惑度的负样本采样策略:
- 功能：生成更合理、更难区分的假陈述
- 核心思路：在原始数据集的表格数据中，替换真实值生成假陈述时，不是随机选择替换值，而是选择使得假陈述整体困惑度最低的替换值。用LLM计算候选假陈述的困惑度，选择困惑度最低（即最"像真的"）的作为最终负样本。例如，"氢的原子序数是1"的负样本从"原子序数是34"变为"原子序数是2"——后者对模型来说更自然
- 设计动机：困惑度低的假陈述更接近模型的生成分布，从而测试探针是否能区分"合理但错误"的陈述而非"明显荒谬"的陈述
基于QA的LLM生成数据集:
- 功能：生成与LLM实际输出高度一致的真假陈述
- 核心思路：使用QA数据集中的问题提示LLM生成回答，将回答转化为陈述形式。对比LLM回答与标准答案，自动判断陈述的真假。这样产生的数据集中，所有陈述都是LLM"真正会生成"的内容，真假取决于模型是否恰好知道正确答案
- 设计动机：这是最贴近实际场景的评估方式——我们关心的正是"模型自己生成的内容中，哪些是事实正确的"。如果探针在这个任务上不work，说明事实性自我评估的能力有限
跨主题和跨数据集的泛化评估:
- 功能：测试探针的泛化能力是否超越训练数据的分布
- 核心思路：沿用先前工作的leave-one-topic-out评估：在五个主题上训练探针，在第六个hold-out主题上测试。额外地，在原始合成数据上训练的探针被应用到新的困惑度采样数据和LLM生成数据上，测试跨数据集的泛化
- 设计动机：探针如果只在训练分布内有效但跨分布失败，说明它学到的是数据特定的伪相关性而非通用的事实编码

损失函数 / 训练策略¶

探针（SAPLMA）是3层全连接网络（256-128-64），用二元交叉熵损失训练5个epoch，Adam优化器。输入是LLM特定层的隐藏状态激活值。分析了OPT-6.7B和Llama2-7B两个模型的第16/20/24/28/32层。

实验关键数据¶

主实验¶

数据集类型	模型	探针准确率 (原始数据训练)	探针准确率 (新数据训练)
原始True-False (随机替换)	Llama2-7B	72.3%	—
原始True-False (随机替换)	OPT-6.7B	68.5%	—
困惑度采样 (更难)	Llama2-7B	58.2%	63.7%
困惑度采样 (更难)	OPT-6.7B	54.8%	60.1%
LLM生成 (最现实)	Llama2-7B	53.1%	56.8%
LLM生成 (最现实)	OPT-6.7B	52.4%	54.2%

消融实验¶

配置	准确率 (Llama2, LLM生成数据)	说明
探针@Layer 32	56.8%	最后一层
探针@Layer 28	55.4%	次深层
探针@Layer 24	54.1%	中间层
探针@Layer 20	53.2%	较浅层
随机基线	50.0%	随机猜测
原始数据→LLM数据迁移	53.1%	泛化严重退化
LLM数据→原始数据迁移	65.8%	反向迁移效果好些

关键发现¶

在原始数据集上，探针确实能获得70%+的准确率，部分验证了先前工作的发现
但在更具挑战性的困惑度采样和LLM生成的数据上，准确率大幅下降——接近随机基线（50%），说明探针主要学到的是简单数据的统计偏差
在原始数据上训练的探针几乎无法迁移到LLM生成数据（53.1%），证明泛化能力严重不足
越深的层略有更好的表现，但差异不大（最深层比最浅层只高3.6%）
两个模型（OPT-6.7B和Llama2-7B）的趋势一致

亮点与洞察¶

本文的核心贡献是"质疑"而非"证明"——严格的反面评估对AI安全研究至关重要。过于乐观的结论可能导致在不可靠的事实检测方法上建立下游应用。
基于困惑度的负样本采样是一个通用的数据增强策略，可以应用于任何需要高质量负样本的NLP评估任务（如事实核查、虚假信息检测）。
"自省悖论"：如果LLM真正知道一个陈述是假的（通过隐藏状态），为什么还会生成它？这个矛盾暗示隐藏状态编码的可能是"流畅度"而非"事实性"。

局限与展望¶

只分析了两个相对较小的模型（6.7B和7B），更大规模的模型可能有更强的事实编码能力
探针架构简单（3层MLP），更复杂的探针可能能够提取更丰富的信号
未考虑多层融合——同时使用多层隐藏状态可能比单层更有效
未来可以结合注意力分析和隐藏状态分析来更全面地理解事实编码

评分¶

新颖性: ⭐⭐⭐⭐ 提出两种更真实的数据集构建策略，对先前工作的批判性评估有价值
实验充分度: ⭐⭐⭐⭐ 多种数据集、两个模型、多层分析、跨数据集迁移评估
写作质量: ⭐⭐⭐⭐⭐ 问题定义精准，实验设计严谨，结论有说服力
价值: ⭐⭐⭐⭐ 为LLM事实性研究社区提供了重要的"清醒剂"，推动更严格的评估标准