ICR Probe: Tracking Hidden State Dynamics for Reliable Hallucination Detection in LLMs¶

会议: ACL 2025
arXiv: 2507.16488
代码: https://github.com/XavierZhang2002/ICR_Probe
领域: 幻觉检测
关键词: 幻觉检测, 隐状态动态, 残差流, ICR分数, 轻量探针

一句话总结¶

提出 ICR Score（Information Contribution to Residual Stream），通过测量 MHSA 和 FFN 模块对隐状态更新的贡献一致性来量化残差流动态，构建仅 16K 参数的 ICR Probe，在 4 个数据集 × 3 个 LLM 上幻觉检测 AUROC 全面超越基线。

研究背景与动机¶

领域现状：LLM 幻觉检测方法分三类：(a) 基于输出一致性（需要多次生成）；(b) 基于 logit 概率（需参考答案）；(c) 基于隐状态（无需外部参考最实用）。

现有痛点：隐状态方法通常关注静态、孤立的高维表示（~4000维），忽略了隐状态跨层的动态演化。SAPLMA 直接探测隐状态需要 110K 参数，SEP 用语义熵但泛化性欠佳。

核心矛盾：隐状态本身高维且静态，直接用它做分类信号信噪比低。

本文目标 找到一个低维、稳定、跨数据集一致的隐状态特征来检测幻觉。

切入角度：不看隐状态本身，而看其更新过程——MHSA（上下文路由）和 FFN（知识检索）对残差流的贡献比例。

核心 idea：用 JSD 度量隐状态更新方向与注意力分数的一致性 → ICR Score → 跨层聚合 → 轻量 Probe 检测幻觉。

方法详解¶

整体框架¶

在 LLM 的每一层 \(\ell\)，对每个 token \(i\) 计算 ICR Score：(1) 提取注意力分数 \(\text{Attn}_i^\ell\)；(2) 计算隐状态更新 \(\Delta x_i^\ell = x_i^\ell - x_i^{\ell-1}\) 在所有 token 隐状态方向上的投影向量 \(\text{Proj}_i^\ell\)；(3) 用 JSD 度量 \(\text{Proj}\) 和 \(\text{Attn}\) 的一致性得到 ICR Score。所有层的 ICR Score 经 token 平均后输入 4 层 MLP（16K 参数）输出幻觉概率。

关键设计¶

ICR Score 构造:
- 功能：量化每层中 MHSA vs FFN 对隐状态更新的主导程度
- 核心思路：\(\text{ICR}_i^\ell = \text{JSD}(\text{Proj}_i^\ell, \text{Attn}_i^\ell)\)。投影向量 \(p_{i,j}^\ell = \frac{(\Delta x_i^\ell)^T \cdot x_j^\ell}{\|x_j^\ell\|}\) 度量更新方向与各 token 表示的对齐度
- 设计动机：ICR 小说明更新由 MHSA 主导（上下文路由）；ICR 大说明 FFN 主导（参数知识注入）。幻觉倾向于在 FFN 异常注入信息时发生
- 与之前方法的区别：不直接用 4000 维隐状态，而用 1 维 ICR Score 压缩每层信息
跨层稳定性:
- 功能：验证 ICR Score 的层级模式跨数据集一致
- 核心思路：早期层（0-3）ICR 低（MHSA 主导局部提取）→ 中间层（4-20）ICR 升高（FFN 注入知识）→ 后期层（21+）ICR 降低（MHSA 精炼整合）
- 设计动机：这种一致模式是模型内在属性而非数据特定的，保证了泛化性
ICR Probe 架构:
- 功能：用全部 L 层的 ICR Score 作为输入，4 层 MLP 输出幻觉概率
- 核心思路：输入为 token-wise 平均后的 \(1 \times L\) 向量，架构 \((L, 128, 64, 32, 1)\)，总参数 <16K
- 设计动机：ICR Score 已是强特征，不需要大模型；16K 参数 vs SAPLMA 的 110K 参数

损失函数 / 训练策略¶

二元交叉熵 loss + Adam 优化器，标准监督学习。

实验关键数据¶

主实验¶

LLM	方法	HaluEval	SQuAD	HotpotQA	TriviaQA
Gemma-2	ICR Probe	0.8436	0.8142	0.8409	0.8001
Gemma-2	SAPLMA	0.8101	0.7175	0.8193	0.7751
Qwen2.5	ICR Probe	0.8003	0.7456	0.7917	0.7684
Qwen2.5	SAPLMA	0.7799	0.6929	0.7750	0.8225
Llama-3	ICR Probe	0.7603	0.7634	0.7982	0.7325
Llama-3	SAPLMA	0.7238	0.7107	0.7701	0.7650

消融实验¶

配置	AUROC	说明
ICR Probe (Attn+Proj)	0.8436	完整模型
仅 Attn	0.5000	注意力分数本身无判别力
仅 Proj	0.5000	投影方向本身也不行
Attn+Proj (ICR=JSD)	0.8436	二者的一致性才有信号

关键发现¶

ICR Score 是有效的幻觉检测信号：单层 AUROC 可达 0.769（layer 11），全层聚合后更高
跨数据集泛化强：跨域 AUROC 降幅仅 8.61% vs SAPLMA 10.18%，得益于捕捉模型内在属性
极少参数超越大探针：16K 参数 vs SAPLMA 110K 参数，性能更好
核心洞见：幻觉时 FFN 和 MHSA 的贡献模式异常——FFN 在不该主导的层过度注入知识

亮点与洞察¶

从"看状态"到"看更新"的范式转变：不看隐状态本身（4000维高噪音），而看更新过程的特征（1维ICR Score），信噪比大幅提升。这种"看变化而非看状态"的思路可迁移到其他模型诊断任务。
MHSA-FFN 贡献不一致作为幻觉信号：为理解 LLM 幻觉的内部机制提供了新视角——幻觉可能与 FFN 的异常知识注入有关。
JSD 的妙用：将两个分布的比较压缩为一个标量，既保留了信息又降低了维度。

局限与展望¶

仅测试 7-9B 参数的 LLM，更大模型（70B+）未验证
训练需要幻觉标注数据，zero-shot 检测能力有限
ICR Score 在最后几层区分度降低，可能需要加权聚合而非简单平均
仅处理文本幻觉，多模态幻觉（VLM）场景未探索

评分¶

新颖性: ⭐⭐⭐⭐⭐ ICR Score 概念新颖，从残差流动态角度理解幻觉
实验充分度: ⭐⭐⭐⭐⭐ 3 LLM × 4 数据集 + 消融 + 泛化分析 + case study
写作质量: ⭐⭐⭐⭐⭐ 公式推导清晰，可视化丰富，解释性好
价值: ⭐⭐⭐⭐⭐ 幻觉检测的新范式，对理解 LLM 内部机制也有贡献