跳转至

ICR Probe: Tracking Hidden State Dynamics for Reliable Hallucination Detection in LLMs

会议: ACL 2025
arXiv: 2507.16488
代码: https://github.com/XavierZhang2002/ICR_Probe
领域: 幻觉检测
关键词: 幻觉检测, 隐状态动态, 残差流, ICR分数, 轻量探针

一句话总结

提出 ICR Score(Information Contribution to Residual Stream),通过测量 MHSA 和 FFN 模块对隐状态更新的贡献一致性来量化残差流动态,构建仅 16K 参数的 ICR Probe,在 4 个数据集 × 3 个 LLM 上幻觉检测 AUROC 全面超越基线。

研究背景与动机

领域现状:LLM 幻觉检测方法分三类:(a) 基于输出一致性(需要多次生成);(b) 基于 logit 概率(需参考答案);(c) 基于隐状态(无需外部参考最实用)。

现有痛点:隐状态方法通常关注静态、孤立的高维表示(~4000维),忽略了隐状态跨层的动态演化。SAPLMA 直接探测隐状态需要 110K 参数,SEP 用语义熵但泛化性欠佳。

核心矛盾:隐状态本身高维且静态,直接用它做分类信号信噪比低。

本文目标 找到一个低维、稳定、跨数据集一致的隐状态特征来检测幻觉。

切入角度:不看隐状态本身,而看其更新过程——MHSA(上下文路由)和 FFN(知识检索)对残差流的贡献比例。

核心 idea:用 JSD 度量隐状态更新方向与注意力分数的一致性 → ICR Score → 跨层聚合 → 轻量 Probe 检测幻觉。

方法详解

整体框架

在 LLM 的每一层 \(\ell\),对每个 token \(i\) 计算 ICR Score:(1) 提取注意力分数 \(\text{Attn}_i^\ell\);(2) 计算隐状态更新 \(\Delta x_i^\ell = x_i^\ell - x_i^{\ell-1}\) 在所有 token 隐状态方向上的投影向量 \(\text{Proj}_i^\ell\);(3) 用 JSD 度量 \(\text{Proj}\)\(\text{Attn}\) 的一致性得到 ICR Score。所有层的 ICR Score 经 token 平均后输入 4 层 MLP(16K 参数)输出幻觉概率。

关键设计

  1. ICR Score 构造:

    • 功能:量化每层中 MHSA vs FFN 对隐状态更新的主导程度
    • 核心思路:\(\text{ICR}_i^\ell = \text{JSD}(\text{Proj}_i^\ell, \text{Attn}_i^\ell)\)。投影向量 \(p_{i,j}^\ell = \frac{(\Delta x_i^\ell)^T \cdot x_j^\ell}{\|x_j^\ell\|}\) 度量更新方向与各 token 表示的对齐度
    • 设计动机:ICR 小说明更新由 MHSA 主导(上下文路由);ICR 大说明 FFN 主导(参数知识注入)。幻觉倾向于在 FFN 异常注入信息时发生
    • 与之前方法的区别:不直接用 4000 维隐状态,而用 1 维 ICR Score 压缩每层信息
  2. 跨层稳定性:

    • 功能:验证 ICR Score 的层级模式跨数据集一致
    • 核心思路:早期层(0-3)ICR 低(MHSA 主导局部提取)→ 中间层(4-20)ICR 升高(FFN 注入知识)→ 后期层(21+)ICR 降低(MHSA 精炼整合)
    • 设计动机:这种一致模式是模型内在属性而非数据特定的,保证了泛化性
  3. ICR Probe 架构:

    • 功能:用全部 L 层的 ICR Score 作为输入,4 层 MLP 输出幻觉概率
    • 核心思路:输入为 token-wise 平均后的 \(1 \times L\) 向量,架构 \((L, 128, 64, 32, 1)\),总参数 <16K
    • 设计动机:ICR Score 已是强特征,不需要大模型;16K 参数 vs SAPLMA 的 110K 参数

损失函数 / 训练策略

二元交叉熵 loss + Adam 优化器,标准监督学习。

实验关键数据

主实验

LLM 方法 HaluEval SQuAD HotpotQA TriviaQA
Gemma-2 ICR Probe 0.8436 0.8142 0.8409 0.8001
Gemma-2 SAPLMA 0.8101 0.7175 0.8193 0.7751
Qwen2.5 ICR Probe 0.8003 0.7456 0.7917 0.7684
Qwen2.5 SAPLMA 0.7799 0.6929 0.7750 0.8225
Llama-3 ICR Probe 0.7603 0.7634 0.7982 0.7325
Llama-3 SAPLMA 0.7238 0.7107 0.7701 0.7650

消融实验

配置 AUROC 说明
ICR Probe (Attn+Proj) 0.8436 完整模型
仅 Attn 0.5000 注意力分数本身无判别力
仅 Proj 0.5000 投影方向本身也不行
Attn+Proj (ICR=JSD) 0.8436 二者的一致性才有信号

关键发现

  • ICR Score 是有效的幻觉检测信号:单层 AUROC 可达 0.769(layer 11),全层聚合后更高
  • 跨数据集泛化强:跨域 AUROC 降幅仅 8.61% vs SAPLMA 10.18%,得益于捕捉模型内在属性
  • 极少参数超越大探针:16K 参数 vs SAPLMA 110K 参数,性能更好
  • 核心洞见:幻觉时 FFN 和 MHSA 的贡献模式异常——FFN 在不该主导的层过度注入知识

亮点与洞察

  • 从"看状态"到"看更新"的范式转变:不看隐状态本身(4000维高噪音),而看更新过程的特征(1维ICR Score),信噪比大幅提升。这种"看变化而非看状态"的思路可迁移到其他模型诊断任务。
  • MHSA-FFN 贡献不一致作为幻觉信号:为理解 LLM 幻觉的内部机制提供了新视角——幻觉可能与 FFN 的异常知识注入有关。
  • JSD 的妙用:将两个分布的比较压缩为一个标量,既保留了信息又降低了维度。

局限与展望

  • 仅测试 7-9B 参数的 LLM,更大模型(70B+)未验证
  • 训练需要幻觉标注数据,zero-shot 检测能力有限
  • ICR Score 在最后几层区分度降低,可能需要加权聚合而非简单平均
  • 仅处理文本幻觉,多模态幻觉(VLM)场景未探索

相关工作与启发

  • vs SAPLMA:直接用隐状态训练探针(110K params),ICR Probe 用 ICR Score 作为更紧凑特征(16K params),性能更好
  • vs SEP:语义熵探针关注不确定性,ICR 关注信息流动态,两者互补
  • vs LN-Entropy:training-free 方法简单但 AUROC 低 10+点,training-based ICR Probe 性价比最高

评分

  • 新颖性: ⭐⭐⭐⭐⭐ ICR Score 概念新颖,从残差流动态角度理解幻觉
  • 实验充分度: ⭐⭐⭐⭐⭐ 3 LLM × 4 数据集 + 消融 + 泛化分析 + case study
  • 写作质量: ⭐⭐⭐⭐⭐ 公式推导清晰,可视化丰富,解释性好
  • 价值: ⭐⭐⭐⭐⭐ 幻觉检测的新范式,对理解 LLM 内部机制也有贡献