ICR Probe: Tracking Hidden State Dynamics for Reliable Hallucination Detection in LLMs¶
会议: ACL 2025
arXiv: 2507.16488
代码: https://github.com/XavierZhang2002/ICR_Probe
领域: 幻觉检测
关键词: 幻觉检测, 隐状态动态, 残差流, ICR分数, 轻量探针
一句话总结¶
提出 ICR Score(Information Contribution to Residual Stream),通过测量 MHSA 和 FFN 模块对隐状态更新的贡献一致性来量化残差流动态,构建仅 16K 参数的 ICR Probe,在 4 个数据集 × 3 个 LLM 上幻觉检测 AUROC 全面超越基线。
研究背景与动机¶
领域现状:LLM 幻觉检测方法分三类:(a) 基于输出一致性(需要多次生成);(b) 基于 logit 概率(需参考答案);(c) 基于隐状态(无需外部参考最实用)。
现有痛点:隐状态方法通常关注静态、孤立的高维表示(~4000维),忽略了隐状态跨层的动态演化。SAPLMA 直接探测隐状态需要 110K 参数,SEP 用语义熵但泛化性欠佳。
核心矛盾:隐状态本身高维且静态,直接用它做分类信号信噪比低。
本文目标 找到一个低维、稳定、跨数据集一致的隐状态特征来检测幻觉。
切入角度:不看隐状态本身,而看其更新过程——MHSA(上下文路由)和 FFN(知识检索)对残差流的贡献比例。
核心 idea:用 JSD 度量隐状态更新方向与注意力分数的一致性 → ICR Score → 跨层聚合 → 轻量 Probe 检测幻觉。
方法详解¶
整体框架¶
在 LLM 的每一层 \(\ell\),对每个 token \(i\) 计算 ICR Score:(1) 提取注意力分数 \(\text{Attn}_i^\ell\);(2) 计算隐状态更新 \(\Delta x_i^\ell = x_i^\ell - x_i^{\ell-1}\) 在所有 token 隐状态方向上的投影向量 \(\text{Proj}_i^\ell\);(3) 用 JSD 度量 \(\text{Proj}\) 和 \(\text{Attn}\) 的一致性得到 ICR Score。所有层的 ICR Score 经 token 平均后输入 4 层 MLP(16K 参数)输出幻觉概率。
关键设计¶
-
ICR Score 构造:
- 功能:量化每层中 MHSA vs FFN 对隐状态更新的主导程度
- 核心思路:\(\text{ICR}_i^\ell = \text{JSD}(\text{Proj}_i^\ell, \text{Attn}_i^\ell)\)。投影向量 \(p_{i,j}^\ell = \frac{(\Delta x_i^\ell)^T \cdot x_j^\ell}{\|x_j^\ell\|}\) 度量更新方向与各 token 表示的对齐度
- 设计动机:ICR 小说明更新由 MHSA 主导(上下文路由);ICR 大说明 FFN 主导(参数知识注入)。幻觉倾向于在 FFN 异常注入信息时发生
- 与之前方法的区别:不直接用 4000 维隐状态,而用 1 维 ICR Score 压缩每层信息
-
跨层稳定性:
- 功能:验证 ICR Score 的层级模式跨数据集一致
- 核心思路:早期层(0-3)ICR 低(MHSA 主导局部提取)→ 中间层(4-20)ICR 升高(FFN 注入知识)→ 后期层(21+)ICR 降低(MHSA 精炼整合)
- 设计动机:这种一致模式是模型内在属性而非数据特定的,保证了泛化性
-
ICR Probe 架构:
- 功能:用全部 L 层的 ICR Score 作为输入,4 层 MLP 输出幻觉概率
- 核心思路:输入为 token-wise 平均后的 \(1 \times L\) 向量,架构 \((L, 128, 64, 32, 1)\),总参数 <16K
- 设计动机:ICR Score 已是强特征,不需要大模型;16K 参数 vs SAPLMA 的 110K 参数
损失函数 / 训练策略¶
二元交叉熵 loss + Adam 优化器,标准监督学习。
实验关键数据¶
主实验¶
| LLM | 方法 | HaluEval | SQuAD | HotpotQA | TriviaQA |
|---|---|---|---|---|---|
| Gemma-2 | ICR Probe | 0.8436 | 0.8142 | 0.8409 | 0.8001 |
| Gemma-2 | SAPLMA | 0.8101 | 0.7175 | 0.8193 | 0.7751 |
| Qwen2.5 | ICR Probe | 0.8003 | 0.7456 | 0.7917 | 0.7684 |
| Qwen2.5 | SAPLMA | 0.7799 | 0.6929 | 0.7750 | 0.8225 |
| Llama-3 | ICR Probe | 0.7603 | 0.7634 | 0.7982 | 0.7325 |
| Llama-3 | SAPLMA | 0.7238 | 0.7107 | 0.7701 | 0.7650 |
消融实验¶
| 配置 | AUROC | 说明 |
|---|---|---|
| ICR Probe (Attn+Proj) | 0.8436 | 完整模型 |
| 仅 Attn | 0.5000 | 注意力分数本身无判别力 |
| 仅 Proj | 0.5000 | 投影方向本身也不行 |
| Attn+Proj (ICR=JSD) | 0.8436 | 二者的一致性才有信号 |
关键发现¶
- ICR Score 是有效的幻觉检测信号:单层 AUROC 可达 0.769(layer 11),全层聚合后更高
- 跨数据集泛化强:跨域 AUROC 降幅仅 8.61% vs SAPLMA 10.18%,得益于捕捉模型内在属性
- 极少参数超越大探针:16K 参数 vs SAPLMA 110K 参数,性能更好
- 核心洞见:幻觉时 FFN 和 MHSA 的贡献模式异常——FFN 在不该主导的层过度注入知识
亮点与洞察¶
- 从"看状态"到"看更新"的范式转变:不看隐状态本身(4000维高噪音),而看更新过程的特征(1维ICR Score),信噪比大幅提升。这种"看变化而非看状态"的思路可迁移到其他模型诊断任务。
- MHSA-FFN 贡献不一致作为幻觉信号:为理解 LLM 幻觉的内部机制提供了新视角——幻觉可能与 FFN 的异常知识注入有关。
- JSD 的妙用:将两个分布的比较压缩为一个标量,既保留了信息又降低了维度。
局限与展望¶
- 仅测试 7-9B 参数的 LLM,更大模型(70B+)未验证
- 训练需要幻觉标注数据,zero-shot 检测能力有限
- ICR Score 在最后几层区分度降低,可能需要加权聚合而非简单平均
- 仅处理文本幻觉,多模态幻觉(VLM)场景未探索
相关工作与启发¶
- vs SAPLMA:直接用隐状态训练探针(110K params),ICR Probe 用 ICR Score 作为更紧凑特征(16K params),性能更好
- vs SEP:语义熵探针关注不确定性,ICR 关注信息流动态,两者互补
- vs LN-Entropy:training-free 方法简单但 AUROC 低 10+点,training-based ICR Probe 性价比最高
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ ICR Score 概念新颖,从残差流动态角度理解幻觉
- 实验充分度: ⭐⭐⭐⭐⭐ 3 LLM × 4 数据集 + 消融 + 泛化分析 + case study
- 写作质量: ⭐⭐⭐⭐⭐ 公式推导清晰,可视化丰富,解释性好
- 价值: ⭐⭐⭐⭐⭐ 幻觉检测的新范式,对理解 LLM 内部机制也有贡献