跳转至

TPA: Next Token Probability Attribution for Detecting Hallucinations in RAG

会议: ACL 2026
arXiv: 2512.07515
代码: 无
领域: 信息检索/幻觉检测
关键词: RAG幻觉检测, 概率归因, 残差流分解, 词性标注, 注意力机制

一句话总结

本文提出 TPA 框架,通过数学方法将 LLM 每个 token 的生成概率精确分解为七个来源(Query、RAG Context、Past Token、Self Token、FFN、Final LayerNorm、Initial Embedding)的贡献,结合词性标注聚合特征,实现 RAG 场景下的 SOTA 幻觉检测。

研究背景与动机

领域现状:RAG 通过检索外部知识来缓解 LLM 幻觉,但仍然可能忽视或误解检索信息。现有检测方法要么依赖启发式代理信号(如一致性检查、语义熵),要么聚焦于 FFN 与 RAG 上下文之间的二元冲突。

现有痛点:(1) 代理信号方法只测量幻觉的"症状"(如输出方差、表面置信度),不触及架构根因,对自信错误失效;(2) 先前内部分析工作(如 ReDeEP)仅关注 FFN vs RAG 的二元冲突,忽略了 LayerNorm、用户查询等其他关键组件的影响。

核心矛盾:FFN 对 token 概率的高贡献并不总是意味着幻觉——对于功能词("the"、"of")这是正常的,但对于命名实体则高度可疑。现有方法无法区分这种语法差异。

本文目标:建立完整的 token 概率归因框架,覆盖 Transformer 所有加性组件,并结合词性信息捕捉语法维度的异常。

切入角度:利用 Transformer 残差流的加性结构,将最终 token 概率精确分解为各组件的贡献增量。

核心 idea:token 概率 = 初始嵌入贡献 + 各层注意力贡献 + 各层 FFN 贡献 + 最终 LayerNorm 调整;注意力贡献进一步按注意力权重分配到 Query/RAG/Past/Self 四个来源;按词性聚合后形成检测特征。

方法详解

整体框架

TPA 分三步:(1) 粗粒度分解——用探测函数(logit lens)将 token 概率分解为 Initial Embedding、各层 Attention、各层 FFN 和 Final LayerNorm 四类贡献;(2) 细粒度归因——将 Attention 贡献通过 logit 空间分配到各注意力头,再按注意力权重归因到 Query/RAG/Past/Self 四个来源,形成七维归因向量;(3) 语法感知特征工程——按词性标签(名词、动词、数词等)聚合归因分数,构建检测特征。

关键设计

  1. 完整概率分解(Theorem 1):

    • 功能:将 token 的最终生成概率精确分解为各组件的贡献之和
    • 核心思路:定义探测函数 \(\Phi(\mathbf{h}, y) = [\text{Softmax}(\mathbf{h} \mathbf{W}_U)]_y\),将任意中间状态映射到 token 概率。每个组件的贡献定义为施加该组件前后探测概率的差值:\(\Delta P_{att}^{(l)} = \Phi(\mathbf{h}_{mid}^{(l)}, y) - \Phi(\mathbf{h}^{(l-1)}, y)\)。由于望远镜求和,所有差值精确加和为最终概率。
    • 设计动机:这是精确分解(非近似),不丢失任何信息。相比仅关注 FFN 的先前工作,覆盖了 LayerNorm 和初始嵌入等被忽视的组件。
  2. Logit 空间注意力头归因:

    • 功能:将每层注意力贡献分配到各注意力头,再归因到四种输入来源
    • 核心思路:由于 Softmax 非线性,直接在概率空间分解注意力头贡献不可行。转到 logit 空间,每个头的 logit 贡献 \(\Delta z_{h,y}^{(l)}\) 可精确计算(投影头输出到 unembedding 向量)。然后用指数 logit 比例分配概率贡献到各头。每个头的贡献再按注意力权重分配到 Query/RAG/Past/Self 四个来源。
    • 设计动机:一阶 Taylor 展开提供了理论基础(Proposition 1),logit 空间是线性的,可以进行加法分解。
  3. 词性感知特征聚合:

    • 功能:捕捉不同语法类别中归因模式的异常
    • 核心思路:对生成的响应进行词性标注(POS tagging),将每个 token 的七维归因向量按词性类别求平均,形成 7×|POS| 维的特征向量。例如,名词的 RAG 贡献低或数词的 LayerNorm 贡献异常高,都是幻觉的强信号。
    • 设计动机:不同词性的正常归因模式完全不同——功能词自然依赖 FFN/LayerNorm,而内容词应主要由 RAG 驱动。不区分词性会淹没这些关键信号。

损失函数 / 训练策略

在归因特征上训练轻量级分类器(如 XGBoost)。整个归因计算可通过单次 teacher-forced 前向传播完成(非自回归),计算效率高。

实验关键数据

主实验

TPA 在 5 个 LLM(Llama2-7B/13B、Llama3-8B、Mistral-7B、Qwen3-8B)和多个 RAG 幻觉检测基准上取得 SOTA 性能,超越基于一致性、语义熵和内部探测的先前方法。

消融实验

配置 关键指标 说明
完整 TPA(7源+POS) SOTA 完整归因+词性聚合
w/o POS 聚合 显著下降 验证词性区分的关键性
仅 FFN+RAG(二元) 下降 验证覆盖全组件的价值
w/o LayerNorm 下降 LayerNorm 是新发现的重要信号源

关键发现

  • LayerNorm 是被忽视的幻觉信号源:SHAP 分析显示,数词(NUM)的 LayerNorm 贡献过高是强幻觉指标——这是传统 FFN vs RAG 框架完全无法捕捉的。
  • 词性区分至关重要:名词的 RAG 低贡献和 FFN 高贡献是幻觉信号,但同样模式在功能词上完全正常。不用 POS 聚合,检测器无法区分这两种情况。
  • 跨架构泛化:TPA 在 Llama2/3、Mistral 和 Qwen3 上均表现一致,说明归因模式是 Transformer 架构的通用特征。
  • 单次前向传播:与需要多次采样的一致性/熵方法不同,TPA 仅需一次 teacher-forced 前向传播,推理效率高。

亮点与洞察

  • 从"检测症状"到"诊断根因"的范式转变:TPA 不再依赖输出层面的代理信号,而是直接分析生成过程中每个组件的实际贡献,提供了更可靠的检测基础。
  • 精确分解的数学优雅:利用残差流的望远镜求和性质实现精确(非近似)概率分解,理论基础扎实。
  • LayerNorm 的新发现:首次揭示 Final LayerNorm 在幻觉产生中的作用,拓展了对 Transformer 内部机制的理解。

局限与展望

  • 假设 RAG 检索的上下文是正确且相关的,不处理检索错误导致的幻觉。
  • POS 标注器本身可能在生成文本上有噪声,影响特征质量。
  • 需要训练分类器,不是完全无监督的检测方法。
  • 细粒度归因在 token 级别进行但最终聚合为响应级别检测,未提供 token 级幻觉定位。

相关工作与启发

  • vs ReDeEP: ReDeEP 只分析 FFN vs RAG 上下文的二元冲突。TPA 将分析扩展到全部七个来源,发现 LayerNorm 等被忽视的信号。
  • vs 语义熵/一致性检查: 这些方法测量输出层面的症状,TPA 直接分析内部生成机制,对"自信错误"更鲁棒。

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 精确的七源概率分解+词性聚合是全新的检测范式
  • 实验充分度: ⭐⭐⭐⭐ 5个模型验证充分,SHAP 分析提供可解释性
  • 写作质量: ⭐⭐⭐⭐⭐ 数学推导严谨,图示清晰
  • 价值: ⭐⭐⭐⭐⭐ 为 RAG 幻觉检测提供了新的分析框架和 SOTA 方法