TPA: Next Token Probability Attribution for Detecting Hallucinations in RAG¶

会议: ACL 2026
arXiv: 2512.07515
代码: 无
领域: 信息检索/幻觉检测
关键词: RAG幻觉检测, 概率归因, 残差流分解, 词性标注, 注意力机制

一句话总结¶

本文提出 TPA 框架，通过数学方法将 LLM 每个 token 的生成概率精确分解为七个来源（Query、RAG Context、Past Token、Self Token、FFN、Final LayerNorm、Initial Embedding）的贡献，结合词性标注聚合特征，实现 RAG 场景下的 SOTA 幻觉检测。

研究背景与动机¶

领域现状：RAG 通过检索外部知识来缓解 LLM 幻觉，但仍然可能忽视或误解检索信息。现有检测方法要么依赖启发式代理信号（如一致性检查、语义熵），要么聚焦于 FFN 与 RAG 上下文之间的二元冲突。

现有痛点：(1) 代理信号方法只测量幻觉的"症状"（如输出方差、表面置信度），不触及架构根因，对自信错误失效；(2) 先前内部分析工作（如 ReDeEP）仅关注 FFN vs RAG 的二元冲突，忽略了 LayerNorm、用户查询等其他关键组件的影响。

核心矛盾：FFN 对 token 概率的高贡献并不总是意味着幻觉——对于功能词（"the"、"of"）这是正常的，但对于命名实体则高度可疑。现有方法无法区分这种语法差异。

本文目标：建立完整的 token 概率归因框架，覆盖 Transformer 所有加性组件，并结合词性信息捕捉语法维度的异常。

切入角度：利用 Transformer 残差流的加性结构，将最终 token 概率精确分解为各组件的贡献增量。

核心 idea：token 概率 = 初始嵌入贡献 + 各层注意力贡献 + 各层 FFN 贡献 + 最终 LayerNorm 调整；注意力贡献进一步按注意力权重分配到 Query/RAG/Past/Self 四个来源；按词性聚合后形成检测特征。

方法详解¶

整体框架¶

TPA 分三步：(1) 粗粒度分解——用探测函数（logit lens）将 token 概率分解为 Initial Embedding、各层 Attention、各层 FFN 和 Final LayerNorm 四类贡献；(2) 细粒度归因——将 Attention 贡献通过 logit 空间分配到各注意力头，再按注意力权重归因到 Query/RAG/Past/Self 四个来源，形成七维归因向量；(3) 语法感知特征工程——按词性标签（名词、动词、数词等）聚合归因分数，构建检测特征。

关键设计¶

完整概率分解（Theorem 1）:
- 功能：将 token 的最终生成概率精确分解为各组件的贡献之和
- 核心思路：定义探测函数 \(\Phi(\mathbf{h}, y) = [\text{Softmax}(\mathbf{h} \mathbf{W}_U)]_y\)，将任意中间状态映射到 token 概率。每个组件的贡献定义为施加该组件前后探测概率的差值：\(\Delta P_{att}^{(l)} = \Phi(\mathbf{h}_{mid}^{(l)}, y) - \Phi(\mathbf{h}^{(l-1)}, y)\)。由于望远镜求和，所有差值精确加和为最终概率。
- 设计动机：这是精确分解（非近似），不丢失任何信息。相比仅关注 FFN 的先前工作，覆盖了 LayerNorm 和初始嵌入等被忽视的组件。
Logit 空间注意力头归因:
- 功能：将每层注意力贡献分配到各注意力头，再归因到四种输入来源
- 核心思路：由于 Softmax 非线性，直接在概率空间分解注意力头贡献不可行。转到 logit 空间，每个头的 logit 贡献 \(\Delta z_{h,y}^{(l)}\) 可精确计算（投影头输出到 unembedding 向量）。然后用指数 logit 比例分配概率贡献到各头。每个头的贡献再按注意力权重分配到 Query/RAG/Past/Self 四个来源。
- 设计动机：一阶 Taylor 展开提供了理论基础（Proposition 1），logit 空间是线性的，可以进行加法分解。
词性感知特征聚合:
- 功能：捕捉不同语法类别中归因模式的异常
- 核心思路：对生成的响应进行词性标注（POS tagging），将每个 token 的七维归因向量按词性类别求平均，形成 7×|POS| 维的特征向量。例如，名词的 RAG 贡献低或数词的 LayerNorm 贡献异常高，都是幻觉的强信号。
- 设计动机：不同词性的正常归因模式完全不同——功能词自然依赖 FFN/LayerNorm，而内容词应主要由 RAG 驱动。不区分词性会淹没这些关键信号。

损失函数 / 训练策略¶

在归因特征上训练轻量级分类器（如 XGBoost）。整个归因计算可通过单次 teacher-forced 前向传播完成（非自回归），计算效率高。

实验关键数据¶

主实验¶

TPA 在 5 个 LLM（Llama2-7B/13B、Llama3-8B、Mistral-7B、Qwen3-8B）和多个 RAG 幻觉检测基准上取得 SOTA 性能，超越基于一致性、语义熵和内部探测的先前方法。

消融实验¶

配置	关键指标	说明
完整 TPA（7源+POS）	SOTA	完整归因+词性聚合
w/o POS 聚合	显著下降	验证词性区分的关键性
仅 FFN+RAG（二元）	下降	验证覆盖全组件的价值
w/o LayerNorm	下降	LayerNorm 是新发现的重要信号源

关键发现¶

LayerNorm 是被忽视的幻觉信号源：SHAP 分析显示，数词（NUM）的 LayerNorm 贡献过高是强幻觉指标——这是传统 FFN vs RAG 框架完全无法捕捉的。
词性区分至关重要：名词的 RAG 低贡献和 FFN 高贡献是幻觉信号，但同样模式在功能词上完全正常。不用 POS 聚合，检测器无法区分这两种情况。
跨架构泛化：TPA 在 Llama2/3、Mistral 和 Qwen3 上均表现一致，说明归因模式是 Transformer 架构的通用特征。
单次前向传播：与需要多次采样的一致性/熵方法不同，TPA 仅需一次 teacher-forced 前向传播，推理效率高。

亮点与洞察¶

从"检测症状"到"诊断根因"的范式转变：TPA 不再依赖输出层面的代理信号，而是直接分析生成过程中每个组件的实际贡献，提供了更可靠的检测基础。
精确分解的数学优雅：利用残差流的望远镜求和性质实现精确（非近似）概率分解，理论基础扎实。
LayerNorm 的新发现：首次揭示 Final LayerNorm 在幻觉产生中的作用，拓展了对 Transformer 内部机制的理解。

局限与展望¶

假设 RAG 检索的上下文是正确且相关的，不处理检索错误导致的幻觉。
POS 标注器本身可能在生成文本上有噪声，影响特征质量。
需要训练分类器，不是完全无监督的检测方法。
细粒度归因在 token 级别进行但最终聚合为响应级别检测，未提供 token 级幻觉定位。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 精确的七源概率分解+词性聚合是全新的检测范式
实验充分度: ⭐⭐⭐⭐ 5个模型验证充分，SHAP 分析提供可解释性
写作质量: ⭐⭐⭐⭐⭐ 数学推导严谨，图示清晰
价值: ⭐⭐⭐⭐⭐ 为 RAG 幻觉检测提供了新的分析框架和 SOTA 方法