Hallucination Detection in LLMs with Topological Divergence on Attention Graphs¶
会议: ACL 2026
arXiv: 2504.10063
代码: https://github.com/sb-ai-lab/TOHA
领域: 信息检索 / RAG / 幻觉检测
关键词: TDA、注意力图、Manifold Topology Divergence、幻觉感知头、训练免
一句话总结¶
TOHA 把 LLM 的 attention 矩阵当成带权图,用拓扑数据分析里的 Manifold Topology Divergence 度量「response 子图相对 prompt 子图的拓扑新颖度」,并发现存在跨数据集稳定的「幻觉感知头」——只用 10 个这样的头做平均,就能在 RAG 场景下做到 training-free + 比 SelfCheckGPT 快 70× 且 ROC-AUC 显著领先。
研究背景与动机¶
领域现状:LLM + RAG 已是当下事实部署形态,但模型仍会写出"和提供的上下文不符"的幻觉。现有检测方法可粗分三类:(1) 不确定性——perplexity / max entropy 用输出概率;(2) 一致性——SelfCheckGPT / Semantic Entropy / EigenScore 跑 N 次重新采样比一致性;(3) 内部状态——HaloScope / LLM-Check / ReDeEP 探针线性分类隐藏层 / attention。
现有痛点:(1) 监督内部状态方法需要大量人工标注幻觉样本;(2) 一致性方法要重生成 10–20 次,开销爆炸;(3) 输出概率本身不能完全反映模型真实不确定性;(4) 已有 attention-based 工作要么把所有 head 平等对待,要么只看 attention 数值不看几何结构,浪费了 attention 矩阵自带的图结构信息。
核心矛盾:高质量幻觉检测要么吃数据(监督)要么吃算力(多次采样),二者皆便宜的方案目前缺失;同时学界已知"attention 内部状态信息丰富"但没人系统地挖它的拓扑结构。
本文目标:(1) 找到一个 training-free、单次生成、用少量探针就能选关键 head 的检测器;(2) 让"幻觉是否发生"和"attention 几何/拓扑结构"有可证明的联系;(3) 验证选出的"幻觉感知头"在跨数据集场景下能否迁移。
切入角度:把每个 head 的 attention 矩阵看成一个完全带权图,prompt token 与 response token 是两个子顶点集;在这种图上做 Manifold Topology Divergence 计算 response 子图相对 prompt 子图的拓扑新颖度,并把"新颖度过高"作为幻觉信号(直觉:忠实的回答应该和提示在 attention 几何上相互"嵌入")。
核心 idea:用 0 阶同调(MST 长度)量化 "response 接到 prompt 上要花多长的最小连接距离",距离越大 = response 越脱离 prompt = 越可能是幻觉;并发现只需 ≤10 个特定 head 做平均就足够。
方法详解¶
整体框架¶
TOHA 流水线(Algorithm 1 两阶段):(a) HeadsSelection——用一个很小的探针集(hallucination 集 \(S_h\) + grounded 集 \(S_g\))算每个 head \((i,j)\) 的 \(\Delta_{ij}\)(幻觉 vs grounded 上的拓扑散度均值差),降序排序;从 \(N=1\) 到 \(N_{\max}=10\) 逐个累加平均,挑 AUROC 最大的 \(N_{\mathrm{opt}}\)。(b) Prediction——对测试样本 \(s\) 算这 \(N_{\mathrm{opt}}\) 个 head 的 \(d_{ij}(s)\) 平均,作为幻觉得分 \(p_s\)。整套流程不训练任何参数,只看 forward pass 出来的 attention 矩阵。
关键设计¶
-
Attention as Weighted Graph + 拓扑散度 MTop-Div\(_G\)(R,P):
- 功能:把"response 是否忠于 prompt"从模糊语义判断换成可数值化的图论度量。
- 核心思路:对每个 head,把 attention 矩阵 \(W\) 解释为完全无向带权图 \(G\),边权 \(1-w_{ij}\) 作 token 间的"伪距离"。顶点集天然分成 prompt \(P\) 与 response \(R\)。把 \(P\) 内边权清零,对修改后的图做 Vietoris-Rips 复形求 0 阶同调 barcode \(\mathcal{B}_0\),散度定义为 \(\operatorname{MTop-Div}_G(R,P)=\sum_{[b_i,d_i]\in\mathcal{B}_0}|d_i-b_i|\)。Proposition 3.1 证明这就是「最小生成森林将 \(R\) 接到 \(P\) 上」的总边长。还能从信息论角度证明 \(\operatorname{MTop-Div}_G(R,P)\geq L_{\mathrm{MST}}(R\cup P)-L_{\mathrm{MST}}(P)\),正是 response token 的几何分散度对 MST 长度的增量,可解释为「response 相对 prompt 的结构新颖度」。
- 设计动机:过去 attention-based 方法只看数值或全 head 求和,忽略了 prompt 与 response 子图之间的拓扑关系;MST/0 阶同调正好捕捉「response 离 prompt 多远」这一直觉,且数学上同时具备几何和信息论双重解释。
-
Hallucination-Aware Heads 发现:
- 功能:把 attention head 的"幻觉敏感度"显式量化,挑出极小子集做检测,既省算力又解释清楚检测信号来源。
- 核心思路:在训练集上对每个 head 算 \(\Delta_{ij}=\frac{1}{|S_{\mathrm{hallu}}|}\sum_{s\in S_{\mathrm{hallu}}} d_{ij}(s)-\frac{1}{|S_{\mathrm{gr}}|}\sum_{s\in S_{\mathrm{gr}}} d_{ij}(s)\),其中 \(d_{ij}(s)=\frac{1}{|R_{ij}^s|}\operatorname{MTop-Div}_{G_{ij}^s}(R_{ij}^s,P_{ij}^s)\)。可视化跨数据集的 \(\Delta_{ij}\) 散点(图 2)发现 Mistral-7B 的 4 个 head、Llama-2-7B 的 3 个 head 始终落在右上角,无论数据集换成什么都对幻觉敏感,且这些 head 部分对应已被 Sun 2025 报告过的"copying head"。
- 设计动机:(a) 跨数据集稳定 = 强可迁移;(b) 只用极少 head 让推理几乎零额外成本;(c) 与 copying 行为吻合也给出了一个机制解释——忠实回答会"复制"prompt 信息,复制不充分则散度变高。
-
设零 prompt 内边权的几何取舍:
- 功能:让散度计算只反映「prompt-response 跨集距离」,剔除 prompt 自身的语义结构噪声。
- 核心思路:在算 MTop-Div 前,先把 \(P\) 内所有边权置零(等价于把 prompt 视作单个"接地"超节点的连通分量),然后再做最小生成森林。这样最终拓扑只衡量 response 节点"接到 prompt"需要走多远,而不被 prompt 内部丰富的语义/句法连接干扰。§4.4 消融实验确认这个简化是必要的——保留 prompt 内边权反而把信号淹没。
- 设计动机:prompt 内部的高 attention 连接虽然语义上有意义,但对幻觉检测是噪声;把它清掉相当于"只看跨界连接",是检测任务专属的合理简化。
损失函数 / 训练策略¶
TOHA 完全 training-free,唯一"训练"步骤是 HeadsSelection 阶段的 head 排序,需要一个极小标注集(验证集 100 条 + 5% 实验拆分),且这些标注只用来排 head 而非训分类器。\(N_{\mathrm{opt}}\) 上限为 10。
实验关键数据¶
主实验:ROC-AUC(↑),5 个数据集 × 5 个 LLM¶
| 模型/方法 | MS MARCO | CNN/DM | CoQA | SQuAD | XSum |
|---|---|---|---|---|---|
| Mistral-7B | |||||
| SelfCheckGPT (一致性) | 0.63 | 0.51 | 0.86 | 0.71 | 0.66 |
| Max entropy (不确定) | 0.68 | 0.60 | 0.73 | 0.75 | 0.71 |
| ReDeEP (内部) | 0.54 | 0.47 | 0.59 | 0.45 | 0.63 |
| TOHA | 0.76 | 0.60 | 0.89 | 0.96 | 0.66 |
| LLaMA-2-7B | |||||
| SelfCheckGPT | 0.59 | 0.60 | 0.66 | 0.57 | 0.64 |
| Semantic entropy | 0.53 | 0.51 | 0.76 | 0.73 | 0.61 |
| TOHA | 0.65 | 0.56 | 0.90 | 0.87 | 0.68 |
| LLaMA-2-13B | |||||
| Max entropy | 0.62 | 0.53 | 0.66 | 0.78 | 0.59 |
| TOHA | 0.67 | 0.56 | 0.92 | 0.88 | 0.66 |
TOHA 在 MS MARCO 上相对最强 baseline 涨 11.7%,CoQA 上对 LLaMA-2-7B 涨 21.6%。Wilcoxon-Holm post-hoc 显著性检验 TOHA 总排名 1.67 且对每个 baseline 都 \(p\leq 0.0016\) 显著。
消融/分析:效率 + 迁移性¶
| 维度 | 数值 | 说明 |
|---|---|---|
| 相对 SelfCheckGPT (单次额外生成) | ~7× faster | TOHA 只跑一次 forward |
| 相对 SelfCheckGPT (实际 10–20 次) | ~70× faster | 实测部署场景 |
| 与 max entropy 接近 | 同量级 | 但 AUROC 高得多 |
| 训练集大小 | $ | S_h\cup S_g |
| 选中 head 数 | \(N_{\mathrm{opt}}\leq 10\) | 跨数据集稳定 4 个 (Mistral)/3 个 (Llama-2) |
| HotpotQA 多跳 | TOHA 优于所有基线 | "in the wild" 验证 |
| 跨数据集迁移 (XSum↔CNN/DM) | 落在 1σ 内 | 选出的 head 通用性强 |
关键发现¶
- 不需要全 head:只 ≤10 个 head 就能击败所有 baseline;这暗示 attention 矩阵里的"幻觉信号"高度集中而非均匀分布。
- 拓扑信号 > 数值信号:直接用 attention 数值的 ReDeEP/LLM-Check 在多数任务上跌到 0.5 附近(接近随机),TOHA 用同样数据但提取 MST 拓扑就能稳定到 0.8+,说明"几何结构"比"绝对权重"信息量更高。
- 跨任务迁移强:选中的 head 在 XSum 上选出来,搬到 CNN/DM 上性能仍在标准差内,跨数据集 transferability 是该方法的核心优势。
- 机制可解释:被选中的 head 部分是已知的"copying head"——这给"高散度 ⇒ 复制不足 ⇒ 幻觉"提供了直觉链路。
亮点与洞察¶
- 把 TDA 真正用对了场景:之前 TDA 在 NLP 多是"acc 高几个点"的描述性研究;本文给出 MTop-Div\(_G\)(R,P) 的几何(MSF 长度)+ 信息论(MST 长度增量 ≈ 熵)双重等价形式,让一个看似抽象的指标变得既可计算又可解释,这对让 TDA 进入主流 LLM 工具箱很重要。
- "幻觉感知头"的发现具有独立价值:它揭示了 hallucination 是 attention 机制里某些 head 的局部行为而非全网现象,给 mechanistic interpretability 社区提供了具体抓手,可能催生更精准的 hallucination 抑制方法(如只在这些 head 上做干预)。
- "prompt 内边清零"是个非常聪明的工程取舍:把语义结构噪声直接消掉,让指标只对"跨界距离"敏感;这种"任务特化的拓扑简化"思路在其它图任务里也可以借鉴(例如域适应中清掉源域内部边)。
局限与展望¶
- 依赖少量标注:虽然只要 100 条,但需要这 100 条带"幻觉/不幻觉"标签来选 head;纯零样本场景仍需研究。
- 白盒前提:必须能读 attention 矩阵,闭源 API 模型(GPT-4o、Claude)用不上。
- 只覆盖 RAG 场景:TOHA 的"散度对应 prompt-response 关系"假设在自由生成(无 prompt context)场景下意义模糊,论文也仅评测 RAG。
- 0 阶同调可能不够:作者只用了 \(\mathcal{B}_0\) 即连通分量,未来用 \(\mathcal{B}_1\)(loop)或多阶 persistent homology 可能解锁更多结构信号。
- 可改进方向:与 RLHF/对齐训练联合,把"低散度 head"作为可学习的正则;或用 TOHA 信号触发 RAG 二次检索改写。
相关工作与启发¶
- vs SelfCheckGPT / Semantic Entropy:一致性方法靠重生成 10-20 次,TOHA 一次 forward;准确率多数 dataset 上 TOHA 还更高。
- vs HaloScope / LLM-Check / ReDeEP:同样用内部状态,但前者要么训探针要么平等对待 head;TOHA 用拓扑选 head 既免训练又解释强。
- vs Kushnareva 2021 / Tulchinskii 2023:同样把 attention 视为 TDA 对象,但前作多用于分类任务的全局拓扑;TOHA 首次将 manifold topology divergence 用到 prompt-response 跨集结构上,且证明它的 MSF 等价性。
评分¶
- 新颖性: ⭐⭐⭐⭐ 把 manifold topology divergence 引入 attention 图分析并给出 MSF 等价证明
- 实验充分度: ⭐⭐⭐⭐ 5 LLM × 5 数据集 + HotpotQA + 跨数据集迁移 + 效率对比 + 显著性检验
- 写作质量: ⭐⭐⭐⭐ 直觉图(图1)和 head 散点图(图2)都讲得很清楚,公式推导完备
- 价值: ⭐⭐⭐⭐ 70× 加速 + 100 条标注 + 通用迁移,是工业 RAG 部署可直接落地的检测器