为什么 LLM 在结构化知识上产生幻觉：推理过程的机制分析¶

会议: ACL 2026
arXiv: 2605.26362
代码: https://github.com/ShanghaoLi0913/struhall-mechanism
领域: 机制可解释性
关键词: 幻觉检测、结构化知识、注意力机制、前馈网络、知识推理

一句话总结¶

论文通过两个机制指标（结构捷径依赖 SSR 和语义对齐分数 SAS）揭示 LLM 在处理线性化结构化知识时产生幻觉的内部失败机制，并基于这些信号构建了一个轻量级的幻觉检测器。

研究背景与动机¶

领域现状：现代 RAG 框架和 LLM 推理系统普遍使用线性化策略处理结构化知识。知识图谱被转化为三元组序列，表格被展平成自然语言文本，这是因为 Transformer 架构本质上基于顺序 token 表示操作。

现有痛点：关键问题在于，即使提供了充足且准确的结构化知识作为上下文，LLM 仍然频繁产生幻觉回答。现有文献多聚焦于外部干预手段（检索增强、提示工程），但对底层机制缺乏深入理解——为什么模型会忽视显式提供的结构化知识？

核心矛盾：线性化过程打破了结构化数据的显式关系约束，导致模型内部无法正确利用这些知识。Transformer 的归纳偏置倾向于建模自然语言中的顺序结构，但对人为展平的知识结构适应性差。当上下文中既有关键证据又有干扰信息时，模型容易偏向速度快的"捷径"而非完整推理。

本文目标：通过机制可解释性方法，解耦模型的外部证据利用与内部参数记忆，发现幻觉产生的系统性内部动态。

切入角度：作者从 Transformer 的两个核心功能模块切入——自注意力头（选择性地关注输入子集）和前馈网络（存储和整合知识）。假设是：幻觉源于注意力分配与语义证据整合之间的系统不平衡。

核心 idea：引入两个诊断指标量化这种不平衡，从而将黑盒现象转化为可解释的机制信号。

方法详解¶

整体框架¶

论文采用因果分析框架，在冻结模型参数的条件下进行前向传播，同时收集中间层的注意力权重和隐层表示。对于每一条生成的答案，论文计算其对应的 SSR 和 SAS 指标，然后通过统计分析和可视化研究这些指标与幻觉标签之间的关联。最后，基于这两个指标训练简单的 XGBoost 分类器作为幻觉检测器。

关键设计¶

结构捷径依赖指标 (SSR):
- 功能：量化模型在处理线性化结构知识时对最小结构线索的过度依赖程度。核心思想是将输入 token 划分为两类：①核心结构提示 (SS)——连接问题到答案的最小路径集合；②上下文提示 (\(\bar{S}\))——提供关系环境和全局约束的其他知识。
- 核心思路：对于每个答案 token 位置，计算模型各层各注意力头在生成过程中分配到 SS 与 \(\bar{S}\) 的注意力质量。SSR 定义为平均差值：\(\text{SSR}=\frac{1}{L \cdot H \cdot |A|}\sum_{l=1}^{L}\sum_{h=1}^{H}\sum_{i \in A}(\alpha_{l,h,i,S}-\alpha_{l,h,i,\bar{S}})\)。其中 \(\alpha_{l,h,i,S} = \sum_{j \in S}\alpha_{l,h,i,j}\) 是从答案位置 \(i\) 到 SS 中所有位置的注意力权重之和。SSR 界于 [-1, 1]，正值表示过度依赖捷径。
- 设计动机：直观上，如果模型只关注最短路径而忽视周围证据，则无法进行完整的事实验证。这种注意力集中意味着模型采用了"捷径学习"策略，绕过了必要的语义验证。
语义对齐分数 (SAS):
- 功能：衡量模型在生成过程中，其内部表示与输入结构化知识在语义层面的对齐程度。相比注意力只反映信息路由，这个指标直接捕捉前馈网络内的表示是否被知识正确"接地"。
- 核心思路：首先定义支持上下文集合 (SCS)：从核心结构提示 SS 出发，包含其 1 跳邻近三元组。然后对于生成的每个答案 token，提取其在倒数第二层的隐表示 \(\mathbf{h}_t\)，与 SCS 中每个知识单元 \(U_i\) 的编码 \(\mathbf{g}_i\) 计算余弦相似度，取最大值：\(\text{SAS}(y_t)=\max_{U_i \in \mathcal{E}}\cos(\mathbf{h}_t, \mathbf{g}_i)\)。句级 SAS 为所有答案 token 相似度的平均值。值接近 1 表示表示被知识良好接地，接近 -1 表示表示漂移到参数记忆。
- 设计动机：当线性化削弱了语义脚手架时，前馈层容易被训练期间学到的参数先验支配，导致生成的表示偏离证据。这是知识驱动幻觉的根本原因。
两指标的互补性与四象限分析:
- 功能：SSR 和 SAS 捕捉幻觉的两个独立维度：注意力分配的选择性失效 vs. 表示层的语义漂移。
- 核心思路：两者的皮尔逊相关系数仅 -0.26，说明是互补而非冗余信号。四象限分析将输出空间划分为四个区域，每个区域对应不同的失败模式。
- 设计动机：Q2（低 SSR+高 SAS）的幻觉率最低（5%），对应"广泛关注+强语义对齐"的健康状态；Q3（低 SSR+低 SAS）的幻觉率最高（22.2%），对应"关注分散但未能语义融合"的最危险状态；Q4（高 SSR+低 SAS）风险中等（10.9%），说明仅靠注意力集中不足以导致严重幻觉，必须伴随表示漂移。

实验关键数据¶

主实验结果¶

指标	幻觉输出	真实输出	t 统计	p 值
SSR	0.745	0.683	-3.31	<0.001
SAS	0.343	0.412	10.96	<1e-26

发现：幻觉和真实输出在 SSR、SAS 上均呈现统计显著的分布差异，证实了两个指标都是可靠的判别信号，但方向相反，体现了注意力和表示的协作失效。

四象限与跨数据集泛化¶

象限	配置	幻觉率 (1-hop)	幻觉率 (2-hop)	幻觉率 (表格)
Q1	高 SSR，高 SAS	9.5%	36.4%	84.1%
Q2	低 SSR，高 SAS	5.0%	14.8%	80.9%
Q3	低 SSR，低 SAS	22.2%	18.4%	87.5%
Q4	高 SSR，低 SAS	10.9%	54.4%	85.9%

关键发现：虽然绝对幻觉率随任务复杂度变化，但 SAS 的相对重要性保持稳定——高 SAS 象限（Q2）始终表现最好。这表明语义对齐是更普遍的幻觉预测因子，而 SSR 更多反映任务相关的失效模态。

幻觉检测性能对比¶

在 MetaQA-1hop 上，基于 SSR+SAS 的检测器与现有基线的对比：

基于置信度的方法（困惑度、token 置信度）：召回率高但精度低，倾向过度预测幻觉
基于语义相似度的方法（BERTScore、嵌入距离、NLI）：性能中等，无法有效区分
本文方法 (SSR + SAS)：LLaMA2-7B 上 AUC=0.834、F1=0.539；Qwen2.5-7B 上 AUC=0.853、F1=0.461

优势在于：无需模型微调，单次前向推理内计算完成，逻辑可解释（失败原因对应具体机制）。

亮点与洞察¶

从观察到机制的跨越：传统工作停留在"LLM 会幻觉"的现象描述，本文深入内部揭示了注意力过度集中和表示漂移这两个并行的失效轨迹。
指标互补性的发现：SSR 和 SAS 虽弱相关，却捕捉不同失效模式。这启示设计多角度诊断工具时，应重视信号之间的独立性而非简单叠加。
理论到应用的闭环：机制发现直接转化为可部署的检测器，无需重新训练，这对资源受限场景很有价值。
跨格式泛化：同一套框架无需改动就能从图谱推广到表格，说明诊断的是 Transformer 处理任何线性化结构化知识时的通用失效模式。
"最小路径不充分"洞察：Q4 区域虽然注意力聚焦但仍产生幻觉，证实了仅找到最短推理路径是不够的——模型必须在表示层真正理解并融合这条路径。

局限与展望¶

模型类型限制：仅分析解码器模型，编码器-解码器或专用图编码器可能有不同特性。
线性化范式限制：研究假设知识必须转换为顺序 token 序列。但如果直接在模型内部维护图结构表示，这些机制可能不适用。
因果性证据不足：当前分析是相关性研究，未通过干预实验验证 SSR/SAS 是否是幻觉的真实原因。
规模覆盖不完整：实验限于 7B 模型，70B 以上大模型的行为是否一致待验证。
改进方向：可探索针对性改进策略，如在训练时显式惩罚高 SSR-低 SAS 配置、或在推理时动态调整注意力偏置使其更均匀分布。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 双指标互补诊断幻觉的内部机制是原创视角，从注意力和表示两个独立维度联合分析堪称首见。
实验充分度: ⭐⭐⭐⭐ 跨越 1-hop/2-hop/4-hop 和图/表多个设置验证，消融实验详尽，唯独缺乏因果干预实验（仅相关性分析）。
写作质量: ⭐⭐⭐⭐⭐ 逻辑清晰从现象到机制到应用形成完整故事，公式标记准确，图表信息密度高。
价值: ⭐⭐⭐⭐⭐ 既提供理论洞察（理解幻觉机制）又给出实践工具（可部署的检测器），对后续幻觉缓解和 LLM 可靠性工作都有启示。