Tracing Relational Knowledge Recall in Large Language Models¶

会议: ACL 2026 Findings
arXiv: 2604.19934
代码: nicpopovic.com/publications/tracing
领域: 可解释性 / 知识表示
关键词: 关系知识、注意力头归因、线性探针、知识回忆机制、特征归因

一句话总结¶

本文系统研究LLM在文本生成过程中回忆关系知识的内部机制，发现注意力头对残差流的逐头贡献（\(\Delta_{att,h}\)）是线性关系分类的最强特征（准确率达91%），并提出HeadScore和TokenScore两种探针归因方法来分解预测到注意力头和源token级别，揭示了探针精度与关系特异性、实体连通度及探针信号集中度之间的明确相关性。

研究背景与动机¶

领域现状：LLM如何存储和回忆关系知识是可解释性研究的核心问题。已有研究揭示了知识回忆的典型图景：(1) 主语实体信息在中间到后期层的主语跨度最后token处累积；(2) 谓词/关系信息通过注意力头累积到对象生成前的token位置；(3) 对象实体通过注意力从MLP子层检索。这一过程有时可以用线性变换近似，并可追溯到关系特定的神经元。

现有痛点：对于实体表示，已有研究表明通过探针可以可靠地进行命名实体识别和消歧。但对于关系类型特征，尚不清楚哪些内部表示支持忠实的线性关系分类，也不清楚为什么某些关系类型比其他类型更容易被线性捕获。已有分析无法将关系预测同时追溯到特定的注意力头和源token。

核心矛盾：虽然知道注意力头和MLP在知识回忆中扮演角色，但缺乏一种可以同时在注意力头级别和token级别进行归因的探针方法来系统地理解关系分类的成功与失败因素。

本文目标：(1) 找到最适合线性关系分类的LLM内部表示；(2) 确定什么因素预测探针在关系分类上的成功或失败。

切入角度：聚焦于注意力头对残差流的逐头贡献，因为这些特征可以自然分解到源token级别，使得归因分析可行。

核心 idea：使用注意力头的逐头贡献 \(\Delta_{att,h}\) 作为线性探针特征进行关系分类，并通过HeadScore（注意力头级归因）和TokenScore（源token级归因）两种方法来分解探针的预测决策。

方法详解¶

整体框架¶

本文把"关系知识回忆"设置成一个受控的填空式生成场景：给定一句含主语、待预测对象的 prompt，在对象生成前的那个 token 位置抓取模型内部状态，训练一个线性探针去判别这句话所表达的关系类型。关键在于选用注意力头的逐头贡献 \(\Delta_{att,h}\) 作为探针特征——它既是最强的关系判别信号，又能自然拆解到单个注意力头与单个源 token，从而支撑起 HeadScore 与 TokenScore 两套归因分析。整套流程在 FewRel 验证集上对 LLaMA-3.2 1B/3B、LLaMA-3.1 8B、Qwen3 4B 四个指令调优模型做系统评估。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["输入 prompt<br/>主语 + 待生成对象"] --> B["抓取对象生成前 token 位置<br/>的注意力头内部状态"]
    B --> C["注意力头贡献特征 Δ_att,h<br/>逐头分解，可追溯到源 token"]
    C --> D["线性探针<br/>判别关系类型（n-way k-shot）"]
    D --> E["HeadScore 与 TokenScore<br/>把探针决策拆回头与源 token"]
    E --> F["关系分类成败的预测因子<br/>四个相关性（含无数据诊断信号）"]

关键设计¶

1. 注意力头贡献特征 \(\Delta_{att,h}\)：可追溯的最强关系信号

完整的注意力状态或 MLP 状态虽然信息更丰富，却说不清某个判别究竟来自哪个头、哪个 token，因而天然不可归因。本文转而使用注意力头对残差流的逐头贡献：对目标位置 \(t\)（对象生成前），头 \(h\) 的贡献为 \(\Delta_{att,h}(t) = W_{O,h}(\sum_j \text{Attn}_h(t,j) V_h(j))\)，即注意力加权聚合后再过输出投影矩阵的结果；它还能进一步拆到单个源 token \(j\) 上，\(\Delta_{att,h}(t,j) = W_{O,h}(\text{Attn}_h(t,j) V_h(j))\)。反直觉的是，这种分解后的特征不仅可追溯，分类精度还反过来高于完整状态（>90% vs 完整注意力约 83–87%）——拆解消去了不同头之间的相互干扰，让线性可分性更好，也为下游的 HeadScore 与 TokenScore 归因铺好了路。

2. HeadScore 与 TokenScore：把探针决策拆回头与 token

要解释探针为何做出某个预测，就需要把它的线性权重投回到具体的头和源 token 上。给定探针权重矩阵 \(W\) 和预测类 \(\hat{c}\)，先构造一个对比方向 \(\Delta W = W_{\hat{c}} - \sum_{c \neq \hat{c}} \pi_c W_c\)，即用 softmax 权重 \(\pi_c\) 加权减去各竞争类的权重，突出 \(\hat{c}\) 相对其它类的判别方向。HeadScore 把每维特征的贡献 \(\Delta W_m x_m\) 按所属头聚合，\(\text{HeadScore}_{\ell,h} = \sum_{m:\ell_m=\ell, h_m=h} \Delta W_m x_m\)，揭示哪些头在驱动分类；TokenScore 则借助头贡献的 token 分解把归因细化到源 token，\(\text{TokenScore}_\ell(j) = \sum_{m:\ell_m=\ell} \Delta W_m \cdot [\Delta_{att,h_m}(t,j)]_{d_m}\)，从而看清决策信号到底来自输入的哪些词，使错误分析与词汇捷径检测成为可能。

3. 关系分类成败的预测因子：四个相关性

为解释"为什么有些关系类型探针好做、有些极难"，本文在 16-way-5-shot 设置下系统分析探针精度与四个因素的相关性。前三个刻画输入数据本身的难度：Wikidata 输出范围（一种关系对应多少种不同对象）与精度负相关，对象越发散越难；主-宾实体对之间的平均实体连通度（共享的 Wikidata 属性数量）也负相关，连通越密关系越易混淆；而示例间的 TF-IDF 词汇相似度正相关，词面越像越好分。第四个因素来自探针自身——HeadScore 达到 95% 累积贡献所需的头数量与精度负相关：信号越集中在少数头，分类越准。由于这一指标不依赖任何标注数据，它可以直接当作探针行为的诊断信号，预测探针在新关系类型上的可靠性。

损失函数 / 训练策略¶

线性探针使用交叉熵损失和 Adam 优化器训练 200 个 epoch。使用 RelSpec 专家特征选择，每个关系类型选取 top 3000 个特征。采用 FewRel 验证集的 n-way k-shot 评估，所有结果在 5 个随机种子 × 500 个 episode 上平均。

实验关键数据¶

主实验（5-way-5-shot关系分类精度，%）¶

特征类型	LLaMA-3.2 1B	LLaMA-3.2 3B	LLaMA-3.1 8B	Qwen3 4B
Attention (完整)	83.65	86.61	86.79	75.06
\(\Delta_{att,h}\) (逐头)	90.26	91.06	91.09	89.66
MLP (完整)	85.79	86.40	85.90	80.37
\(\Delta_{MLP,h}\) (逐头)	89.96	90.90	89.99	88.43
\(\Delta_{att,e_1}\) (实体)	59.64	60.16	59.85	59.58

消融实验（词汇捷径分析）¶

模型	Spearman ρ	Mass	StrongAlign× (%)
LLaMA-3.2 1B	0.115	0.491	7.7
LLaMA-3.1 8B	0.095	0.475	5.3
Qwen3 4B	0.099	0.490	5.9

关键发现¶

\(\Delta_{att,h}\) 是所有模型中最强的关系分类特征，始终优于完整注意力/MLP状态及其他变体，准确率超过90%
仅观察源实体token的贡献（\(\Delta_{att,e_1}\)）对关系分类无益（约59-60%），说明关系信号不仅仅编码在实体token上
探针精度在不同关系类型间差异巨大（如"part of"的F1为39.76%，而"constellation"为99.24%），与输出范围和实体连通度负相关
HeadScore信号越集中在少数注意力头的关系类型，探针精度越高——这可能与特征叠加（superposition）有关
仅5.3%-7.7%的错误与词汇捷径一致，表明线性关系探针的决策不是主要由词汇线索驱动

亮点与洞察¶

逐头贡献优于完整状态：反直觉的是，分解后的逐头特征比信息更丰富的完整状态更适合线性分类。这可能因为分解消除了不同头之间的干扰，使线性分离更容易。这个发现对其他LLM探针研究也有指导意义。
HeadScore集中度作为无数据诊断指标：探针信号的集中度（需要多少头达到95%贡献）是探针自身的属性，不依赖于标注数据，可以预测探针在新关系类型上的表现——这为探针的可靠性评估提供了实用工具。
TokenScore揭示探针行为：通过将归因细化到token级别，可以检查探针是否依赖语义相关token（如"crosses"）还是共现token（如"bridge"），为诊断探针行为提供了精细的工具。

局限与展望¶

仅在FewRel验证集上评估，关系类型相对有限（16个类）
所有发现是相关性而非因果性——输出范围、连通度等因素的影响机制尚待因果实验验证
评估模型范围从1B到8B，未测试更大模型
探针方法解释的是探针的决策而非LLM的内部计算，二者之间的关系需要进一步厘清
未探索非线性探针是否能捕获更多关系信息

评分¶

新颖性: ⭐⭐⭐⭐ HeadScore/TokenScore归因方法和性能预测因子分析是有价值的贡献
实验充分度: ⭐⭐⭐⭐ 4个模型、多种特征变体、完整的相关性分析和词汇捷径检测
写作质量: ⭐⭐⭐⭐⭐ 形式化严谨，实验设计层层递进，写作非常清晰
价值: ⭐⭐⭐⭐ 为LLM关系知识的探针研究提供了系统方法论和实用工具