ACE: Attribution-Controlled Knowledge Editing for Multi-hop Factual Recall¶

会议: ICLR2026
OpenReview: IuWIzmMvKo
代码: 待确认
领域: 知识编辑 / 机制可解释性
关键词: 知识编辑, 多跳推理, 神经元归因, query-value 神经元, MQuAKE

一句话总结¶

ACE 通过神经元级归因发现「隐式主语在多跳推理里扮演 query 神经元、逐层激活 value 神经元」这一被忽视的机制，并据此把编辑从「层级启发式」精细到「query-value 通路」，在多跳事实召回上比 SOTA 的 PMET 在 GPT-J 上高 9.44%、在 Qwen3-8B 上高 37.46%。

研究背景与动机¶

领域现状：LLM 里的知识是静态的，会过时或出错，而全量重训练代价过高，于是有了知识编辑（Knowledge Editing, KE）。主流范式是「定位-再编辑」（locate-then-edit），代表方法 ROME、MEMIT、PMET 通过因果追踪定位存储某条事实的 FFN 参数，再用闭式优化改写 FFN 的 value 权重，使 \((s, r, o)\) 变成 \((s, r, o^*)\)。这类方法在单跳事实编辑上很有效。

现有痛点：一旦进入多跳事实召回，这些方法性能急剧崩塌。问题最尖锐的场景是被编辑的知识涉及隐式主语（implicit subject）——推理链里的中间实体。比如「Mark Trumbo 的运动起源于哪个国家？」需要先召回他的运动（隐式主语，原本是 Basketball），再召回这项运动起源的国家（USA）。当你把他的运动改成 Football，模型应该顺着新链条推出 Italy，但标准单跳编辑方法做不到——它们只盯着较深的 FFN 层去改，编辑无法在推理链里正确传播。

核心矛盾：根本原因在于现有 KE 方法对「中间推理步骤在神经元层面如何被动态表示和访问」理解不足。它们停留在层级（layer-level）的启发式上，既不知道知识真正存在哪些层，也忽略了推理链里跨层神经元的协同。近期 IFMET 靠构造多跳提示去编辑更深的 FFN 层、提升了多跳表现，但「为什么这些深层编辑对正确利用隐式主语信息是关键」的机制始终没被解释清楚。

切入角度：作者做了系统的因果分析，提出两条关键观察——（i）多跳召回中，隐式主语在功能上充当 query 神经元，会依次累积并激活后续推理步所需的 value 神经元；（ii）LLM 把语义相近的知识存在结构相似的 transformer 组件里，特定知识类型的 query / value 神经元在各层有一致的定位模式。

核心 idea：既然推理链的信息是靠「query 神经元逐层激活 value 神经元」累积的，那就把编辑从「改哪几层」精细到「改哪条 query-value 通路」——ACE 用神经元级归因同时定位并编辑深层 value 层和被以往方法漏掉的中浅层 query 层。

方法详解¶

整体框架¶

ACE（Attribution-Controlled Knowledge Editing）在「定位-再编辑」范式上做扩展，核心要解决的是「多跳编辑不传播」的问题，整体分两大阶段、三步操作。给定一条多跳编辑请求，第一阶段（Identifying）用归因度量在前向传播里给每个神经元打分，识别出真正承载目标知识的关键 query 层和 value 层；第二阶段（Locate-then-edit）沿用 PMET 作为编辑后端，先在深层 FFN value 组件上写入新的显式事实，再补一刀中浅层 FFN query 机制的互补编辑，去调整由更新后事实出发的隐式推理路径。注意力头始终不动——因为通用语义能力存在注意力里，不应被破坏。两路编辑合起来，保证更新后的知识在多步推理时能被正确激活、沿链传播，让信息通过 query-value 交互逐步累积。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400, 'subGraphTitleMargin': {'top': 8, 'bottom': 16}}}%%
flowchart TD
    A["多跳编辑请求<br/>(s,r,o→o*)"] --> B["神经元级归因度量"]
    B --> C["Q-V 通路机制<br/>定位关键 q/v 层"]
    subgraph G["双路定位-编辑"]
        direction TB
        D["深层 value 层编辑"]
        E["中浅层 query 层<br/>互补编辑"]
    end
    C --> D
    C --> E
    D --> F["编辑后模型<br/>多跳召回成功"]
    E --> F

关键设计¶

1. 神经元级归因度量：把 query 神经元和 value 神经元分开打分

这是 ACE 区别于层级方法的根基。痛点是：以往方法只在层粒度做因果追踪，分不清「哪些神经元负责直接吐出答案」和「哪些神经元负责激活别人」。ACE 借鉴 FFN 可被拆成神经元加权和的视角——第 \(l\) 层 FFN 输出 \(F^l_i = \sum_{k=1}^{N} m^l_{i,k} \cdot \text{fc2}^l_k\)，其中 \(\text{fc2}^l_k\) 是 subvalue，系数 \(m^l_{i,k} = \sigma(\text{fc1}^l_k \cdot (h^{l-1}_i + A^l_i))\) 由 residual 输出和 subkey 决定。基于此，作者给两类神经元设计了两套度量：

对 value 神经元，用「对数概率增量」衡量某个神经元 \(v\) 对最终 token 预测分布的因果影响：

\[I(v^l) = \log\big(p(w \mid v^l + h^{l-1})\big) - \log\big(p(w \mid h^{l-1})\big), \quad I(l) = \sum_{v \in l} I(v^l)\]

它近似满足可加性 \(I(x+v) \approx I(x) + I(v)\)，所以能逐神经元、逐层累加来定位真正抬高正确 token 概率的组件。对 query 神经元则不能这么算——query 神经元本身不直接携带目标 token 的信息，它的作用是去激活 value 神经元。于是用它与自身 subkey 的内积来度量「激活能力」：\(I_{query} = v \cdot \text{fc1}^l_k\)。内积越大，说明这个 query 神经元越能点亮下游的 value 神经元。两套度量把「谁出答案」和「谁负责传导」彻底分离，为后续精确编辑提供了坐标。

2. Q-V 通路机制：隐式主语作为 query 神经元逐层激活 value 神经元

这是 ACE 的机制发现，也是它敢去编辑 query 层的理由。作者在 MQuAKE-3K 上对 GPT-J 和 Qwen3-8B 做因果干预，得到两条 Takeaway。Takeaway 1：LLM 把语义相近的知识存在结构相似的组件里——MHSA 在相似位置被激活（如 a27、a26、a7 在所有知识类型里都排前），说明注意力存通用能力；而 FFN 层各自抽取自己的知识（如 f24、f27、f16 对国籍/大洲/语言这类相近语义排前，作者/球队/创始人这类则落在不同层）。只对 1% 的关键语义神经元置零就能让相关子集准确率掉 90% 以上，而随机置 1% 只掉约 9%，证明知识高度集中。Takeaway 2：最终答案的信息是通过隐式 query 神经元「依次激活对应 value 神经元」沿推理链累积的。证据是 query FFN 层的激活（log 增量）在层序上始终领先 value 神经元激活 1–2 层；消融 2-hop 请求里激活峰值的 100 个 query 神经元（fq16、fq18），模型能力分别掉 46.2% 和 61.9%，且后续层（f17,18,19）被激活的 value 神经元数量从 (28,16,33) 暴跌到 (6,4,7)。这条机制直接解释了为什么单纯改深层 value 层会失败：query 层没改，value 层就被「不完整地激活」。

3. 双路定位-编辑：深层 value 层 + 中浅层 query 层互补编辑

这是把机制落地成编辑动作的一步。痛点是以往方法漏了两块——既低估了更深位置的 value 层（甚至误把输出生成层当成 value 层），又完全忽略了编辑 query 层。ACE 在 Stage 1 用上面的度量在所有多跳问题上做前向、按 query/value 重要性给层排序、选 top 层；Stage 2 用 PMET 作为后端在 FFN 上写入：把 FFN 输出视作 key-value 存储，\(\sigma(W^l_{fc1} h^{l-1}_i)\) 当 key、整个 FFN 输出当 value \(v_i\)，求解修改 subvalue 矩阵 \(W^l_{fc2}\) 使得 \(W^l_{fc2} k = v^*\)（\(v^*\) 是新事实）。关键在于它做两路：在中浅层 query 机制上补编辑，去校正从更新后显式事实出发的隐式推理路径；在深层 value 组件上写入新的显式知识。两路缺一不可——后面消融显示，漏掉 query 层掉 16.51%，漏掉 value 层掉得更狠达 40.45%，正好印证「query 层负责激活、value 层负责承载」的分工。

⚠️ 原文公式排版较乱（如 Stage 2 写成 \(W^l_{fc2}\sigma(W^l_{fc2}h^{l-1}_i)\)，疑似应为 \(W^l_{fc2}\sigma(W^l_{fc1}h^{l-1}_i)\)），此处按 FFN 的标准 key-value 解读还原，以原文为准。

损失函数 / 训练策略¶

ACE 不引入新的训练目标，编辑过程直接复用 PMET 的闭式优化后端（细节在原文 Algorithm D / Appendix H）。编辑提示统一融入 in-context priming 和 Chain-of-Thought，以便在编辑时精确定位关键层和激活模式。注意力头在整个编辑过程中保持不变。

实验关键数据¶

主实验¶

在 MQuAKE-3K（3000+ 多跳编辑实例）上以 few-shot 设置评测多跳准确率，骨干为 GPT-J(6B) 和 Qwen3-8B，编辑后端为 PMET。# Edits 表示推理链里被编辑的事实数。

方法	Avg.(GPT/Qwen)	GPT-J 1-edit	GPT-J 4-edit	Qwen3 1-edit	Qwen3 4-edit
Base（未编辑）	98.42 / 99.17	99.7	97.23	99.81	97.64
FT	3.54 / 2.18	4.17	0.00	3.14	0.00
ROME	35.04 / 28.79	44.51	5.06	35.09	7.08
MEMIT	38.58 / 18.67	64.30	8.16	29.84	4.20
PMET	37.01 / 20.78	49.26	17.01	28.64	11.20
ACE	46.45 / 58.24	45.26	43.29	60.22	47.61

ACE 平均比 PMET 在 GPT-J 上高 9.44%、Qwen3-8B 上高 37.46%。尤其在编辑数变多（4-edit）时，基线几乎全面崩塌（PMET 在 GPT-J 4-edit 只剩 17.01），而 ACE 仍保持 43.29，说明它的优势在更难的多编辑场景下被放大。传统范式在 Qwen3-8B 上更差，因为它们用固定编辑位置，而 ACE 的 q-v 位置随领域动态对齐，更灵活。

更细粒度的指标（Efficacy / Paraphrase / Specificity）：

方法 (GPT-J/Qwen3)	Efficacy	Paraphrase	Specificity
PMET	81.6 / 75.6	65.8 / 68.9	74.6 / 64.4
ACE	99.8 / 99.4	91.2 / 94.2	79.2 / 81.8

ACE 在编辑成功率（Efficacy）和改写鲁棒性（Paraphrase）上大幅领先，Specificity（对无关知识的副作用）也优于 PMET。

消融实验¶

按重要性排名顺序跳过编辑某些关键层（↓ 为相对 ACE 的下降幅度）：

配置	Avg.	说明
ACE（完整）	基准	—
跳过 top-1 query 层 (GPT-J)	43.26 (↓6.87%)	漏一个 query 层
跳过 top-1,2,3 query 层 (GPT-J)	38.78 (↓16.51%)	漏三个 query 层
跳过 top-1 value 层 (GPT-J)	42.14 (↓9.28%)	漏一个 value 层
跳过 top-1,2 value 层 (Qwen3)	34.68 (↓40.45%)	漏两个 value 层，掉最狠

CoT 提示消融显示 ACE 对 in-context 信息量很鲁棒：OOD Few-Shots 下 GPT-J 仅掉 0.4%、Qwen3 仅掉 0.6%，说明编辑效果是「内在写入」而非靠 in-context learning 撑起来的。

关键发现¶

value 层比 query 层更要命，但 query 层不可省：跳过 value 层掉 40.45% > 跳过 query 层掉 16.51%，印证「query 负责激活、value 负责承载」——漏 query 层导致 value 被不完整激活，漏 value 层则新知识根本没写进去。
正确预测依赖极稀疏的可解释神经元：在「Tim Duncan plays the sport of」案例里，消融 27 个语义可解释的关键神经元，准确率从正常暴跌到 3.2%；而消融 27 个高重要性但语义不可解释的神经元，模型仍保持 59.4%。说明正确输出由一小撮高度专门化、可解释的神经元决定。
GPT-J 与 Qwen3 架构差异：GPT-J 的 query 层固定在中层、value 层在深层（fq16,17,18 / fv28,29,30），跨领域不变；Qwen3-8B 的 query 层在中-深层且与 value 层部分重叠（fq27,28,29 / fv30,31,32），且绝对位置随知识领域动态漂移，因此对编辑层数更敏感。

亮点与洞察¶

把「query 神经元 vs value 神经元」做成可操作的编辑坐标：以往 KE 只在层粒度做因果追踪，ACE 用两套不同度量（value 用对数概率增量、query 用 subkey 内积）把「谁出答案」和「谁负责激活」分离开，这是它能精准编辑 query 通路的前提，思路可迁移到任何需要区分「信息携带 vs 信息传导」神经元的可解释性任务。
机制发现直接指导编辑动作：「隐式主语 = query 神经元」+「query 激活领先 value 1–2 层」这两条观察不是事后解释，而是反过来告诉你「该补编辑哪些层」，是一个把可解释性研究真正闭环到下游能力提升的范例。
稀疏可解释神经元的发现颇具启发：27 个神经元决定正确率（消融后掉到 3.2%）这一结果，把多跳推理的「可控点」收敛到极小集合，也和近期 RL 里 token entropy / 关键 token 的研究呼应，暗示了未来「定点干预」的可能。

局限与展望¶

依赖 MQuAKE-3K 单一 benchmark：全部机制分析和主实验都在 MQuAKE-3K 上，且对原数据集做了过滤（只保留 base 模型本就能正确推理的子集）。这种过滤会高估编辑效果，泛化到更野生的多跳分布是否成立未验证。
绝对准确率仍然偏低：ACE 虽大幅超基线，但 GPT-J 平均也只有 46.45、4-edit 场景才 43 左右，离 Base 的 98+ 差距巨大，说明多跳编辑远未被解决，只是相对改善。
只覆盖两个骨干、编辑后端绑定 PMET：方法在 GPT-J 和 Qwen3-8B 上验证，编辑都靠 PMET 完成；换更大/更现代的模型或换编辑后端是否仍有效、query 层定位是否依旧稳定，尚不清楚。Qwen3 的 q-v 层随领域漂移也意味着定位成本会随模型复杂度上升。
改进思路：把 query 层定位做成在线自适应（而非每领域重新归因），并探索把稀疏可解释神经元作为编辑的最小作用集，可能进一步降低副作用、提升 Specificity。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 把「隐式主语=query 神经元、逐层激活 value 神经元」这一机制发现闭环到编辑动作，视角新且自洽。
实验充分度: ⭐⭐⭐⭐ 主实验+多指标+两类消融+案例研究较完整，但只在 MQuAKE-3K 一个 benchmark、两个骨干上验证，且对数据集做了过滤。
写作质量: ⭐⭐⭐ 思路和机制讲得清楚，但公式排版多处疑似笔误、记号不统一，影响精确复现。
价值: ⭐⭐⭐⭐ 为多跳知识编辑提供了机制基础和可观提升，且把可解释性发现真正用于下游能力，方法论上有迁移价值。