跳转至

Discovering Transformer Circuits via a Hybrid Attribution and Pruning Framework

会议: NeurIPS 2025
arXiv: 2510.03282
代码: GitHub
领域: 机械可解释性 / 电路发现 / Transformer分析
关键词: circuit discovery, attribution patching, edge pruning, hybrid framework, IOI, GPT-2, mechanistic interpretability

一句话总结

提出混合归因与剪枝框架 HAP,先用快速的边归因修补(EAP)筛选高潜力子图,再在缩小后的搜索空间上运行精确的边剪枝(EP),在 GPT-2 Small 的 IOI 任务上比纯 EP 快 46% 且保持相当的电路忠实度,同时成功保留了 EAP 单独使用时会遗漏的 S-inhibition 头。

研究背景与动机

机械可解释性的核心目标:随着 LLM 被部署到高风险场景,理解其"黑箱"内部运作成为刚需。机械可解释性通过识别负责特定行为的稀疏子网络("电路")来实现这一目标。

电路分析的标准范式:将 Transformer 表示为计算图(节点=注意力头/MLP,边=信息流),在图上寻找执行特定任务的最小子图。手动方法(Wang et al. 2022)已被自动方法取代。

ACDC 的计算瓶颈:最早的自动方法 ACDC(Conmy et al. 2023)采用逐边贪心消融搜索,忠实度高但需要大量前向传播,无法扩展到大模型。

EAP 的速度优势与忠实度缺陷:EAP(Syed et al. 2023)用一阶 Taylor 近似同时估算所有边的重要性,仅需 1 次反向+2 次前向传播即可完成,但线性近似导致忠实度显著下降,且在高稀疏度下会丢失协作性组件。

EP 的忠实度优势与算力需求:EP(Bhaskar et al. 2024)通过梯度优化二值掩码实现精确剪枝,忠实度优异且已扩展到 CodeLlama-13B,但需要大量 GPU 算力和长时间训练。

核心矛盾与机会:EAP 快但不忠实,EP 忠实但慢——二者的优势恰好互补。能否用 EAP 的速度做粗筛,再用 EP 的精度做细选?这是 HAP 的出发点。

方法详解

整体框架:HAP(Hybrid Attribution and Pruning)

HAP 将电路发现分解为三步流水线:① 计算图构建 → ② EAP 粗筛 → ③ EP 精确剪枝。核心思想是用快速但粗糙的归因方法缩小搜索空间,再在缩小后的空间上运行精确但昂贵的优化方法。

关键设计 1:计算图构建

  • 功能:将 Transformer 模型表示为有向计算图
  • 核心思路:节点为注意力层和 MLP 层,边表示一个节点的输出到另一节点输入的信息流连接。对 GPT-2 Small(117M 参数,12 层 × 12 头),构建包含所有注意力头和 MLP 之间的完整边集合
  • 设计动机:统一的图表示是后续归因和剪枝操作的基础,遵循 Bhaskar et al. (2024) 的标准惯例以确保可比性

关键设计 2:EAP 快速粗筛

  • 功能:用一阶 Taylor 近似同时计算所有边的绝对归因分数,按分数排序后保留 top-k 边
  • 核心思路:对每条边 \(e\),其重要性近似为: $\(L(\mathbf{x} \mid e_{\text{ablated}}) - L(\mathbf{x}) \approx (e_{\text{clean}} - e_{\text{ablated}})^\top \frac{\partial L(\mathbf{x} \mid e_{\text{clean}})}{\partial e_{\text{clean}}}\)$ 仅需一次反向传播和两次前向传播即可获得所有边的分数
  • 设计动机:EAP 的计算成本几乎恒定(与边数无关),适合用于快速淘汰大量明显不重要的边。关键是阈值设置极低(保守筛选),故意保留低个体分数但可能具有协作重要性的边

关键设计 3:缩小搜索空间上的 EP 精确剪枝

  • 功能:在 EAP 筛选后的子图上运行梯度优化的边剪枝
  • 核心思路:EP 在缩小后的搜索空间上优化二值掩码 \(z \in [0,1]^{N_{\text{edge}}}\),最小化原始图与剪枝图的输出散度,同时满足目标稀疏度约束 \(1 - |H|/|G| \geq c\)
  • 设计动机:EP 的计算成本与搜索空间大小正相关。EAP 预先移除了大量无关边后,EP 需要优化的参数空间显著缩小,训练收敛更快。同时 EAP 的宽阈值确保了"安全区",使 S-inhibition 头等协作组件不会在粗筛阶段被丢弃

关键设计 4:宽阈值安全区策略

  • 功能:在 EAP 阶段刻意设置极低的筛选阈值
  • 核心思路:不追求 EAP 阶段的高稀疏度,而是保留宽裕的候选边集合,允许个体归因分数低但对整体电路功能有贡献的边进入 EP 阶段
  • 设计动机:S-inhibition 头等协作性组件的特点是单独看重要性低,但在电路中发挥关键的抑制/协调作用。EAP 的线性近似无法捕捉这种非线性协作效应,因此需要宽阈值来避免误删

损失函数与训练策略

EP 阶段的优化目标包含两部分:

  1. 忠实度损失:最小化完整模型与剪枝子图在 clean 输入和 corrupted 输入上的输出 KL 散度,确保电路行为忠实于原模型
  2. 稀疏度约束:通过拉格朗日乘子或投影方法满足 \(1 - |H|/|G| \geq c\) 的目标稀疏度

训练使用 clean 和 corrupted 样本对交替进行梯度更新。所有实验在单张 NVIDIA H100 GPU 上完成。EP 阶段的超参数沿用 Bhaskar et al. (2024) 的设定。

实验

实验设置

  • 模型:GPT-2 Small(117M 参数)
  • 任务:间接宾语识别(IOI),格式为 "When Dylan and Ryan went to the store, Dylan gave a popsicle to → Ryan"
  • 数据集:训练集 200 例、验证集 200 例、测试集 36,084 例,使用 Wang et al. (2022) 的模板生成
  • 评价指标:准确率(以手动发现的电路为 ground truth)、Logit Difference、KL 散度、运行时间
  • 硬件:1× NVIDIA H100

表 1:HAP 与现有方法的效率与忠实度对比

算法 稀疏度 准确率 ↑ Logit Diff ↑ KL ↓ 运行时间(s) ↓
EAP 94±0.5% 0.698 3.13 4
EP 94±0.5% 0.772 3.48 0.190 2921
HAP 94±0.5% 0.759 3.42 0.188 1579

关键发现:HAP 比 EP 快 46%(1579s vs 2921s),准确率仅低 1.3 个百分点(0.759 vs 0.772),KL 散度几乎相同(0.188 vs 0.190),Logit Difference 接近(3.42 vs 3.48)。相比 EAP,HAP 在所有质量指标上均大幅领先。

表 2:IOI 案例研究——S-inhibition 头的保留情况

方法 头 7.3 头 7.9 头 8.6 头 8.10 完整电路恢复
EAP 不完整
HAP 完整

S-inhibition 头在 IOI 中负责抑制 Name Mover 头错误标记与动词接近的主语,个体归因分数低但协作效果关键。EAP 在 94% 稀疏度下丢失全部四个 S-inhibition 头,而 HAP 通过宽阈值安全区 + EP 精确剪枝成功保留了完整的功能电路。

亮点

  • 简洁优雅的组合策略:将 EAP 和 EP 串联使用,利用各自的速度/精度优势互补,思路直接但有效
  • 挑战了速度-忠实度权衡的固有性假设:证明通过策略性两阶段搜索可以在不牺牲忠实度的前提下大幅加速
  • 定性证据有力:S-inhibition 头案例直观展示了 HAP 保留协作组件的能力,弥补了纯定量比较的不足
  • 实用价值明确:46% 的加速在扩展到更大模型时理论上更为显著

局限性

  • 实验范围狭窄:仅在 GPT-2 Small(117M)的单一 IOI 任务上验证,模型规模和任务多样性严重不足
  • EAP 阈值未优化:边筛选阈值为启发式设置,缺乏系统的超参数搜索和敏感性分析
  • 缺乏方差报告:训练数据随机生成,未报告多次运行的性能方差
  • 基线对比不足:未与 ACDC、EAP-GP 等其他方法比较
  • 大模型验证缺失:未在 Llama/CodeLlama 等规模模型上测试,可扩展性仅为理论预期

相关工作

  • ACDC(Conmy et al. 2023):最早的自动电路发现方法,逐边贪心消融搜索,忠实度高但计算量大,是本文主要的计算瓶颈参照
  • EAP(Syed et al. 2023):基于一阶 Taylor 近似的快速归因方法,速度极快但忠实度低,是 HAP 第一阶段的基础组件
  • EP(Bhaskar et al. 2024):基于梯度的二值掩码优化剪枝方法,忠实度高且已扩展到 CodeLlama-13B,是 HAP 第二阶段的基础组件
  • IOI 电路(Wang et al. 2022):手动发现的 GPT-2 Small 间接宾语识别电路,包含 Duplicate Token、Induction、S-inhibition、Name Mover 四类头,是本文的 ground truth 参照
  • EAP-GP(Zhang & Dong 2025):针对 EAP 梯度饱和问题的改进方法,本文未纳入对比

评分

  • 新颖性: ⭐⭐⭐ 组合思路简单直接,方法层面创新有限但有效,核心贡献在于证明两阶段策略可行
  • 实验充分度: ⭐⭐ 单模型单任务,缺乏方差报告和超参敏感性分析,说服力不足
  • 写作质量: ⭐⭐⭐⭐ 结构清晰,动机阐述到位,IOI 案例分析直观有力
  • 综合推荐: ⭐⭐⭐ 为机械可解释性的可扩展性提供了实用工程方案,但需要更广泛的实验验证