跳转至

Addressing Divergent Representations from Causal Interventions on Neural Networks

会议: ICLR 2026 Oral
arXiv: 2511.04638
代码: GitHub
领域: 其他
关键词: causal intervention, mechanistic interpretability, representational divergence, Counterfactual Latent loss, DAS

一句话总结

系统性地揭示因果干预(activation patching、DAS、SAE 等)会将模型内部表征推离自然分布,理论区分"无害偏移"与"有害偏移"两类情况,并提出 Counterfactual Latent (CL) loss 来约束干预表征不偏离流形,在 7B LLM 上验证可减少偏移同时保持干预准确率。

研究背景与动机

领域现状:机械可解释性的核心方法论是因果干预——通过 activation patching、DAS、SAE 等方式操纵模型内部表征,观察行为变化,从而推断表征编码了什么。即使是 SAE、PCA 等相关性方法,也通常以因果干预作为验证特征是否真正有意义的最终裁判。因果干预在功能性机制声明中占据核心地位。

关键痛点:这些因果干预方法隐含一个未经检验的假设——干预产生的反事实模型状态对目标模型来说是"现实的"。例如,有些 activation patching 实验会将特征值放大 15 倍,这种情况下干预后的表征很可能已经严重偏离了模型的自然分布。

核心矛盾:如果干预后的表征是 out-of-distribution 的,那么后续层对这些 OOD 输入的响应可能激活训练中从未见过的"隐藏通路"(hidden pathways),导致观察到的因果效应实际上是虚假的——我们以为发现了模型的自然机制,实则是干预制造的伪影。

切入角度:作者从理论和实验两个维度同时出发:(1) 先证明偏移是普遍现象;(2) 再区分偏移何时无害、何时有害;(3) 最后提出缓解方案。这是对整个可解释性方法论的元层面审视。

核心 idea:不是所有偏移都有害——行为零空间内的偏移是无害的,但激活隐藏通路或触发休眠行为变化的偏移是有害的。通过 CL loss 约束干预表征贴近自然流形,可以系统性地缓解有害偏移。

方法详解

整体框架

全文是一条"先确诊、再分诊、最后开药"的逻辑链:先从理论与实证两路证明因果干预普遍把表征推离自然流形,再用行为零空间理论把偏移切成无害与有害两类,最后用 Counterfactual Latent (CL) loss 把干预表征拉回流形附近,并在 Boundless DAS + 7B LLM 上验证既降偏移又保准确率。整篇方法的核心不是某个新模型,而是一套判断"干预结果该不该信"的判据加一个轻量正则。

关键设计

1. 偏移的理论保证:证明坐标级 patching 几乎必然出界。 痛点在于人们默认拼接两个真实表征得到的反事实状态仍然"现实",但作者证明只要流形不是轴对齐的超矩形,这个假设就站不住。考虑圆形流形 \(\mathcal{M}_K = \{c_K + u : \|u\|_2 \leq r_K\}\),把 \(h^{\text{src}}\) 的第一个坐标和 \(h^{\text{trg}}\) 的第二个坐标拼成 \(\hat{h} = [h_1^{\text{src}};\, h_2^{\text{trg}}]\),则 \(\|\hat{h} - c_K\|_2^2 = u_1^2 + v_2^2\);取边界点 \(u=(r_K,0)\)\(v=(0,r_K)\) 即得 \(\|\hat{h}-c_K\| = r_K\sqrt{2} > r_K\),干预后表征直接越过流形边界。更一般地,定理 A.2 证明一个非空凸集是 patch-closed 的当且仅当它是各坐标投影的笛卡尔积(即轴对齐超矩形),于是球、椭球、一般多面体这些真实表征几乎都会的几何,在坐标 patching 下都难逃偏移——这是个很强的负面结论,把"偏移是个例"的侥幸彻底堵死。

2. 行为零空间:界定哪些偏移其实无害。 既然偏移不可避免,关键就变成它会不会改变计算结果。作者对函数 \(\psi: \mathbb{R}^d \to \mathbb{R}^{d'}\) 定义关于集合 \(X\) 的行为零空间 \(\mathcal{N}(\psi, X) = \{v \in \mathbb{R}^d \mid \forall x \in X,\ \psi(x+v) = \psi(x)\}\):只要偏移 \(v\) 落在这个零空间里,它对 \(\psi\) 的整体计算就等价于加了零向量,属于无害偏移。但无害性强依赖声明的粒度——对整体函数无害的偏移,可能在中间层早已改变子计算的表征,因此对更细的机制声明仍是有害的。沿这条思路还能放宽到"行为二值子空间":若某子空间只通过符号影响输出,那么只要 \(\text{sign}(D_{\text{var}} \mathcal{A}(h))\) 不变,子空间内任意取值都无害,哪怕这个取值组合在自然分布里从未出现过。

3. 隐藏通路与休眠行为变化:揭示哪些偏移真正危险。 有害偏移的可怕之处在于行为看起来完全正确,机制却是伪造的,作者用两个构造性反例钉死这一点。其一是隐藏通路激活:构造两层 ReLU 网络 \(s = \mathbf{1}^\top \text{ReLU}(W_\ell h^\ell + b_\ell)\)\(W_\ell \in \mathbb{R}^{3\times4}\),自然表征下第三个隐藏单元的 pre-activation 恒为负、始终沉默;而均值差 patching(\(\delta_{B \to A} = \mu_A - \mu_B\))后的表征会点亮该单元,借一条自然输入下从不使用的通路翻转分类决策——一旦把干预表征投影回 \(\text{conv}(S_A)\),效应立刻消失,证明翻转由偏移而非真实因果机制驱动。其二是休眠行为变化:给上述网络加上下文向量 \(v\) 和第二层后,干预在 \(v_4 < 0.75\) 时行为正常(预测 class A),却在 \(0.75 < v_4 < 1.0\) 时触发本该 \(v_4 > 1\) 才出现的异常 class C,形式化为 \(\mathcal{V}(\psi, X, \mathcal{C}_1, \mathcal{C}) = \mathcal{N}(\psi, X, \mathcal{C}_1) \setminus \mathcal{N}(\psi, X, \mathcal{C})\);这意味着干预安全性随上下文漂移,而上下文空间无法穷举,是最难防的一类。

损失函数 / 训练策略

缓解方案是给对齐训练加一个 Counterfactual Latent (CL) loss,把干预表征 \(\hat{h}\) 拉向反事实潜在向量 \(h_{\text{CL}}\)。原始版(来自 Grant 2025)同时压 L2 距离和余弦角度:

\[\mathcal{L}_{\text{CL}}(\hat{h}, h_{\text{CL}}) = \frac{1}{2}\|\hat{h} - h_{\text{CL}}\|_2^2 - \frac{1}{2}\frac{\hat{h} \cdot h_{\text{CL}}}{\|\hat{h}\|_2 \|h_{\text{CL}}\|_2}\]

其中 \(h_{\text{CL}}\) 取自然表征中具有相同因果变量值的向量平均 \(h_{\text{CL}} = \frac{1}{m} \sum_{i=1}^{m} h_{\text{CL}}^{(x_i)}\),相当于给"该有的样子"提供一个流形上的锚点。总损失 \(\mathcal{L}_{\text{total}} = \epsilon \mathcal{L}_{\text{CL}} + \mathcal{L}_{\text{DAS}}\) 用可调权重 \(\epsilon\) 平衡正则与原始行为目标。为了能脱离行为损失独立使用,作者又给出只约束因果子空间维度的改进版:

\[\mathcal{L}'_{\text{CL}} = \sum_{i=1}^{n} \left(\frac{1}{2}\|\hat{h}^{\text{var}_i} - h_{\text{CL}}^{\text{var}_i}\|_2^2 - \frac{1}{2}\frac{\hat{h}^{\text{var}_i} \cdot h_{\text{CL}}^{\text{var}_i}}{\|\hat{h}^{\text{var}_i}\|_2 \|h_{\text{CL}}^{\text{var}_i}\|_2}\right)\]

这里 \(\hat{h}^{\text{var}_i} = \mathcal{A}^{-1}(D_{\text{var}_i} \mathcal{A}(\hat{h}))\) 是干预表征在第 \(i\) 个因果子空间上的分量,\(h_{\text{CL}}^{\text{var}_i}\) 用 stopgrad 处理防止梯度回流——只盯因果维度收紧,从而把偏移控制和 OOD 泛化拆开优化。

实验关键数据

主实验:偏移的普遍性(Section 3.2)

干预方法 模型 EMD 偏移显著
Mean Diff Vector Patching Llama-3-8B-Instruct L10 (最低 EMD 层) 显著高于自然基线
SAE Reconstruction Llama-3-8B-Instruct L25 显著高于自然基线
Boundless DAS wu2024 设置 指定层 显著高于自然基线

三种主流方法在 PCA 可视化和 Earth Mover's Distance 量化上均显示干预表征明显偏离自然分布。作者还额外使用最近邻余弦距离、L2 配对距离、Local PCA Distance、KDE Density Score、Local Linear Reconstruction Error 等多种度量交叉确认,结论一致。

CL Loss 在 Boundless DAS(7B LLM)上的效果(Section 5.1)

CL 权重 \(\epsilon\) IIA (干预准确率) EMD (偏移程度) 说明
0(无 CL) 基线 IIA 较高 原始 DAS
\(\epsilon\) 保持甚至略提升 明显降低 最优区间
\(\epsilon\) IIA 下降 最低 CL 过强影响行为

关键发现:存在一个 sweet spot,小 \(\epsilon\) 可在不牺牲 IIA 的前提下显著降低偏移。

改进 CL Loss 在合成任务上的效果(Section 5.2)

方法 EMD (特征维度) IIA OOD 泛化
DAS 行为损失 0.032 ± 0.003 0.997 ± 0.001 较低
改进 CL loss 0.007 ± 0.001 0.9988 ± 0.0005 较高

CL loss 将 EMD 降低约 4.5 倍,IIA 略有提升。OOD 设置中(在 dense/sparse 子任务间迁移对齐矩阵),CL loss 训练的对齐显著优于行为损失。回归分析确认 EMD 与 OOD IIA 反相关(系数 -0.34,\(R^2 = 0.73\)\(p < 0.001\)),证明减少偏移确实有实际价值。

关键发现

  • 偏移不是个别方法的问题,而是因果干预的系统性问题
  • 隐藏通路可在行为上看起来"正确"的同时完全使用非自然机制——最危险的情况
  • 休眠行为变化使干预安全性依赖于上下文,而上下文空间不可穷举
  • CL loss 提供简单有效的初步缓解方案,且有 OOD 泛化优势

亮点与洞察

  1. 元方法学贡献:不是在用可解释性工具分析模型,而是审视可解释性工具本身的可靠性。对整个领域的方法论基础有深远影响。

  2. "隐藏通路"概念:干预可能激活自然状态下从未使用的计算路径,导致行为正确但机制错误的结论。直接挑战"高 IIA = 正确机制发现"的常见假设。

  3. 无害 vs 有害的清晰框架:通过行为零空间理论给出判断偏移有害性的原则方法,而非粗暴地视所有偏移为问题。

  4. 定理 A.2 的优雅性:只有轴对齐超矩形是 patch-closed 的——对几乎所有实际流形,坐标 patching 必然产生偏移。

  5. 实用性:CL loss 实现简单,可插入现有 DAS 流程,在 7B LLM 上验证有效。

局限与展望

  1. 缺乏有害偏移的自动分类方法:无法自动区分无害与有害偏移,限制实用性。
  2. CL loss 是"广撒网"策略:同时减少所有偏移(含无害的),非精准消除有害偏移。
  3. 改进版 CL loss 仅在简单合成任务验证:10 类分类的合成数据集距真实 LLM 场景较远。
  4. 限于线性对齐函数:Sutter et al. 指出非线性 AF 有更根本的问题,本文未覆盖。
  5. CL 向量获取依赖标注:需知道哪些自然表征具有相同因果变量值,复杂场景难获取。
  6. 可探索方向:(a) ReLU 激活模式审计的在线偏移检测;(b) 流形投影与 CL loss 结合;(c) 自监督发现有害偏移。

相关工作与启发

  • Makelov et al. (2023):先前指出 DAS 中零空间与休眠子空间的交互问题,本文推广到更广泛的因果干预方法。
  • Zhang et al. (2024) / Heimersheim (2024):指出 patching 结果易被误解,本文从表征偏移角度提供新的理论解释。
  • Sutter et al. (2025):质疑非线性 AF 下因果干预意义,与本文发现互补。
  • Grant (2025):原始 CL loss 来源,本文拓展到因果子空间级别。
  • 对 SAE 研究的启示:SAE 重建本身就是干预并会产生偏移,对 SAE 特征的"因果验证"步骤提出质疑。

评分

  • 新颖性: ⭐⭐⭐⭐⭐ — 质疑可解释性研究的基本方法论假设,元层面重要贡献
  • 实验充分度: ⭐⭐⭐⭐ — 理论证明扎实,LLM 实验有意义,但改进方法仅在合成数据验证
  • 写作质量: ⭐⭐⭐⭐⭐ — 问题定义精准,逻辑清晰,理论与实验结合紧密
  • 价值: ⭐⭐⭐⭐⭐ — 对 mech interp 领域的因果干预实验有广泛影响,Oral 当之无愧