Addressing Divergent Representations from Causal Interventions on Neural Networks¶

会议: ICLR 2026 Oral
arXiv: 2511.04638
代码: GitHub
领域: 其他
关键词: causal intervention, mechanistic interpretability, representational divergence, Counterfactual Latent loss, DAS

一句话总结¶

系统性地揭示因果干预（activation patching、DAS、SAE 等）会将模型内部表征推离自然分布，理论区分"无害偏移"与"有害偏移"两类情况，并提出 Counterfactual Latent (CL) loss 来约束干预表征不偏离流形，在 7B LLM 上验证可减少偏移同时保持干预准确率。

研究背景与动机¶

领域现状：机械可解释性的核心方法论是因果干预——通过 activation patching、DAS、SAE 等方式操纵模型内部表征，观察行为变化，从而推断表征编码了什么。即使是 SAE、PCA 等相关性方法，也通常以因果干预作为验证特征是否真正有意义的最终裁判。因果干预在功能性机制声明中占据核心地位。

关键痛点：这些因果干预方法隐含一个未经检验的假设——干预产生的反事实模型状态对目标模型来说是"现实的"。例如，有些 activation patching 实验会将特征值放大 15 倍，这种情况下干预后的表征很可能已经严重偏离了模型的自然分布。

核心矛盾：如果干预后的表征是 out-of-distribution 的，那么后续层对这些 OOD 输入的响应可能激活训练中从未见过的"隐藏通路"(hidden pathways)，导致观察到的因果效应实际上是虚假的——我们以为发现了模型的自然机制，实则是干预制造的伪影。

切入角度：作者从理论和实验两个维度同时出发：(1) 先证明偏移是普遍现象；(2) 再区分偏移何时无害、何时有害；(3) 最后提出缓解方案。这是对整个可解释性方法论的元层面审视。

核心 idea：不是所有偏移都有害——行为零空间内的偏移是无害的，但激活隐藏通路或触发休眠行为变化的偏移是有害的。通过 CL loss 约束干预表征贴近自然流形，可以系统性地缓解有害偏移。

方法详解¶

整体框架¶

全文是一条"先确诊、再分诊、最后开药"的逻辑链：先从理论与实证两路证明因果干预普遍把表征推离自然流形，再用行为零空间理论把偏移切成无害与有害两类，最后用 Counterfactual Latent (CL) loss 把干预表征拉回流形附近，并在 Boundless DAS + 7B LLM 上验证既降偏移又保准确率。整篇方法的核心不是某个新模型，而是一套判断"干预结果该不该信"的判据加一个轻量正则。

关键设计¶

1. 偏移的理论保证：证明坐标级 patching 几乎必然出界

痛点在于人们默认拼接两个真实表征得到的反事实状态仍然"现实"，但作者证明只要流形不是轴对齐的超矩形，这个假设就站不住。考虑圆形流形 \(\mathcal{M}_K = \{c_K + u : \|u\|_2 \leq r_K\}\)，把 \(h^{\text{src}}\) 的第一个坐标和 \(h^{\text{trg}}\) 的第二个坐标拼成 \(\hat{h} = [h_1^{\text{src}};\, h_2^{\text{trg}}]\)，则 \(\|\hat{h} - c_K\|_2^2 = u_1^2 + v_2^2\)；取边界点 \(u=(r_K,0)\)、\(v=(0,r_K)\) 即得 \(\|\hat{h}-c_K\| = r_K\sqrt{2} > r_K\)，干预后表征直接越过流形边界。更一般地，定理 A.2 证明一个非空凸集是 patch-closed 的当且仅当它是各坐标投影的笛卡尔积（即轴对齐超矩形），于是球、椭球、一般多面体这些真实表征几乎都会的几何，在坐标 patching 下都难逃偏移——这是个很强的负面结论，把"偏移是个例"的侥幸彻底堵死。

2. 行为零空间：界定哪些偏移其实无害

既然偏移不可避免，关键就变成它会不会改变计算结果。作者对函数 \(\psi: \mathbb{R}^d \to \mathbb{R}^{d'}\) 定义关于集合 \(X\) 的行为零空间 \(\mathcal{N}(\psi, X) = \{v \in \mathbb{R}^d \mid \forall x \in X,\ \psi(x+v) = \psi(x)\}\)：只要偏移 \(v\) 落在这个零空间里，它对 \(\psi\) 的整体计算就等价于加了零向量，属于无害偏移。但无害性强依赖声明的粒度——对整体函数无害的偏移，可能在中间层早已改变子计算的表征，因此对更细的机制声明仍是有害的。沿这条思路还能放宽到"行为二值子空间"：若某子空间只通过符号影响输出，那么只要 \(\text{sign}(D_{\text{var}} \mathcal{A}(h))\) 不变，子空间内任意取值都无害，哪怕这个取值组合在自然分布里从未出现过。

3. 隐藏通路与休眠行为变化：揭示哪些偏移真正危险

有害偏移的可怕之处在于行为看起来完全正确，机制却是伪造的，作者用两个构造性反例钉死这一点。其一是隐藏通路激活：构造两层 ReLU 网络 \(s = \mathbf{1}^\top \text{ReLU}(W_\ell h^\ell + b_\ell)\)，\(W_\ell \in \mathbb{R}^{3\times4}\)，自然表征下第三个隐藏单元的 pre-activation 恒为负、始终沉默；而均值差 patching（\(\delta_{B \to A} = \mu_A - \mu_B\)）后的表征会点亮该单元，借一条自然输入下从不使用的通路翻转分类决策——一旦把干预表征投影回 \(\text{conv}(S_A)\)，效应立刻消失，证明翻转由偏移而非真实因果机制驱动。其二是休眠行为变化：给上述网络加上下文向量 \(v\) 和第二层后，干预在 \(v_4 < 0.75\) 时行为正常（预测 class A），却在 \(0.75 < v_4 < 1.0\) 时触发本该 \(v_4 > 1\) 才出现的异常 class C，形式化为 \(\mathcal{V}(\psi, X, \mathcal{C}_1, \mathcal{C}) = \mathcal{N}(\psi, X, \mathcal{C}_1) \setminus \mathcal{N}(\psi, X, \mathcal{C})\)；这意味着干预安全性随上下文漂移，而上下文空间无法穷举，是最难防的一类。

损失函数 / 训练策略¶

缓解方案是给对齐训练加一个 Counterfactual Latent (CL) loss，把干预表征 \(\hat{h}\) 拉向反事实潜在向量 \(h_{\text{CL}}\)。原始版（来自 Grant 2025）同时压 L2 距离和余弦角度：

\[\mathcal{L}_{\text{CL}}(\hat{h}, h_{\text{CL}}) = \frac{1}{2}\|\hat{h} - h_{\text{CL}}\|_2^2 - \frac{1}{2}\frac{\hat{h} \cdot h_{\text{CL}}}{\|\hat{h}\|_2 \|h_{\text{CL}}\|_2}\]

其中 \(h_{\text{CL}}\) 取自然表征中具有相同因果变量值的向量平均 \(h_{\text{CL}} = \frac{1}{m} \sum_{i=1}^{m} h_{\text{CL}}^{(x_i)}\)，相当于给"该有的样子"提供一个流形上的锚点。总损失 \(\mathcal{L}_{\text{total}} = \epsilon \mathcal{L}_{\text{CL}} + \mathcal{L}_{\text{DAS}}\) 用可调权重 \(\epsilon\) 平衡正则与原始行为目标。为了能脱离行为损失独立使用，作者又给出只约束因果子空间维度的改进版：

\[\mathcal{L}'_{\text{CL}} = \sum_{i=1}^{n} \left(\frac{1}{2}\|\hat{h}^{\text{var}_i} - h_{\text{CL}}^{\text{var}_i}\|_2^2 - \frac{1}{2}\frac{\hat{h}^{\text{var}_i} \cdot h_{\text{CL}}^{\text{var}_i}}{\|\hat{h}^{\text{var}_i}\|_2 \|h_{\text{CL}}^{\text{var}_i}\|_2}\right)\]

这里 \(\hat{h}^{\text{var}_i} = \mathcal{A}^{-1}(D_{\text{var}_i} \mathcal{A}(\hat{h}))\) 是干预表征在第 \(i\) 个因果子空间上的分量，\(h_{\text{CL}}^{\text{var}_i}\) 用 stopgrad 处理防止梯度回流——只盯因果维度收紧，从而把偏移控制和 OOD 泛化拆开优化。

实验关键数据¶

主实验：偏移的普遍性（Section 3.2）¶

干预方法	模型	层	EMD	偏移显著
Mean Diff Vector Patching	Llama-3-8B-Instruct	L10 (最低 EMD 层)	显著高于自然基线	✓
SAE Reconstruction	Llama-3-8B-Instruct	L25	显著高于自然基线	✓
Boundless DAS	wu2024 设置	指定层	显著高于自然基线	✓

三种主流方法在 PCA 可视化和 Earth Mover's Distance 量化上均显示干预表征明显偏离自然分布。作者还额外使用最近邻余弦距离、L2 配对距离、Local PCA Distance、KDE Density Score、Local Linear Reconstruction Error 等多种度量交叉确认，结论一致。

CL Loss 在 Boundless DAS（7B LLM）上的效果（Section 5.1）¶

CL 权重 \(\epsilon\)	IIA (干预准确率)	EMD (偏移程度)	说明
0（无 CL）	基线 IIA	较高	原始 DAS
小 \(\epsilon\)	保持甚至略提升	明显降低	最优区间
大 \(\epsilon\)	IIA 下降	最低	CL 过强影响行为

关键发现：存在一个 sweet spot，小 \(\epsilon\) 可在不牺牲 IIA 的前提下显著降低偏移。

改进 CL Loss 在合成任务上的效果（Section 5.2）¶

方法	EMD (特征维度)	IIA	OOD 泛化
DAS 行为损失	0.032 ± 0.003	0.997 ± 0.001	较低
改进 CL loss	0.007 ± 0.001	0.9988 ± 0.0005	较高

CL loss 将 EMD 降低约 4.5 倍，IIA 略有提升。OOD 设置中（在 dense/sparse 子任务间迁移对齐矩阵），CL loss 训练的对齐显著优于行为损失。回归分析确认 EMD 与 OOD IIA 反相关（系数 -0.34，\(R^2 = 0.73\)，\(p < 0.001\)），证明减少偏移确实有实际价值。

关键发现¶

偏移不是个别方法的问题，而是因果干预的系统性问题
隐藏通路可在行为上看起来"正确"的同时完全使用非自然机制——最危险的情况
休眠行为变化使干预安全性依赖于上下文，而上下文空间不可穷举
CL loss 提供简单有效的初步缓解方案，且有 OOD 泛化优势

亮点与洞察¶

元方法学贡献：不是在用可解释性工具分析模型，而是审视可解释性工具本身的可靠性。对整个领域的方法论基础有深远影响。
"隐藏通路"概念：干预可能激活自然状态下从未使用的计算路径，导致行为正确但机制错误的结论。直接挑战"高 IIA = 正确机制发现"的常见假设。
无害 vs 有害的清晰框架：通过行为零空间理论给出判断偏移有害性的原则方法，而非粗暴地视所有偏移为问题。
定理 A.2 的优雅性：只有轴对齐超矩形是 patch-closed 的——对几乎所有实际流形，坐标 patching 必然产生偏移。
实用性：CL loss 实现简单，可插入现有 DAS 流程，在 7B LLM 上验证有效。

局限与展望¶

缺乏有害偏移的自动分类方法：无法自动区分无害与有害偏移，限制实用性。
CL loss 是"广撒网"策略：同时减少所有偏移（含无害的），非精准消除有害偏移。
改进版 CL loss 仅在简单合成任务验证：10 类分类的合成数据集距真实 LLM 场景较远。
限于线性对齐函数：Sutter et al. 指出非线性 AF 有更根本的问题，本文未覆盖。
CL 向量获取依赖标注：需知道哪些自然表征具有相同因果变量值，复杂场景难获取。
可探索方向：(a) ReLU 激活模式审计的在线偏移检测；(b) 流形投影与 CL loss 结合；(c) 自监督发现有害偏移。

评分¶

新颖性: ⭐⭐⭐⭐⭐ — 质疑可解释性研究的基本方法论假设，元层面重要贡献
实验充分度: ⭐⭐⭐⭐ — 理论证明扎实，LLM 实验有意义，但改进方法仅在合成数据验证
写作质量: ⭐⭐⭐⭐⭐ — 问题定义精准，逻辑清晰，理论与实验结合紧密
价值: ⭐⭐⭐⭐⭐ — 对 mech interp 领域的因果干预实验有广泛影响，Oral 当之无愧