ICLR 2026 可解释性 Wasserstein 神经元负预激活平滑激活函数句法处理因果消融双重分离

Negative Pre-activations Differentiate Syntax¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=RzcCrU0tXP
代码: https://github.com/Shavit-Lab/Negative-Differentiation
领域: 可解释性 / 机制可解释性
关键词: Wasserstein 神经元, 负预激活, 平滑激活函数, 句法处理, 因果消融, 双重分离

一句话总结¶

本文发现：在使用 GELU/SiLU 等平滑激活的现代 LLM 中，一小撮"Wasserstein 神经元"专门利用负预激活区来区分句法，只把这 1% 神经元的负预激活清零就会大幅破坏语法能力，而对其它任务伤害很小，从而揭示长期被忽视的负区其实是句法计算的活跃载体。

研究背景与动机¶

领域现状：神经元级可解释性研究长期沿用 ReLU 时代的直觉——一个神经元"代表"什么，由让它产生高正激活的输入来定义，负值被默认为"失活、无信息"。这套启发式在识别概念神经元、语言选择性神经元、句法一致性神经元等工作中被广泛使用。

现有痛点：但现代 Transformer 几乎全面改用 GELU、SiLU 这类平滑激活函数。它们在零点附近梯度平滑、缓解"dying ReLU"，关键是对小于零的输入同时输出非零值和非零梯度——也就是说负预激活区原则上是可以参与计算的。然而几乎没人系统检验过：模型到底有没有在用这个负区？用来干什么?

核心矛盾：负预激活区"理论上可计算"与"实践中被当成惰性区"之间存在鸿沟。如果负区真的在被利用，那么大量基于"高正激活"的可解释性结论可能漏掉了一整块机制。

本文目标：定位并因果验证负预激活区是否被模型主动用于某种功能。

核心 idea：作者把目光锁定在 Wasserstein 神经元——一类预激活分布严重偏离高斯基线的稀疏子群（仅约 1%），它们能把局部相似的输入向量映射到相距很远的输出标量（即"纠缠/entangled"神经元）。关键观察：在非 ReLU 模型里，这些神经元的非高斯结构恰恰集中在负预激活区。于是作者提出用"符号特异的最小干预"——只把这些神经元的负预激活清零——来检验负区是不是句法的因果载体。

方法详解¶

整体框架¶

方法分三层递进：先在 MLP 块里定位 Wasserstein 神经元并刻画其负区非高斯结构；再做符号特异因果消融（只清零负预激活），配合"困惑度匹配"对照组验证句法 vs 非句法能力的双重分离；最后通过分层消融和训练动态追踪效应的来源与演化。

flowchart LR
    A[输入文本<br/>WikiText-2] --> B[收集 MLP gate/up<br/>投影预激活分布]
    B --> C[算 WD 与 MD<br/>选 top 1% 纠缠神经元]
    C --> D[符号特异消融<br/>负预激活清零 a'=max a,0]
    D --> E1[BLiMP/TSE<br/>语法基准]
    D --> E2[ARC/PIQA 等<br/>非语法基准]
    E1 & E2 --> F[双重分离结论]
    D --> G[分层消融 + 训练动态]

关键设计¶

1. Wasserstein 神经元的定位与度量：用 WD 当纠缠代理。 作者在 GPT-2 式模型（Pythia，\(y=W_{down}(\text{GELU}(W_{up}x))\)）的 up 投影、以及 GLU 式模型（Llama 3.1 8B、Mistral 7B、Qwen3 8B，\(y=W_{down}(\text{SiLU}(W_{gate}x)\odot(W_{up}x))\)）的 gate 投影上收集每个神经元的输出标量分布 \(\{y_i\}=\{w^\top x_i\}\)，归一化到零均值单位方差后，计算它与单位高斯的 Wasserstein 距离 (WD)。同时定义映射难度 (MD)：随机取输入对 \(x_i,x_j\)，看归一化后的输出差 \(\|y_i-y_j\|\) 相对输入差 \(\|x_i-x_j\|\) 的比值均值，量化"把相似输入推开多远"。由于 WD 与 MD 强相关，作者用 WD 作为可计算的纠缠代理来筛选 top 1% 神经元，只在需要专门挑"被推远的输入对"时才用 MD。这一步还附带一个关键经验观察——这些神经元的非高斯质量在 GELU 模型里集中于负区，而 ReLU 模型（如 OPT）因为钳位作用，负区结构明显更弱，从而把分析合理地聚焦到负预激活这个"可处理子集"。

2. 符号特异的最小因果干预：只动负区的符号。 这是全文的核心实验杠杆。对属于 top \(p\%\) WD 集合 \(S\) 的神经元，作者只把它们的负预激活清零：\(a'_k=\max(a_k,0)\) 当 \(k\in S\)，否则 \(a'_k=a_k\)，其中 \(p\) 约为 1%。模型权重、其余神经元、非线性全部不变，唯一改动就是这一小撮神经元负区的取值。之所以叫"符号特异"，是因为附加对照（Section A.4）验证了起作用的是负预激活的符号本身而非单纯幅度——把负区抹平这件事破坏的是一种依赖负值的区分机制，而不是泛泛地削弱信号强度。这种干预之轻（仅 ≈1% 神经元、仅其负半边）与造成的功能损伤之重形成强烈反差，是因果论证的关键。

3. 困惑度匹配对照：剥离"总体退化"这个混淆变量。 单看"清零后困惑度暴涨"不足以证明针对的是句法，因为任何足够强的扰动都会涨困惑度。作者设计两组对照：一是随机选等量神经元做同样消融；二是困惑度匹配对照——对低 WD 神经元按底部 \(m\%\) 排名消融，逐步增大 \(m\) 直到 WikiText-2 困惑度涨幅与 top-WD 消融持平。这样两种干预造成的"全局退化程度"相当，差异只剩在"动了哪类神经元"。在困惑度被钉死相等的前提下，再去比 BLiMP/TSE（语法）和 ARC/PIQA 等（非语法）的表现，就能干净地分离出句法专属效应——这正是得出"双重分离"的方法学基石。

4. 分层消融与训练动态：定位起源并验证因果时序。 为追问效应来自哪、何时形成，作者把 Llama 3.1 8B 切成 8 组（每组 4 层连续层），分别做"单组扰动"和"累积扰动"（扰动到某组为止的所有层），观察误差随深度的累积；同时在 Pythia 的公开训练 checkpoint 上追踪固定那一批 top-1% WD 神经元的 WD 随训练的演化，并把同一个负区消融在不同 checkpoint 上重做。这两条线分别给出"早层主导 + 误差跨深度累积"和"随 Wasserstein 神经元涌现并稳定、同一消融越来越致命"的证据，把相关性升级为因果时序证据。

实验关键数据¶

主实验：符号特异消融的双重分离（Llama 3.1 8B 等三模型）¶

干预	扰动神经元	困惑度影响	BLiMP/TSE 语法	非语法基准(8 项均值)
Top 1% WD（负区消融）	仅 ≈1%	Llama/Mistral 2% 扰动即翻倍，Qwen 约 5%	大幅下降	仅约 +4% 误差（伤害小）
随机对照	等量 1%	涨幅很小	基本不变	无明显变化
困惑度匹配对照（低 WD）	Llama 35%/Mistral 50%/Qwen 20%	与 top-1% 持平	基本不受损	约 +11% 误差（伤害大）

→ 只动 1% 纠缠神经元负区造成的困惑度涨幅，需要扰动 35%–50% 的低纠缠神经元才能匹配，凸显其功能密度极高。

分层 / Token 级分析（Llama 3.1 8B）¶

维度	发现
POS token 级（Fig.3d）	超额 surprisal 集中于句法支架词：限定词、标点、助动词、虚词；而名词/动词/形容词/副词几乎不受影响
早层 vs 晚层（Fig.5）	早层消融误差最大；TSE 中否定极性词授权 (NPI) 仅扰动前 4 层就 +20% 误差
累积消融	误差随深度单调累积，省略 (ellipsis)、主谓一致、限定词-名词一致、filler-gap 依赖最显著

训练动态（Pythia 70M–12B）¶

发现	数据
涌现迅速	Wasserstein 神经元 WD 在前 25K 步（约 50B token）内急升
早专化晚稳定	早期权重变化大、随后进入巩固期（cosine 相异度）
与句法能力同步	固定 cohort 的 WD 随训练与 TSE 准确率强相关；同一负区消融随这些神经元成熟而越来越致命

关键发现¶

双重分离成立：1% 纠缠神经元负区 → 重伤语法、轻伤通用能力；大量低 WD 神经元负区 → 几乎不伤语法、重伤通用能力。
句法损伤定位到非局部依赖结构（省略、主谓一致、NPI 授权），且锁定在句法支架词。
起作用的是负预激活的符号而非幅度；按 MD 选神经元结果一致。

亮点与洞察¶

挑战 ReLU 时代遗留的"负区无用"教条：把神经元解释从"高正激活定义功能"扩展到"负区也是活跃计算载体"，对整个机制可解释性方法论有警示意义。
方法极简却有力：只清零 1% 神经元的负半边，配合困惑度匹配对照，干净地得到因果级双重分离，是"最小干预 + 对照设计"的范本。
从相关到因果的完整证据链：定位→因果消融→分层定位→训练动态，逐级把"WD 与句法相关"推进到"负区因果必需于句法"。
跨模型族验证：Pythia、Llama、Mistral、Qwen 一致，说明这是平滑激活 LLM 的共性机制而非单模型偶然。

局限与展望¶

机制层面仍是"黑箱中的灰箱"：揭示了"负区被用于句法"，但这些纠缠神经元具体如何把相似输入推开、下游如何读取这套区分，尚未给出可解释的电路级描述。
ReLU 模型未深入：论文指出 ReLU 模型负区结构较弱，但未系统验证那里句法靠什么承载，平滑 vs 非平滑的对比可进一步展开。
句法之外的负区功能：双重分离表明通用能力分布在大量低 WD 神经元，但负区在非句法任务中的角色尚未细究。
干预为推理时钳位：是否能据此做训练期正则或模型编辑（如增强/保护句法）是有吸引力的应用方向。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 直接挑战"负预激活无用"的长期默认假设，并锁定到句法这一具体功能，视角新颖且反直觉。
实验充分度: ⭐⭐⭐⭐ 四个模型族 + 困惑度匹配对照 + 分层 + 训练动态 + token 级 POS，证据链完整；ReLU 侧与电路机制略浅。
写作质量: ⭐⭐⭐⭐ 逻辑层层递进，双重分离论证清晰，图表组织得当。
价值: ⭐⭐⭐⭐ 为机制可解释性提供方法论警示和可复现的因果干预范式，对理解 LLM 句法处理有实质贡献。