GKnow: Measuring the Entanglement of Gender Bias and Factual Gender¶
会议: ACL 2026
arXiv: 2605.12299
代码: https://github.com/leonorv/gknow
领域: 公平性 / 性别偏见 / 机制可解释性
关键词: 性别偏见, 事实性别, 电路分析, 神经元消融, EAP-IG
一句话总结¶
本文提出 GKnow 基准与一套电路-神经元两级机制分析,证明 LLM 中"性别偏见 (stereotypical gender)"与"事实性别 (factual gender)"在电路层 IoU/cross-task faithfulness 高度重叠、在神经元层共享同一组高 IG 神经元,因此简单的"消融性别偏见神经元"会同时削弱事实性别能力,但在仅评测偏见的 benchmark 上看起来像"成功去偏",警告这种 debiasing 不可靠。
研究背景与动机¶
领域现状:机制可解释性(mechanistic interpretability,MI)社区近年用 causal mediation、edge attribution patching、neuron attribution 等手段定位"性别偏见"的内部组件,并以"消融最相关偏见神经元"作为轻量去偏方法(Liu et al. 2024、Yu & Ananiadou 2025 等)。这条路因不依赖昂贵数据/微调而越来越火。
现有痛点:现有性别 MI 工作 (i) 多聚焦单一任务(最常见就是"代词预测"),(ii) 不区分"事实性别"(woman→she, brother→he 这种语义性别)与"刻板印象性别"(nurse→she, pilot→he)。这导致一个隐藏的副作用——消融"偏见神经元"会破坏模型识别 factual gender 的能力,而单一偏见 benchmark 看不到这种掉点。
核心矛盾:偏见信号与事实性别信号在模型表征里很可能纠缠(entangled),但社区在电路层级缺少系统证据;同时缺少能同时覆盖"事实/刻板印象 × 不同性别预测类型"的细分基准。
本文目标:(1) 建一个细粒度英语性别基准 GKnow,按"主语类型 × 输出类型"组织;(2) 用 EAP-IG 在电路层验证 factual vs stereotypical 是否电路重叠;(3) 用 IG 神经元消融验证消融偏见神经元是否真的能去偏而不伤事实能力。
切入角度:作者认为,如果电路/神经元层面证明 entanglement 显著存在,那 ablation-based debiasing 在不评 factual gender 的 benchmark 上看到的"成功"其实是假象——StereoSet 上的"好结果"完全可能伴随事实性别能力崩塌。
核心 idea:把"是否纠缠"做成可测量量(cross-task circuit faithfulness + 共享高 IG 神经元 + factual vs stereo 双面消融),用一个统一基准 GKnow 把两件事一起评。
方法详解¶
整体框架¶
方法 pipeline 分三块:
1. 基准构建:GKnow 覆盖 5 类性别相关主体(pronoun / gender word / gendered name / lexically gendered noun / stereotypically gendered noun),与 5 类期望输出两两组合 25 个子集,把"主语-输出"语义来源切到非常细。完整 91,490 例,工作中用 6,294 train + 698 test。
2. 电路层分析(Section 4):用 EAP-IG 找每个 GKnow 子集的最小忠实电路(recovery ≥ 80%),然后算 edge/node Jaccard IoU + cross-task faithfulness(A 电路解 B 任务的还原度)。
3. 神经元层分析(Section 5):用集成梯度 (IG) 在 gender_prediction_based_on_stereo 子集上挑出 top-N 神经元,把其激活 zero-ablate,再在 GKnow Stereo/Factual、StereoSet、DiFair Neutral/Specific 上分别测 \(P_{exp}, P_{opp}, P_{other}, \%exp, \%opp, \%other, \Delta_{f,m}\)。
模型为 Llama-3.1-8B 与 Olmo-7B。
关键设计¶
-
GKnow:主语 × 输出双轴的细粒度性别基准:
- 功能:提供 "stereotypical vs factual" + "pronoun/gender/name/lex/stereo" 两轴的所有组合,让同一框架能比较去偏对事实/刻板两面的影响。
- 核心思路:定义 prompt 的"假设 (subject)"与"预测 (expected output)"分别属于 5 类性别表达;蓝色 (factual) 与红色 (stereo) 单元格的组合(例如
pronoun_prediction_based_on_stereo是 "The nurse is nice, isn't [she]")允许把 任一子集 作为"刻板印象"或"事实"任务来测。每条样本带subject / expected_output / gender / stereo_category / id。 - 设计动机:现有基准要么只测代词、要么只看 stereo,无法回答"消融把 factual 也带走了多少"。GKnow 第一次把这两件事系统对齐到一个表格里。
-
EAP-IG 电路 + cross-task faithfulness 衡量纠缠:
- 功能:从电路层量化"刻板印象电路"与"事实电路"是不是同一套子图。
- 核心思路:EAP-IG 给计算图每条边 \((u,v)\) 打分 \((z'_u - z_u)\cdot \frac{1}{m}\sum_{k=1}^{m}\frac{\partial L(z' + \frac{k}{m}(z-z'))}{\partial z_v}\) (\(z, z'\) 为 clean / corrupted 激活,\(m=5\))。对每个 GKnow 子集贪心累加 top-N 边直到 faithfulness \(\geq 0.8\),得到最小忠实电路;然后两两子集算 edge/node Jaccard IoU 与 cross-task faithfulness(A 电路嵌入 B 任务的还原度)。
- 设计动机:单纯 IoU 容易漏掉"重要边对功能等价但具体边不同"的情形;cross-task faithfulness 直接测"功能可换性",更贴近 entanglement 本意。论文展示
gender_prediction_based_on_stereo电路在gender_prediction_based_on_pronoun上 faithfulness=1.0,因此"刻板印象电路完全能做事实任务"。
-
IG 神经元消融的 factual vs stereo 双面评估:
- 功能:把"ablation 是否真去偏"和"ablation 是否伤事实"放在同一个量表里看。
- 核心思路:在
gender_prediction_based_on_stereo训练子集上用 IG 选 top-10 / top-50 神经元 → 把其激活置 0 → 在 GKnow Stereo、GKnow Factual、StereoSet、DiFair Neutral、DiFair Specific 上同步测一整套 prediction-on-target + preference + prediction-gap 指标 (\(P_{exp}/P_{opp}/P_{other}/\%exp/\%opp/\%other/\Delta_{f,m}\))。 - 设计动机:传统 ablation 工作只在 stereo benchmark 上报"\(\%opp\) 增加" 等"正向"指标;本文设计让同样的 ablation 必须同时在 factual benchmark 上汇报,从而把"看似去偏"的副作用暴露出来。
损失函数 / 训练策略¶
方法不更新模型,无训练损失。神经元定位用 IG 的标准实现(\(m\) 步积分),消融时仅把对应 FFN 隐神经元激活置 0;电路用 EAP-IG 在 GKnow 增广的反事实 prompt 上贪心选边;显著性用 paired \(t\) test (\(p<0.05\))。
实验关键数据¶
主实验(Llama-3.1-8B 神经元消融)¶
| 数据集 | \(P_{exp}\) (N=0) | \(P_{exp}\) (N=50) | \(\Delta_{f,m}\) (N=0) | \(\Delta_{f,m}\) (N=50) | 结论 |
|---|---|---|---|---|---|
| GKnow Stereo | 67.66 | 47.03 (↓20.64) | 21.81 | 7.45 (↓14.36) | "去偏"看起来有效 |
| GKnow Factual | 91.49 | 79.86 (↓11.63) | 43.77 | 18.03 (↓25.76) | 但事实能力大幅退化 |
| StereoSet | 65.26 | 62.60 (↓2.66) | — | — | 偏见 benchmark 看起来轻微改善 |
| DiFair Neutral | — | — | 6.48 | 2.23 (↓4.25) | 中性句性别预测信心暴跌 |
| DiFair Specific | — | — | 45.57 | 15.30 (↓30.26) | 显式带性别线索的句子也崩了 |
Olmo-7B 趋势完全一致:GKnow Factual \(P_{exp}\) 从 90.07→82.80(−7.27),\(\Delta_{f,m}\) 从 40.01→23.37(−16.64)。
消融实验(电路层 cross-task faithfulness)¶
| 设置 | 关键指标 | 说明 |
|---|---|---|
| 相同 prediction 类型内 | avg faithfulness 77.2 (gender→gender) | 同类任务间电路高度可互换 |
| 跨 prediction 类型 | avg 72.9 (gender→pronoun) | 跨任务仍有 72% 以上还原,电路重叠强 |
gender_prediction_based_on_stereo → gender_prediction_based_on_pronoun |
faithfulness = 1.0 | stereo 电路完全能解 factual 任务 |
based_on_lex → based_on_stereo |
高 faithfulness | lex 电路对 stereo 子集普适性最强 |
based_on_name 电路跨任务 |
还原度最低 | 名字电路最特化、最不可换 |
电路 IoU 在 stereo/factual 子集之间也维持高 Jaccard,与 faithfulness 结论一致。
关键发现¶
- 纠缠从电路一路延伸到神经元:电路层 IoU 和 cross-task faithfulness 双双偏高,神经元层共享 top-IG 神经元(论文表 4 给出 Olmo L31N8077 跨 lex_prediction 与 pronoun_prediction 任务都解释为 gender,bottom tokens 全是
she/her/woman等),三个尺度证据互相印证。 - 去偏的"假成功":在 StereoSet/GKnow Stereo 上看到 \(\%opp\) 增加、\(P_{exp}\) 下降,会被解读为去偏成功;同时 DiFair Specific 的 \(\Delta\) 从 45.57 暴跌到 15.30,事实性别能力崩盘,但只看偏见 benchmark 完全看不见。
- \(P_{other}\) 增加揭露 "decontextualization":N=50 时 GKnow Stereo \(\%other\) 从 0 飙到 30%,说明 ablation 不是把 he 换成 she,而是把模型推向"中性/无关 token",等于在伤模型语言能力。
- 电路差异在 model 层有趣:Llama 中层连接以 attention-centric 为主,Olmo 中层以 MLP 间连接为主(Figure 3),说明同样的 gender 概念在不同架构里走不同路。
based_on_lex电路最通用:因 subject 涵盖 family/occupation/misc 多种 lex gender,电路具有更强迁移性;启示构造"通用性别探针"时优先用 lex subject。
亮点与洞察¶
- 基准设计的双轴排列是简单但有效的研究工具:把 5×5 = 25 个 subset 拼起来,自然支持"任意去偏方法都要双面汇报"的评测规范。
- 首次把 EAP-IG 拿来证 entanglement:以往的电路工作多用来理解"模型怎么做对",本文把 cross-task faithfulness 作为 "两功能是否同一电路" 的量化证据,给"机制层 disentanglement"研究提供模板。
- 对"神经元去偏"派打了一拳:Liu et al. 2024、Yu & Ananiadou 2025 等都报告了正向结果;本文证明这些正向结果是 evaluation gap 造成的虚像,未来这类方法必须在 DiFair 或 GKnow 上双面汇报。
- logit-lens 验证可解释性:被消融的 neuron 既能"代表"性别(bottom token 全是 she/her)又同时影响 lex / pronoun 任务,是 "一个 neuron 同时承载多个语义维度" 的硬证据,对 superposition 假设提供新材料。
局限与展望¶
- 只覆盖英语 + 二元性别:未涉及语法性别语言(如德/西)或非二元代词;作者承认这会"加剧非二元身份在 NLP 中的隐形化"。
- 只测小模型(7B / 8B):在更大模型或不同架构(如 MoE)上的 entanglement 程度未知。
- 只覆盖职业/形容词刻板印象:宗教、种族交叉的性别 stereotype、隐式/语用层 bias 未覆盖。
- ablation 形式单一:只做 zero-ablation;mean ablation、optimal ablation、SAE feature ablation 等更复杂方案没系统比较。
- GKnow 自动模板的覆盖偏倚:prompt 模板少且来自既有工作,可能放大 idiomatic pattern 上的偏置。
相关工作与启发¶
- vs DiFair (Zakizadeh et al. 2023):DiFair 是首个 disentangled bias/knowledge benchmark,但基于 wikipedia/reddit 句子,无 mask-only 目标的细分类;GKnow 是 prompt-template + 5×5 subset 的可控版本,更适合电路/神经元层分析。
- vs Liu et al. 2024 / Yu & Ananiadou 2025:他们用 IG/激活归因找"偏见神经元"做 ablation 去偏并报告 StereoSet 上的提升;本文复现其设置但加 factual 评测,证明效果有 trade-off。
- vs Limisiewicz & Mareček 2022 / Bolukbasi et al. 2016:他们尝试"保留 factual 的 debiasing",本文从机制层解释了为什么必须保留——电路确实纠缠,朴素 ablation 注定双输。
- vs Chintam et al. 2023:基于 causal mediation 找 GPT-2 small 偏见组件;本文用 EAP-IG + cross-task faithfulness,量化 entanglement 比 mediation 更直接。
评分¶
- 新颖性: ⭐⭐⭐⭐ 把 entanglement 从"猜想"变成可定量的电路+神经元双层证据;GKnow 双轴设计简洁有效。
- 实验充分度: ⭐⭐⭐⭐ 双模型 × 三 benchmark × 多神经元数 × 多指标,并附 logit-lens 可解释性分析;缺更大模型与多种 ablation 形式对比。
- 写作质量: ⭐⭐⭐⭐ 概念区分清晰、表 1-3 一目了然;附录细节充足。
- 价值: ⭐⭐⭐⭐⭐ 直接挑战目前最流行的"神经元 ablation 去偏"路线,并提供可复用基准,对未来评测规范有实质影响。