Can SAEs Reveal and Mitigate Racial Biases of LLMs in Healthcare?¶
会议: ICLR 2026
arXiv: 2511.00177
代码: https://github.com/hibaahsan/sae_bias/
领域: 医学NLP / AI安全 / LLM对齐
关键词: 稀疏自编码器, 种族偏见, 医疗AI, 可解释性, 因果干预
一句话总结¶
研究稀疏自编码器(SAE)能否揭示和缓解 LLM 在医疗场景中的种族偏见:发现 SAE 能识别出与种族相关的有害联想(如黑人与暴力),但在复杂临床任务中缓解偏见的效果有限(FLDD < 3%),远不如简单的提示策略(FLDD 8-15%)。
研究背景与动机¶
领域现状:LLM 在医疗场景中越来越多被使用(临床记录分析、病例生成),但已知存在种族偏见——对黑人患者可能系统性地给出不同的风险评估。
现有痛点:现有偏见检测依赖外部基准评测,无法解释偏见的"内在机制"——模型到底在内部如何表示种族信息?CoT 解释不忠实(模型声称不使用种族信息,但实际使用了)。
核心矛盾:SAE 提供了对 LLM 内部表征的精细分析工具,但能否将"检测"转化为"缓解"仍不清楚。
本文目标 (a) SAE 能否识别 LLM 中与种族相关的特征?(b) 消融这些特征能否有效减少偏见?
切入角度:用 L1 正则化的逻辑回归在 SAE 激活上训练种族探针,识别预测种族的潜在特征,然后通过 steering 和 ablation 进行因果验证。
核心 idea:SAE 能揭示偏见的机制(黑人潜在特征与监禁/可卡因/枪伤等耻辱化术语共激活),但消融这些特征并不足以缓解复杂临床任务中的偏见。
方法详解¶
整体框架¶
论文想搞清楚一件事:LLM 在医疗场景里对黑人患者的偏见,到底以什么形式编码在模型内部,又能不能靠"动一动内部特征"就消掉。整条流程围绕 SAE(稀疏自编码器)展开,分三步走:先在临床出院记录的 SAE 激活上训练一个种族分类探针,把能预测患者种族的潜在特征挑出来;再人工检查这些特征到底对应什么语义;最后用 steering(放大激活)和 ablation(消除激活)做因果干预,既验证"这些特征真的驱动了偏见",也检验"消掉它们能不能缓解偏见"。
关键设计¶
1. 种族探针:把"种族信息藏在哪些 SAE 特征里"找出来
SAE 把模型某一层的隐藏状态分解成上万个稀疏、可解释的潜在特征,但谁也不知道哪几个跟种族有关。论文的做法是对每条出院记录的 SAE 激活向量做跨 token 的 max-aggregate(每个特征取它在整段文本里的最大激活值),再用 L1 正则化的逻辑回归去预测患者种族。L1 的稀疏性会自动把权重压到极少数特征上,于是高权重特征就是"最能预测种族"的候选,数量少到可以逐个人工检查语义。这一步把"种族在内部如何表示"从黑箱问题变成了一份可读的特征清单。
2. Steering:放大特征激活,验证它和偏见的因果关系
光知道某特征和种族相关还不够,得证明它真的会改变模型的临床判断。论文在第 \(l\) 层对种族相关特征做定向放大,把隐藏状态改成
其中 \(z_{\max}\) 是该特征的最大激活、\(\alpha\) 是放大系数,从 0.01 扫到 5。如果放大"黑人特征"后模型对暴力风险的评估随之升高,就说明这个特征不是旁观者,而是因果地参与了偏见判断——这把相关性升级成了可干预的因果证据。
3. Ablation 与 FLDD:消除特征激活,量化偏见到底降了多少
缓解端的做法相反:直接把种族相关特征的激活清零,看模型在临床任务上的偏见缩小多少。论文用 FLDD(Fraction of Logit-Difference Decrease)来度量效果,
这里 logitdiff 指同一病例在"黑人 vs 白人"设定下模型输出的 logit 差,反映偏见强度;消融后这个差缩得越多,FLDD 越接近 1,说明干预越有效。把它当统一标尺,就能直接和提示去偏等其他策略横向比较——而正是这个标尺最后暴露了 SAE 消融在复杂临床任务上的乏力(FLDD < 3%)。
实验关键数据¶
偏见发现¶
- 黑人相关潜在特征与哪些词共激活:incarceration(监禁)、cocaine(可卡因)、gunshot(枪伤)
- Steering 黑人特征后,暴力风险评估得分增加 0.51-0.80(因果验证)
缓解效果对比¶
| 临床任务 | SAE Ablation FLDD | 提示策略 FLDD |
|---|---|---|
| 可卡因诊断 | 0.8% | 15.2% |
| 妊娠高血压 | 1.1% | 12.8% |
| 疼痛评估 | 0.01% | 8.1% |
| 子宫肌瘤 | 2.9% | 3.2% |
关键发现¶
- SAE 成功识别了种族偏见的机制(与耻辱化术语的共激活)
- CoT 解释不忠实——模型声称不使用种族,但 SAE 分析证明使用了
- SAE ablation 在复杂临床任务中效果极差(FLDD < 3%),远不如简单提示策略
- 种族信息可能分布在太多特征中,单一消融不足以影响整体输出
- 病历生成任务中,SAE ablation 减少黑人病例比例约 30%(有效但可能过度修正)
亮点与洞察¶
- 诚实的负面结果:坦率报告 SAE 缓解效果不佳,比声称成功更有价值。揭示了机制可解释性和实际缓解之间的差距。
- CoT 不忠实性的证据:SAE 分析提供了模型"说一套做一套"的定量证据——模型声称不用种族信息,但内部表征明显编码了种族。
- 耻辱化联想的发现:黑人-暴力、黑人-可卡因等有害联想的精确定位,对理解和审计医疗 AI 有直接意义。
局限与展望¶
- SAE 缓解策略的失败可能是因为种族信息过于分布式,需要更细粒度的干预
- 仅在 Gemma-2 系列模型上验证,其他架构可能不同
- 临床任务的标注数据有限,可能影响偏见评估的统计功效
相关工作与启发¶
- vs 提示去偏策略: 简单的提示(如"不要考虑种族")反而更有效,说明表层干预有时比深层干预更实用
- vs 传统公平性审计: SAE 提供了内部机制层面的偏见分析,比仅看输出指标更深入
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 首次系统研究 SAE 在医疗偏见中的应用,负面结果也很有价值
- 实验充分度: ⭐⭐⭐⭐ 检测/steering/ablation 全流程,多临床任务
- 写作质量: ⭐⭐⭐⭐⭐ 诚实报告负面结果,分析深入
- 价值: ⭐⭐⭐⭐ 对医疗 AI 公平性研究有重要参考价值