Can SAEs Reveal and Mitigate Racial Biases of LLMs in Healthcare?¶
会议: ICLR 2026
arXiv: 2511.00177
代码: https://github.com/hibaahsan/sae_bias/
领域: 医学图像 / AI安全 / LLM对齐
关键词: 稀疏自编码器, 种族偏见, 医疗AI, 可解释性, 因果干预
一句话总结¶
研究稀疏自编码器(SAE)能否揭示和缓解 LLM 在医疗场景中的种族偏见:发现 SAE 能识别出与种族相关的有害联想(如黑人与暴力),但在复杂临床任务中缓解偏见的效果有限(FLDD < 3%),远不如简单的提示策略(FLDD 8-15%)。
研究背景与动机¶
领域现状:LLM 在医疗场景中越来越多被使用(临床记录分析、病例生成),但已知存在种族偏见——对黑人患者可能系统性地给出不同的风险评估。
现有痛点:现有偏见检测依赖外部基准评测,无法解释偏见的"内在机制"——模型到底在内部如何表示种族信息?CoT 解释不忠实(模型声称不使用种族信息,但实际使用了)。
核心矛盾:SAE 提供了对 LLM 内部表征的精细分析工具,但能否将"检测"转化为"缓解"仍不清楚。
本文目标 (a) SAE 能否识别 LLM 中与种族相关的特征?(b) 消融这些特征能否有效减少偏见?
切入角度:用 L1 正则化的逻辑回归在 SAE 激活上训练种族探针,识别预测种族的潜在特征,然后通过 steering 和 ablation 进行因果验证。
核心 idea:SAE 能揭示偏见的机制(黑人潜在特征与监禁/可卡因/枪伤等耻辱化术语共激活),但消融这些特征并不足以缓解复杂临床任务中的偏见。
方法详解¶
整体框架¶
三步法:(1) 在临床出院记录的 SAE 激活上训练种族分类探针,(2) 分析最具预测力的潜在特征的语义含义,(3) 通过 steering(增强激活)和 ablation(消除激活)验证因果关系并测试缓解效果。
关键设计¶
-
种族探针训练:
- 功能:识别 SAE 中能预测患者种族的潜在特征
- 核心思路:对 SAE 激活向量做 max-aggregate(跨 token 取最大值),训练 L1 逻辑回归。高权重特征即为种族相关特征。
- 设计动机:L1 正则化自动选择最少且最相关的特征,便于人工检查。
-
因果验证(Steering):
- 功能:通过增强种族相关潜在特征的激活,观察模型输出变化
- 核心思路:在第 l 层修改隐藏状态 z'_i = z_i + alpha * z_max(仅对种族相关特征)。alpha 从 0.01 到 5 扫描。
- 设计动机:如果 steering 黑人特征导致暴力风险评估升高,说明该特征与偏见有因果关系。
-
偏见缓解(Ablation):
- 功能:消除种族相关特征的激活,测量偏见减少程度
- 核心思路:FLDD = 1 - logitdiff_ablated / logitdiff_clean。FLDD 越高说明消融越有效。
实验关键数据¶
偏见发现¶
- 黑人相关潜在特征与哪些词共激活:incarceration(监禁)、cocaine(可卡因)、gunshot(枪伤)
- Steering 黑人特征后,暴力风险评估得分增加 0.51-0.80(因果验证)
缓解效果对比¶
| 临床任务 | SAE Ablation FLDD | 提示策略 FLDD |
|---|---|---|
| 可卡因诊断 | 0.8% | 15.2% |
| 妊娠高血压 | 1.1% | 12.8% |
| 疼痛评估 | 0.01% | 8.1% |
| 子宫肌瘤 | 2.9% | 3.2% |
关键发现¶
- SAE 成功识别了种族偏见的机制(与耻辱化术语的共激活)
- CoT 解释不忠实——模型声称不使用种族,但 SAE 分析证明使用了
- SAE ablation 在复杂临床任务中效果极差(FLDD < 3%),远不如简单提示策略
- 种族信息可能分布在太多特征中,单一消融不足以影响整体输出
- 病历生成任务中,SAE ablation 减少黑人病例比例约 30%(有效但可能过度修正)
亮点与洞察¶
- 诚实的负面结果:坦率报告 SAE 缓解效果不佳,比声称成功更有价值。揭示了机制可解释性和实际缓解之间的差距。
- CoT 不忠实性的证据:SAE 分析提供了模型"说一套做一套"的定量证据——模型声称不用种族信息,但内部表征明显编码了种族。
- 耻辱化联想的发现:黑人-暴力、黑人-可卡因等有害联想的精确定位,对理解和审计医疗 AI 有直接意义。
局限与展望¶
- SAE 缓解策略的失败可能是因为种族信息过于分布式,需要更细粒度的干预
- 仅在 Gemma-2 系列模型上验证,其他架构可能不同
- 临床任务的标注数据有限,可能影响偏见评估的统计功效
相关工作与启发¶
- vs 提示去偏策略: 简单的提示(如"不要考虑种族")反而更有效,说明表层干预有时比深层干预更实用
- vs 传统公平性审计: SAE 提供了内部机制层面的偏见分析,比仅看输出指标更深入
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 首次系统研究 SAE 在医疗偏见中的应用,负面结果也很有价值
- 实验充分度: ⭐⭐⭐⭐ 检测/steering/ablation 全流程,多临床任务
- 写作质量: ⭐⭐⭐⭐⭐ 诚实报告负面结果,分析深入
- 价值: ⭐⭐⭐⭐ 对医疗 AI 公平性研究有重要参考价值