Can SAEs Reveal and Mitigate Racial Biases of LLMs in Healthcare?¶

会议: ICLR 2026
arXiv: 2511.00177
代码: https://github.com/hibaahsan/sae_bias/
领域: 医学图像 / AI安全 / LLM对齐
关键词: 稀疏自编码器, 种族偏见, 医疗AI, 可解释性, 因果干预

一句话总结¶

研究稀疏自编码器（SAE）能否揭示和缓解 LLM 在医疗场景中的种族偏见：发现 SAE 能识别出与种族相关的有害联想（如黑人与暴力），但在复杂临床任务中缓解偏见的效果有限（FLDD < 3%），远不如简单的提示策略（FLDD 8-15%）。

领域现状：LLM 在医疗场景中越来越多被使用（临床记录分析、病例生成），但已知存在种族偏见——对黑人患者可能系统性地给出不同的风险评估。

现有痛点：现有偏见检测依赖外部基准评测，无法解释偏见的"内在机制"——模型到底在内部如何表示种族信息？CoT 解释不忠实（模型声称不使用种族信息，但实际使用了）。

核心矛盾：SAE 提供了对 LLM 内部表征的精细分析工具，但能否将"检测"转化为"缓解"仍不清楚。

本文目标 (a) SAE 能否识别 LLM 中与种族相关的特征？(b) 消融这些特征能否有效减少偏见？

切入角度：用 L1 正则化的逻辑回归在 SAE 激活上训练种族探针，识别预测种族的潜在特征，然后通过 steering 和 ablation 进行因果验证。

核心 idea：SAE 能揭示偏见的机制（黑人潜在特征与监禁/可卡因/枪伤等耻辱化术语共激活），但消融这些特征并不足以缓解复杂临床任务中的偏见。

三步法：(1) 在临床出院记录的 SAE 激活上训练种族分类探针，(2) 分析最具预测力的潜在特征的语义含义，(3) 通过 steering（增强激活）和 ablation（消除激活）验证因果关系并测试缓解效果。

种族探针训练:
- 功能：识别 SAE 中能预测患者种族的潜在特征
- 核心思路：对 SAE 激活向量做 max-aggregate（跨 token 取最大值），训练 L1 逻辑回归。高权重特征即为种族相关特征。
- 设计动机：L1 正则化自动选择最少且最相关的特征，便于人工检查。
因果验证（Steering）:
- 功能：通过增强种族相关潜在特征的激活，观察模型输出变化
- 核心思路：在第 l 层修改隐藏状态 z'_i = z_i + alpha * z_max（仅对种族相关特征）。alpha 从 0.01 到 5 扫描。
- 设计动机：如果 steering 黑人特征导致暴力风险评估升高，说明该特征与偏见有因果关系。
偏见缓解（Ablation）:
- 功能：消除种族相关特征的激活，测量偏见减少程度
- 核心思路：FLDD = 1 - logitdiff_ablated / logitdiff_clean。FLDD 越高说明消融越有效。