跳转至

Can SAEs Reveal and Mitigate Racial Biases of LLMs in Healthcare?

会议: ICLR 2026
arXiv: 2511.00177
代码: https://github.com/hibaahsan/sae_bias/
领域: 医学图像 / AI安全 / LLM对齐
关键词: 稀疏自编码器, 种族偏见, 医疗AI, 可解释性, 因果干预

一句话总结

研究稀疏自编码器(SAE)能否揭示和缓解 LLM 在医疗场景中的种族偏见:发现 SAE 能识别出与种族相关的有害联想(如黑人与暴力),但在复杂临床任务中缓解偏见的效果有限(FLDD < 3%),远不如简单的提示策略(FLDD 8-15%)。

研究背景与动机

领域现状:LLM 在医疗场景中越来越多被使用(临床记录分析、病例生成),但已知存在种族偏见——对黑人患者可能系统性地给出不同的风险评估。

现有痛点:现有偏见检测依赖外部基准评测,无法解释偏见的"内在机制"——模型到底在内部如何表示种族信息?CoT 解释不忠实(模型声称不使用种族信息,但实际使用了)。

核心矛盾:SAE 提供了对 LLM 内部表征的精细分析工具,但能否将"检测"转化为"缓解"仍不清楚。

本文目标 (a) SAE 能否识别 LLM 中与种族相关的特征?(b) 消融这些特征能否有效减少偏见?

切入角度:用 L1 正则化的逻辑回归在 SAE 激活上训练种族探针,识别预测种族的潜在特征,然后通过 steering 和 ablation 进行因果验证。

核心 idea:SAE 能揭示偏见的机制(黑人潜在特征与监禁/可卡因/枪伤等耻辱化术语共激活),但消融这些特征并不足以缓解复杂临床任务中的偏见。

方法详解

整体框架

三步法:(1) 在临床出院记录的 SAE 激活上训练种族分类探针,(2) 分析最具预测力的潜在特征的语义含义,(3) 通过 steering(增强激活)和 ablation(消除激活)验证因果关系并测试缓解效果。

关键设计

  1. 种族探针训练:

    • 功能:识别 SAE 中能预测患者种族的潜在特征
    • 核心思路:对 SAE 激活向量做 max-aggregate(跨 token 取最大值),训练 L1 逻辑回归。高权重特征即为种族相关特征。
    • 设计动机:L1 正则化自动选择最少且最相关的特征,便于人工检查。
  2. 因果验证(Steering):

    • 功能:通过增强种族相关潜在特征的激活,观察模型输出变化
    • 核心思路:在第 l 层修改隐藏状态 z'_i = z_i + alpha * z_max(仅对种族相关特征)。alpha 从 0.01 到 5 扫描。
    • 设计动机:如果 steering 黑人特征导致暴力风险评估升高,说明该特征与偏见有因果关系。
  3. 偏见缓解(Ablation):

    • 功能:消除种族相关特征的激活,测量偏见减少程度
    • 核心思路:FLDD = 1 - logitdiff_ablated / logitdiff_clean。FLDD 越高说明消融越有效。

实验关键数据

偏见发现

  • 黑人相关潜在特征与哪些词共激活:incarceration(监禁)、cocaine(可卡因)、gunshot(枪伤)
  • Steering 黑人特征后,暴力风险评估得分增加 0.51-0.80(因果验证)

缓解效果对比

临床任务 SAE Ablation FLDD 提示策略 FLDD
可卡因诊断 0.8% 15.2%
妊娠高血压 1.1% 12.8%
疼痛评估 0.01% 8.1%
子宫肌瘤 2.9% 3.2%

关键发现

  • SAE 成功识别了种族偏见的机制(与耻辱化术语的共激活)
  • CoT 解释不忠实——模型声称不使用种族,但 SAE 分析证明使用了
  • SAE ablation 在复杂临床任务中效果极差(FLDD < 3%),远不如简单提示策略
  • 种族信息可能分布在太多特征中,单一消融不足以影响整体输出
  • 病历生成任务中,SAE ablation 减少黑人病例比例约 30%(有效但可能过度修正)

亮点与洞察

  • 诚实的负面结果:坦率报告 SAE 缓解效果不佳,比声称成功更有价值。揭示了机制可解释性和实际缓解之间的差距。
  • CoT 不忠实性的证据:SAE 分析提供了模型"说一套做一套"的定量证据——模型声称不用种族信息,但内部表征明显编码了种族。
  • 耻辱化联想的发现:黑人-暴力、黑人-可卡因等有害联想的精确定位,对理解和审计医疗 AI 有直接意义。

局限与展望

  • SAE 缓解策略的失败可能是因为种族信息过于分布式,需要更细粒度的干预
  • 仅在 Gemma-2 系列模型上验证,其他架构可能不同
  • 临床任务的标注数据有限,可能影响偏见评估的统计功效

相关工作与启发

  • vs 提示去偏策略: 简单的提示(如"不要考虑种族")反而更有效,说明表层干预有时比深层干预更实用
  • vs 传统公平性审计: SAE 提供了内部机制层面的偏见分析,比仅看输出指标更深入

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 首次系统研究 SAE 在医疗偏见中的应用,负面结果也很有价值
  • 实验充分度: ⭐⭐⭐⭐ 检测/steering/ablation 全流程,多临床任务
  • 写作质量: ⭐⭐⭐⭐⭐ 诚实报告负面结果,分析深入
  • 价值: ⭐⭐⭐⭐ 对医疗 AI 公平性研究有重要参考价值