Moving Beyond Medical Exams: A Clinician-Annotated Fairness Dataset of Real-World Tasks and Ambiguity in Mental Healthcare¶
会议: ICLR 2026
arXiv: 2502.16051
代码: GitHub(MIT许可)
领域: 医学AI评估 / 精神科 / 公平性
关键词: mental healthcare, fairness benchmark, clinical decision-making, demographic bias, expert annotation
一句话总结¶
提出MENTAT——由9名美国精神科医生设计和标注的评估数据集(203道基础题×人口统计变量扩展),覆盖诊断/治疗/分诊/监测/文档5个临床实践领域,通过系统性替换患者年龄/种族/性别评估22个语言模型的决策偏见,发现模型在各人口统计维度上存在显著且不可预测的准确率差异。
研究背景与动机¶
领域现状:医学AI评测主要依赖执业考试题(MedQA、MMLU-Med等),侧重事实性知识回忆。但在精神科领域,诊断和管理严重依赖主观判断和人际互动,标准化考试成绩与临床实际表现仅弱相关。
现有痛点:
-
考试题关注知识回忆,无法评估真实临床决策能力——精神科医生每天面临的分诊决策、药物剂量调整、文档记录等任务远比多选题复杂
-
现有基准缺乏模糊性/不确定性的设计——实际精神科中许多决策没有唯一正确答案(如非自愿住院判断、临床总结的侧重点)
-
医学AI公平性评估不足——患者人口统计信息(种族/性别/年龄)对模型决策的影响未被系统研究,但可能在规模化部署中造成系统性偏见
-
现有数据集大多由LM辅助生成(如MedS-bench的网络爬取+LM合成),存在已知的质量和污染问题
核心矛盾:需要一个完全由人类专家设计、捕捉真实临床模糊性、且能系统评估人口统计偏见的精神科AI评估数据集。
方法详解¶
整体框架¶
5名精神科医生设计203道基础题(每题5个选项)→ 移除无关人口统计信息并替换为变量(年龄/种族/性别)→ 按变量扩展为多个评估数据集(\(\mathcal{D}_0\)=183题基础, \(\mathcal{D}_G\)=549题按性别, \(\mathcal{D}_A\)=915题按年龄, \(\mathcal{D}_N\)=1098题按种族)→ 对分诊/文档类题目收集8名专家标注 → 层级Bradley-Terry模型生成偏好概率标签。
关键设计¶
-
五领域临床任务设计
- 诊断(50题):根据症状信息按DSM-5-TR做出诊断
- 治疗(47题):制定治疗方案,包括具体药物剂量(考试题通常不涉及)
- 分诊(28题):评估紧急程度、决定是否升级护理——存在多个合理答案
- 监测(49题):评估治疗效果和病情严重程度
- 文档(29题):电子病历记录——存在多个合理答案(如何总结、如何编码计费)
- 诊断/治疗/监测有唯一正确答案;分诊/文档设计为模糊题(多个合理选项+专家偏好标注)
-
层级Bradley-Terry偏好模型
- 对分诊/文档57道模糊题收集657条标注(平均11.5条/题),8名专家使用0-100量表独立评分
- 将评分转化为pairwise比较,建立层级Bradley-Terry模型:\(P(i \succ j | a) = \frac{1}{1 + \exp[-(\gamma_a + \alpha_a(\beta_i - \beta_j))]}\)
- 引入标注者特异性偏移 \(\gamma_a\) 和斜率 \(\alpha_a\),捕捉不同专家的严格/宽松趋势
- 最终用softmax将 \(\beta_{ik}\) 转化为每个答案的偏好概率
- 设计动机:Krippendorff's \(\alpha\) 在0到0.8之间,专家间确实存在分歧——这正是数据集要捕捉的临床模糊性
损失函数 / 训练策略¶
MENTAT是评估数据集,不用于训练。核心评估设计:
- 多选题评估:温度\(T=0\)采样,按类别计算准确率
- 偏见评估:比较相同题目在不同人口统计变量(3种性别×6种种族×3个年龄段)下的准确率差异
- 自由文本评估:使用三种不一致性指标比较开放回答与专家标注
- 90%/10%分割:183题评估 + 20题few-shot prompting
实验关键数据¶
主实验¶
22个模型在 \(\mathcal{D}_0\) 上的平均准确率:
| 任务类别 | 所有模型平均 | OpenAI+Anthropic平均 |
|---|---|---|
| 诊断 | 0.77±0.03 | 0.91±0.04 |
| 治疗 | 0.74±0.02 | 0.92±0.03 |
| 监测 | 0.65±0.02 | 0.79±0.04 |
| 分诊 | 0.51±0.03 | 0.48±0.03 |
| 文档 | 0.44±0.03 | 0.46±0.02 |
消融实验¶
人口统计敏感性(平均准确率,诊断/监测类别,所有模型):
| 维度 | 条件 | 诊断准确率 | 监测准确率 |
|---|---|---|---|
| 性别 | 女 | 0.85 | 0.71 |
| 性别 | 男 | 0.84 | 0.81 |
| 性别 | 非二元 | 0.81 | 0.74 |
| 种族 | 非裔美国人 | 0.89 | 0.70 |
| 种族 | 白人 | 0.84 | 0.75 |
| 种族 | 西班牙裔 | 0.87 | 0.63 |
| 年龄 | 18-33 | 0.90 | 0.71 |
| 年龄 | 49-65 | 0.76 | 0.77 |
关键发现¶
- 结构化任务vs模糊任务:诊断/治疗准确率0.74-0.91,分诊/文档仅约0.5——模型在存在多个合理答案的任务上表现显著下降
- 人口统计偏见显著:男性编码患者在监测/分诊/文档上比女性准确率高8-10%;非裔美国人在诊断类比白人高5%;西班牙裔在监测类最低(0.63)
- 微调无效:在MedS-bench上微调的MMedS-Llama-3-8B在MENTAT上未超过其Llama3.1-8b基座模型——LM合成数据的微调不能改善真实临床决策
- 多选vs自由文本不一致:高多选题准确率的模型在自由回答中可能显著偏离专家选项
- 开源模型追赶:Qwen3/Gemma3/MedGemma在分诊/文档类别上甚至超过闭源模型
亮点与洞察¶
- 全人类专家设计+标注的数据集,无LM参与——避免了LM合成数据的已知质量问题
- 分诊/文档的"模糊"设计+层级Bradley-Terry偏好标注,捕捉了精神科决策的内在不确定性
- 人口统计变量替换的系统性评估设计,使偏见分析可控且大规模——比个案分析远泛化性更强
- "MENTAT is evaluation-first"的定位清晰:不追求大规模而追求高质量
局限与展望¶
- 数据集规模较小(203题基础),虽通过变量扩展放大但题目多样性受限
- 仅限美国精神科体系(DSM-5-TR、美国计费编码等),不适用于其他国家医疗制度
- 选择题+自由文本评估仍无法完全捕捉真实临床互动的动态性(如患者访谈、多轮对话)
- 标注者偏见可能存在(虽团队多元化且Jensen-Shannon距离分析未发现显著性别差异,但样本量有限)
- 目前仅能评估等于人类水平而非超越人类水平的能力
相关工作与启发¶
- vs MedQA/MMLU:考试题评估知识回忆,MENTAT评估临床决策——两者互补
- vs MedS-bench:MedS-bench规模大但依赖LM合成数据;MENTAT规模小但完全人类设计
- vs AIME/HumanEval/BIG-Bench Hard:同为"少量高质量"评估设计范式
- 精神科AI启发:当前LM在模糊决策任务上表现约50%,距实用部署仍有很大差距;偏见问题使超人类表现的讨论为时尚早
评分¶
- 新颖性: ⭐⭐⭐⭐ 首个全专家设计的精神科决策+公平性评估数据集
- 实验充分度: ⭐⭐⭐⭐ 22个模型+5个任务类别+3个人口统计维度+自由文本评估
- 写作质量: ⭐⭐⭐⭐ 数据集设计和标注流程描述详尽
- 价值: ⭐⭐⭐⭐ 填补精神科AI评估空白,公平性分析具有重要社会意义