Measuring Stability Beyond Accuracy in Small Open-Source Medical Large Language Models for Pediatric Endocrinology¶
会议: AAAI 2026
arXiv: 2601.11567
代码: GitHub
领域: 医学AI / LLM评估
关键词: 医学LLM, 小模型评估, 稳定性, 可复现性, 提示敏感性, 儿科内分泌, 自我评估偏差
一句话总结¶
系统评估了6个小型开源医学LLM(<10B参数)在儿科内分泌领域的表现,揭示仅靠准确率不足以衡量模型可靠性:语义无关的提示微调导致模型输出显著变化(Stuart-Maxwell p<10⁻⁴),高一致性不等于正确,甚至CUDA版本差异也能引发统计显著的输出偏移。
研究背景与动机¶
领域现状:大型医学LLM(如GPT-4级别、70B+参数)在多种临床任务上展现了强大能力,但这些模型往往是闭源的、计算成本高,在低资源或低收入医疗场景中不可用。小型开源医学LLM(<10B参数)提供了一种轻量、可本地部署、透明的替代方案。
现有痛点: - 当前对医学LLM的评估主要依赖MCQ准确率,忽视了一致性、鲁棒性和推理质量 - LLM对提示变化的敏感性在非医学领域已有报道,但在医学LLM中缺乏系统研究 - 小模型是否编码了足够的临床知识以支持实际使用,尚无定论 - 可复现性问题——硬件/软件栈差异可能导致临床决策不同的输出
为什么选儿科内分泌? 该领域正面临患者量增长、等待时间延长、专科医生短缺等困境,是AI辅助决策的潜在应用场景,但目前缺少该领域的LLM评估。
核心研究问题:小型开源医学LLM在准确率之外的稳定性和可复现性如何?仅凭准确率能否反映模型的实际可靠性?
方法详解¶
整体框架¶
多维度评估框架,包含三个核心实验 + 数值稳定性分析:
评估数据¶
- Pediatric ESAP 2021-2022:儿科内分泌自评程序,100个临床案例/知识问题(MCQ格式,5选1)
- 排除依赖图像/图表的9题,最终91题
- 每题含临床描述、问题、5个选项、正确答案、金标准解释
被评估模型(6个小型开源医学LLM)¶
| 模型 | 基座 | 参数量 |
|---|---|---|
| HuatuoGPT-o1-8B | LLaMA 3.1 8B | ~8B |
| Diabetica-7B | Qwen2-7B | ~7B |
| Diabetica-o1 | Diabetica-7B自蒸馏 | ~7B |
| Meditron3-8B | LLaMA 3.1-8B | ~8B |
| MedFound-7B | BLOOM-7B | ~7B |
| ClinicalGPT-base-zh | BLOOM-7B | ~7B |
实验设计¶
实验1:准确率与提示稳定性(确定性设置,T=0) - 三种提示策略测试:原始提示A、语法变体提示B、去除选项字母的提示A - 评估维度:准确率、McNemar检验(准确率变化)、Stuart-Maxwell检验(输出分布变化)、Cohen's κ(一致性)、匹配率
实验2:非确定性设置下的稳定性 - 对实验1中表现最好的4个模型,在 T=0.3/0.6/1.0 下各运行10次 - 评估一致性(多数投票频率)与正确性的关系
实验3:自我评估偏差与金标准推理判别 - 给模型展示两个候选解释(模型自身的 vs 专家金标准),让其选择更好的 - 测试位置偏差:交换两个解释的顺序 - 儿科内分泌专家对 HuatuoGPT-o1 答错的案例进行人工评审
数值稳定性分析 - 在两台不同GPU/CUDA版本的机器上运行相同推理(CUDA 11.8 vs CUDA 12.8) - 检验硬件-软件栈差异对输出的影响
实验¶
实验1:准确率与提示稳定性¶
| 模型 | 提示A准确率 | 提示B准确率 | 去字母准确率 | 可用率 |
|---|---|---|---|---|
| HuatuoGPT-o1-8B | 0.35 | 0.35 | 0.33 | 100% |
| Diabetica-o1 | 0.33 | 0.34 | 0.27 | 100% |
| Meditron3-8B | 0.33 | 无输出 | 0.34 | 97.8% |
| Diabetica-7B | 0.30 | 0.32 | 0.27 | 98.9% |
| ClinicalGPT-base-zh | 0.20 | 0.20 | 0.20 | 79.1% |
| MedFound-7B | 0.04 | 0.12 | 0.04 | 18.6% |
关键发现: - McNemar检验显示所有模型准确率变化不显著(p>0.4) - 但 Stuart-Maxwell 检验显示输出分布显著变化(p<10⁻⁴),即准确率稳定≠行为稳定 - Cohen's κ 在去除选项字母时 ≤0.4,说明模型严重依赖字母标记而非语义理解 - Meditron3-8B 在提示B下完全无法产生输出
实验2:非确定性设置下的一致性 vs 正确性¶
| 模型 | T=0.3一致且正确 | T=0.3一致但错误 | T=1.0一致且正确 | T=1.0一致但错误 |
|---|---|---|---|---|
| HuatuoGPT-o1 | 14 | 11 | 10 | 4 |
| Diabetica-7B | 13 | 16 | 3 | 7 |
| Diabetica-o1 | 5 | 4 | 5 | 3 |
| Meditron3-8B | 2 | 0 | 0 | 0 |
关键发现: - 高一致性不等于正确性:Diabetica-7B 在 T=0.3 时一致但错误的案例(16)比一致且正确的(13)还多 - HuatuoGPT-o1 是唯一在高一致性时正确率超过错误率的模型 - 温度升高时,Meditron3-8B 的多数投票结果变为"幻觉/无输出"(71/91)
实验3:自我评估偏差¶
- HuatuoGPT-o1 在59个错误案例中:27个选了金标准(两个位置都选),19个仅在一个位置选,8个从未选
- Diabetica-o1 表现更差:19个两位置都选,19个从未选
- 存在位置偏差:解释的呈现顺序影响选择结果
- 专家评审12个HuatuoGPT-o1错误案例:Likert评分2-4分,仅2例有明确事实错误,多数是推理不完整
数值稳定性¶
| 模型 | Δ准确率 | Stuart-Maxwell p值 | Cohen's κ | 匹配率 |
|---|---|---|---|---|
| HuatuoGPT-o1 | +0.044 | <10⁻⁴ | 0.51 | 0.60 |
| Diabetica-o1 | -0.022 | <10⁻⁴ | 0.53 | 0.63 |
| Diabetica-7B | +0.011 | <10⁻⁴ | 0.68 | 0.75 |
| Meditron3-8B | +0.011 | <10⁻⁴ | 0.31 | 0.45 |
- CUDA版本不同即导致统计显著的输出分布偏移,尽管准确率变化在置信区间内
- Meditron3-8B 跨系统一致性最差(κ=0.31),意味着45%的案例给出不同答案
亮点与洞察¶
- "准确率稳定≠行为稳定"的深刻发现:McNemar检验通过但Stuart-Maxwell检验失败,揭示传统评估指标的盲区
- "一致性≠正确性":模型可能对错误答案高度一致,在临床场景中可能导致系统性地推荐不当治疗
- 字母依赖性强于语义理解:去除选项字母后一致性大幅下降(κ≤0.4),暴露模型依赖表面线索
- 硬件-软件栈影响临床决策:仅CUDA版本差异即可导致25-55%的案例给出不同临床建议,对可复现性构成严重挑战
- 评估方法论贡献:提出了多维度诊断框架(提示敏感性+随机稳定性+推理一致性+数值稳定性),可推广到其他场景
- 人工评审与自动评估互补:放弃GPT-4自动评审(因其自身不一致),采用非专家+专家混合评审
局限性¶
- 绝对性能较低:最好的模型准确率仅35%(随机猜测18.2%),缺乏人类基线对比
- 仅测试了MCQ格式:未涉及开放式问答或场景式评估,MCQ可能掩盖推理不一致
- 超参数探索有限:仅变动了提示和温度,其他推理超参数(top-p、repetition penalty等)保持固定
- 数值稳定性分析范围有限:仅对比了两台机器,未系统测试更多硬件配置
- 非专家评审可能遗漏细微医学错误:虽用专家补充,但全面专家评审资源不足
- 数据集较小:仅91个案例,统计检验力有限
相关工作¶
- 医学LLM评估:MedQA、MedMCQA、PubMedQA 基准;HealthBench (OpenAI)
- LLM稳定性研究:提示敏感性(li2024can, khatun2024study)、自我评估偏差(xu2024pride)
- 小型开源医学LLM:HuatuoGPT-o1, Meditron3, MedFound, ClinicalGPT
- 可复现性问题:CUDA非确定性(he2025nondeterminism)、推理管道差异
评分 ⭐⭐⭐⭐¶
首个系统性地从稳定性和可复现性角度评估小型医学LLM的工作,方法论贡献显著,尤其是"准确率稳定≠行为稳定"和"CUDA版本影响临床输出"两个发现具有重要的警示意义。但数据集小、绝对性能低限制了结论的普适性。