AnesSuite: A Comprehensive Benchmark and Dataset Suite for Anesthesiology Reasoning¶
会议: ICLR 2026
arXiv: 2504.02404
代码: MiliLab/AnesSuite
领域: LLM评测
关键词: 麻醉学推理, 医疗基准, 双语评测, 认知需求分级, GRPO强化学习
一句话总结¶
构建首个面向麻醉学推理的综合数据集套件AnesSuite,包含评测基准AnesBench(7972道三级认知难度双语选择题)和三组训练数据集(AnesCorpus/AnesQA/AnesR1),基于此训练的Morpheus模型通过SFT+GRPO让7B模型追平14B基线,同时揭示了当前最强LLM在复杂临床推理(System 2)上的显著瓶颈。
研究背景与动机¶
领域现状:LLM在医疗AI领域取得了长足进展,但在麻醉学这类高度专业化的学科中的推理能力仍然严重不足。麻醉学涉及气道和呼吸功能、心血管稳定性、电解质平衡、镇静水平等多系统的同时管理,需要从快速事实回忆(System 1)到复杂的多因素临床决策(System 2)的全谱推理能力。
现有痛点:现有医疗基准如MedQA、PubMedQA虽然覆盖面广,但存在三个关键问题:(1)麻醉学经常被隐性归入外科或牙科类别,缺乏独立的专项评测;(2)仅有的麻醉学评测如CAB主要关注事实记忆型题目,对临床推理和决策能力的考察不足;(3)语言覆盖单一,无法评估模型在中英双语临床场景下的表现差异。
核心矛盾:LLM在麻醉学上的主要挑战不是知识层面的缺失,而是将知识应用于复杂推理问题的能力不足。现有基准未能有效区分"知道什么"和"能推理什么",导致无法精确定位模型瓶颈。同时,SFT、CPT、RLVR等训练策略在医学专科领域的效果差异缺乏系统性对比。
本文目标 (1)构建首个涵盖评测+训练全链路的麻醉学数据集套件;(2)建立认知需求三级分类体系以精确诊断模型能力边界;(3)探索高效的领域适配训练策略。
切入角度:作者借鉴认知心理学中Kahneman的System 1/2理论,在医疗基准中首次引入System 1(事实回忆)→ System 1.x(混合推理)→ System 2(复杂决策)的三级认知分级,使得评测能够精细化地揭示模型在不同推理层次上的表现差异。
核心 idea:通过构建认知分级的专科评测基准+配套训练数据集,系统化地推动LLM在麻醉学复杂推理上的能力提升及瓶颈分析。
方法详解¶
整体框架¶
AnesSuite是一个"评测+训练"一体化的数据集套件,由四个互补组件构成,覆盖从持续预训练到强化学习的完整模型开发链路。输入端是来自权威医学来源(ABA考试、教材、PubMed文献、大规模网络文本)的原始数据,输出端是结构化的评测基准和可直接用于各训练阶段的对齐数据。
| 组件 | 数据类型 | 英文规模 | 中文规模 | 用途 |
|---|---|---|---|---|
| AnesBench | 选择题 | 4,418题 | 3,554题 | 评测基准(三级认知分级) |
| AnesCorpus | 纯文本文档 | 180万篇 | 60万篇 | 持续预训练(CPT) |
| AnesQA | QA对 | 20,713条 | — | 监督微调(SFT) |
| AnesR1 | 选择题+CoT | 3,200条 | 7,000条 | SFT冷启动 + RLVR(GRPO) |
基于这套数据,作者训练了Morpheus系列模型——以Qwen2.5-7B/14B/32B为基座,经过AnesR1上的SFT+GRPO两阶段训练,得到首个麻醉学推理基线模型集合。
关键设计¶
-
三级认知需求分类体系(System 1 / 1.x / 2)
- 功能:将AnesBench中7972道题按推理复杂度分为三级,System 1(事实回忆,如"丙泊酚的作用机制是什么")、System 1.x(混合推理,需要整合2-3个知识点)、System 2(复杂临床决策,涉及多步推理、条件判断和跨知识域综合)
- 核心思路:使用DeepSeek-R1对每道题目进行认知需求标注,辅以全面的标注指南和少样本示例。标注完成后随机抽取60%的题目由医学专家人工复审以确保质量。在难度分布上,System 1.x和System 2题目占总量的20-30%,保证了对高阶推理的充分考察
- 设计动机:传统医疗基准将所有题目混在一起报告整体准确率,容易被大量简单记忆题拉高成绩,掩盖模型在真正需要推理的场景下的不足。分级后可以清晰看到,模型从System 1到System 2的性能下降幅度远超预期
-
多源数据构建与去污染流水线
- 功能:确保四个数据集的质量和纯净性,避免训练/评测数据泄露
- 核心思路:AnesBench从ABA考试、标准化教材和验证过的在线评估工具中收集;AnesCorpus从Fineweb和Chinese Fineweb中用两级关键词过滤筛选麻醉学相关文档;AnesQA通过双模型流水线(LLaMA3.3-70B生成问题 + Qwen2.5-72B筛选并生成答案)从PubMed论文中构建;AnesR1的CoT轨迹由DeepSeek-R1生成并经过拒绝采样(3次尝试仍未得到正确答案则剔除)。去污染方面,对AnesCorpus实施两阶段过滤——先用n-gram快速筛选再用最长公共子串(LCS>64字符)细粒度比对
- 设计动机:医疗领域数据泄露问题严重,特别是常见考试题目可能已被LLM训练数据覆盖。双重去污染+专门的数据泄露分析算法确保了评测结果的可靠性
-
Morpheus两阶段训练流程(SFT → GRPO)
- 功能:基于Qwen2.5基座模型构建麻醉学推理能力
- 核心思路:第一阶段用AnesR1的CoT数据进行有限步数的SFT,作为GRPO训练的冷启动初始化——让模型先学会生成结构化推理过程的格式;第二阶段用GRPO(Group Relative Policy Optimization)在AnesR1的可验证选择题上进行强化学习,通过正确答案作为verifiable reward信号,进一步激发模型的推理潜力。Morpheus覆盖7B/14B/32B三种规模
- 设计动机:单独SFT在英文上有提升但会损害中文表现(可能因为AnesR1的中英文比例不均衡),而GRPO能够有效修复这一问题,在保持英文增益的同时恢复甚至超越中文基线。更核心的发现是,仅用约1万条麻醉学数据训练,推理增益就能泛化到通用医学甚至通用领域基准
损失函数 / 训练策略¶
SFT阶段使用标准的next-token prediction损失。GRPO阶段采用group relative policy optimization——对同一问题采样多个候选回答,以正确答案匹配作为reward信号,用组内相对排名计算优势函数进行策略优化。与传统RL不同,GRPO不需要额外的reward model,直接利用选择题的可验证性作为奖励信号。训练在Qwen2.5-7B/14B/32B三种规模上分别进行,SFT步数有限,GRPO阶段使用标准超参设置。
实验关键数据¶
主实验:50+模型在AnesBench上的评测¶
论文评测了超过50个LLM,涵盖闭源模型(GPT-4o, Gemini-2.5-Pro/Flash, Claude-3.7-Sonnet)、通用开源模型(Qwen3系列、Llama-4、DeepSeek-R1/V3)和医疗特化模型(HuatuoGPT-o1、BioMistral)。
| 模型 | EN-Sys1 | EN-Sys1.x | EN-Sys2 | EN-Total | CH-Sys1 | CH-Sys1.x | CH-Sys2 | CH-Total | Avg. |
|---|---|---|---|---|---|---|---|---|---|
| Gemini-2.5-Pro | 0.89 | 0.82 | 0.77 | 0.86 | 0.88 | 0.75 | 0.60 | 0.85 | 0.85 |
| DeepSeek-R1 | 0.85 | 0.78 | 0.70 | 0.82 | 0.86 | 0.77 | 0.61 | 0.83 | 0.82 |
| Llama-4-Maverick | 0.83 | 0.73 | 0.64 | 0.79 | 0.86 | 0.72 | 0.59 | 0.83 | 0.81 |
| Gemini-2.5-Flash | 0.84 | 0.76 | 0.68 | 0.81 | 0.84 | 0.72 | 0.59 | 0.81 | 0.81 |
| GPT-4o | 0.81 | 0.72 | 0.59 | 0.77 | 0.79 | 0.64 | 0.52 | 0.76 | 0.76 |
| Claude-3.7-Sonnet | 0.80 | 0.73 | 0.63 | 0.77 | 0.82 | 0.65 | 0.55 | 0.78 | 0.77 |
| Qwen3-32B | 0.72 | 0.64 | 0.48 | 0.68 | 0.81 | 0.64 | 0.57 | 0.78 | 0.70 |
| HuatuoGPT-o1-72B | 0.71 | 0.61 | 0.48 | 0.67 | 0.79 | 0.67 | 0.61 | 0.76 | 0.71 |
| Qwen2.5-7B-Instruct | 0.56 | 0.44 | 0.36 | 0.51 | 0.69 | 0.55 | 0.55 | 0.66 | 0.59 |
| BioMistral-7B | 0.43 | 0.30 | 0.32 | 0.39 | 0.24 | 0.25 | 0.16 | 0.24 | 0.31 |
Morpheus模型结果¶
| 模型 | SFT | GRPO | EN-Total | CH-Total | Avg. |
|---|---|---|---|---|---|
| Qwen2.5-7B-Instruct | — | — | 0.51 | 0.66 | 0.59 |
| Morpheus-7B (SFT only) | ✓ | ✗ | 0.54 | 0.56 | 0.54 |
| Morpheus-7B | ✓ | ✓ | 0.56 | 0.70 | 0.63 |
| Qwen2.5-14B-Instruct | — | — | 0.57 | 0.72 | 0.64 |
| Morpheus-14B (SFT only) | ✓ | ✗ | 0.60 | 0.55 | 0.57 |
| Morpheus-14B | ✓ | ✓ | 0.63 | 0.75 | 0.69 |
| Qwen2.5-32B-Instruct | — | — | 0.61 | 0.76 | 0.68 |
| Morpheus-32B (SFT only) | ✓ | ✗ | 0.67 | 0.64 | 0.65 |
| Morpheus-32B | ✓ | ✓ | 0.68 | 0.77 | 0.72 |
核心结论:Morpheus-7B追平Qwen2.5-14B-Instruct,Morpheus-14B追平Qwen2.5-32B-Instruct,Morpheus-32B追平Qwen2.5-72B-Instruct——每级模型通过SFT+GRPO都能达到上一级别的基线性能。
消融实验:训练策略与数据对比¶
| 模型 | SFT数据 | EN准确率 | CH准确率 |
|---|---|---|---|
| Qwen2.5-7B-Base + AnesQA | 麻醉学 | 49.3 | 64.9 |
| Qwen2.5-7B-Base + Medical-o1 | 通用医学 | 49.1 | 63.0 |
| Qwen2.5-7B-Base + 两者混合 | 混合 | 49.7 | 65.9 |
| Qwen2.5-7B-Base-CPT + AnesQA | 麻醉学 | 49.7 | 50.7 |
| Qwen2.5-7B-Base-CPT + Medical-o1 | 通用医学 | 50.7 | 59.4 |
| Qwen2.5-7B-Base-CPT + 两者混合 | 混合 | 51.2 | 60.0 |
关键发现¶
- System 2是所有模型的瓶颈:从System 1到System 2的性能衰减幅度惊人——即使Gemini-2.5-Pro在英文System 2上也仅0.77(vs System 1的0.89),大多数开源模型的System 2成绩低于0.5。这说明LLM在麻醉学的核心挑战不是知识缺失,而是将知识应用于复杂推理的能力不足
- GRPO是推理增益的关键:单独SFT在英文端有小幅提升但会严重损害中文表现(Morpheus-14B SFT only的中文从0.72降到0.55),GRPO能在此基础上全面恢复并超越基线。这暗示SFT可能造成了语言维度的灾难性遗忘,而GRPO通过reward信号重新校准了语言平衡
- CPT的双面性:AnesCorpus的持续预训练能提升英文表现(49.7→51.2),但严重损害中文表现(64.9→50.7),降幅高达14.2个百分点。作者推测是因为AnesCorpus中英文文档比例3:1,造成了中文知识系统的灾难性遗忘
- CoT长度与推理质量正相关:在System 2任务上,生成更长CoT推理链的模型表现明显更好;但在System 1和System 1.x任务上,CoT长度的影响微乎其微,性能主要由模型规模决定
- 通用医学数据具有互补价值:AnesQA(专科)和Medical-o1(通用医学)混合使用的效果优于单独使用任一数据集,说明即使在高度专业化的麻醉学领域,通用医学知识仍然是有益的补充
- 医疗特化模型无显著优势:HuatuoGPT-o1等医疗LLM在AnesBench上的表现并未显著优于同规模的通用推理模型(如DeepSeek-R1),说明麻醉学推理与通用医学有本质差异
亮点与洞察¶
- 认知分级思路可迁移:System 1/1.x/2的三级框架不依赖于麻醉学的具体内容,可以直接应用于其他需要区分记忆/简单推理/复杂推理的专科基准(如ICU重症决策、急诊分诊等)。这比简单的难/中/易分级更具理论基础,因为它对应了认知科学中已被充分验证的思维双系统理论
- SFT作为GRPO的冷启动而非最终方案:这一发现非常实用——论文清晰展示了SFT的"副作用"(提升目标语言同时损害其他语言),以及GRPO如何通过可验证奖励信号修复这一问题。对于任何多语言模型的专科适配都有指导意义
- 小数据高回报:仅用约1万条AnesR1数据就实现了跨规模级别的推理增益,并且增益还能泛化到通用医学和通用领域基准(如MMLU、MedQA),说明推理密集型专科数据的迁移价值被低估了
- 数据集水平评测:超过50个模型的横评提供了一幅完整的LLM麻醉学推理能力图谱,对于选择部署方案具有直接参考价值
局限与展望¶
- System 2题目来源于抽象场景而非真实病例:论文自己承认,System 2问题是从考试和教材中构建的结构化场景,而非来自真实电子病历(EMR)的临床决策案例,可能无法完全反映实际临床中更模糊、信息不完整的决策环境
- 缺失多模态临床数据:真实麻醉工作涉及监护仪波形、影像学、视频喉镜画面等多模态信息,仅靠文本选择题无法评估模型在真实multi-modal临床环境中的决策能力
- CPT策略探索不充分:AnesCorpus导致中文灾难性遗忘的问题只给出了猜测性解释,未深入探索中英文语料配比、学习率调度、progressive training等可能的修复策略
- 评测形式受限:选择题天然受限于预设选项,无法评估模型生成自由形式临床建议的能力(虽然附录中有补充的开放式评测,但规模很小)
- GRPO的可验证奖励依赖选择题格式:RLVR方法需要可自动验证的reward信号,这在选择题上很自然,但扩展到开放式临床推理时如何设计reward函数仍是开放问题
相关工作与启发¶
- vs HuatuoGPT-o1:HuatuoGPT-o1是通用医疗推理模型,在麻醉学上72B版本达0.71 avg,但未专门针对麻醉学做数据和评测设计。AnesSuite的价值在于证明了通用医疗模型在专科推理上仍有明显盲区
- vs CAB:CAB是此前唯一聚焦麻醉学的基准,但仅覆盖中文且以事实回忆题为主。AnesSuite在语言覆盖(双语)、认知分级(三级)和训练资源(评测+训练一体化)三个维度全面超越
- vs DeepSeek-R1:DeepSeek-R1在AnesBench上达0.82 avg是所有开源模型最高,说明通用的强化学习推理训练对医学专科也有显著溢出效应,但与Gemini-2.5-Pro(0.85)仍有差距
- 认知科学启发:Kahneman双系统理论在NLP社区此前主要被用于分析人类标注行为,AnesSuite首次将其系统化地应用于LLM基准设计,提供了一种跨领域迁移理论框架的范例
评分¶
- 新颖性: ⭐⭐⭐⭐ 首个麻醉学完整数据集套件,认知三级分类有创新,但数据集构建方法本身较常规
- 实验充分度: ⭐⭐⭐⭐⭐ 50+模型横评、多训练策略消融、跨语言分析、CoT长度分析等维度全面
- 写作质量: ⭐⭐⭐⭐ 结构清晰、数据呈现充分,但CPT分析深度不足
- 价值: ⭐⭐⭐⭐ 对医疗AI领域的专科适配和推理增强研究有重要参考价值,数据集和模型均开源