跳转至

AnesSuite: A Comprehensive Benchmark and Dataset Suite for Anesthesiology Reasoning

会议: ICLR 2026
arXiv: 2504.02404
代码: MiliLab/AnesSuite
领域: LLM评测
关键词: 麻醉学推理, 医疗基准, 双语评测, 认知需求分级, GRPO强化学习

一句话总结

构建首个面向麻醉学推理的综合数据集套件AnesSuite,包含评测基准AnesBench(7972道三级认知难度双语选择题)和三组训练数据集(AnesCorpus/AnesQA/AnesR1),基于此训练的Morpheus模型通过SFT+GRPO让7B模型追平14B基线,同时揭示了当前最强LLM在复杂临床推理(System 2)上的显著瓶颈。

研究背景与动机

领域现状:LLM在医疗AI领域取得了长足进展,但在麻醉学这类高度专业化的学科中的推理能力仍然严重不足。麻醉学涉及气道和呼吸功能、心血管稳定性、电解质平衡、镇静水平等多系统的同时管理,需要从快速事实回忆(System 1)到复杂的多因素临床决策(System 2)的全谱推理能力。

现有痛点:现有医疗基准如MedQA、PubMedQA虽然覆盖面广,但存在三个关键问题:(1)麻醉学经常被隐性归入外科或牙科类别,缺乏独立的专项评测;(2)仅有的麻醉学评测如CAB主要关注事实记忆型题目,对临床推理和决策能力的考察不足;(3)语言覆盖单一,无法评估模型在中英双语临床场景下的表现差异。

核心矛盾:LLM在麻醉学上的主要挑战不是知识层面的缺失,而是将知识应用于复杂推理问题的能力不足。现有基准未能有效区分"知道什么"和"能推理什么",导致无法精确定位模型瓶颈。同时,SFT、CPT、RLVR等训练策略在医学专科领域的效果差异缺乏系统性对比。

本文目标 (1)构建首个涵盖评测+训练全链路的麻醉学数据集套件;(2)建立认知需求三级分类体系以精确诊断模型能力边界;(3)探索高效的领域适配训练策略。

切入角度:作者借鉴认知心理学中Kahneman的System 1/2理论,在医疗基准中首次引入System 1(事实回忆)→ System 1.x(混合推理)→ System 2(复杂决策)的三级认知分级,使得评测能够精细化地揭示模型在不同推理层次上的表现差异。

核心 idea:通过构建认知分级的专科评测基准+配套训练数据集,系统化地推动LLM在麻醉学复杂推理上的能力提升及瓶颈分析。

方法详解

整体框架

AnesSuite是一个"评测+训练"一体化的数据集套件,由四个互补组件构成,覆盖从持续预训练到强化学习的完整模型开发链路。输入端是来自权威医学来源(ABA考试、教材、PubMed文献、大规模网络文本)的原始数据,输出端是结构化的评测基准和可直接用于各训练阶段的对齐数据。

组件 数据类型 英文规模 中文规模 用途
AnesBench 选择题 4,418题 3,554题 评测基准(三级认知分级)
AnesCorpus 纯文本文档 180万篇 60万篇 持续预训练(CPT)
AnesQA QA对 20,713条 监督微调(SFT)
AnesR1 选择题+CoT 3,200条 7,000条 SFT冷启动 + RLVR(GRPO)

基于这套数据,作者训练了Morpheus系列模型——以Qwen2.5-7B/14B/32B为基座,经过AnesR1上的SFT+GRPO两阶段训练,得到首个麻醉学推理基线模型集合。整条链路可以概括为:原始权威来源 → 构建四个数据组件(评测集 + 三组训练数据,全程去污染)→ 用训练数据做两阶段适配 → 回到AnesBench上按三级认知分级评测。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400, 'subGraphTitleMargin': {'top': 8, 'bottom': 16}}}%%
flowchart TD
    SRC["权威来源<br/>ABA考试 / 教材 / 在线评估工具 / PubMed文献 / Fineweb语料"]

    subgraph BUILD["多源数据构建与去污染(设计 2)"]
        direction TB
        BENCH["AnesBench 评测集<br/>DeepSeek-R1 三级认知分级(设计 1)+ 60%人工复审"]
        CORP["AnesCorpus 语料<br/>双组关键词过滤 + n-gram/LCS 去污染"]
        QA["AnesQA<br/>LLaMA3.3-70B 出题 + Qwen2.5-72B 筛题答题"]
        R1["AnesR1<br/>DeepSeek-R1 生成 CoT + 拒绝采样"]
    end

    SRC --> BUILD

    subgraph TRAIN["Morpheus 两阶段训练(设计 3)"]
        direction TB
        SFT["SFT 冷启动<br/>先学结构化推理格式"] --> GRPO["GRPO 强化学习<br/>可验证奖励校准推理"]
    end

    R1 --> TRAIN
    CORP -. 可选CPT .-> TRAIN
    QA -. 备选SFT数据 .-> TRAIN
    BENCH --> EVAL["在 AnesBench 三级认知上评测<br/>50+ 模型 + Morpheus 系列"]
    TRAIN --> EVAL

关键设计

1. 三级认知需求分类体系(System 1 / 1.x / 2):把"考记忆"和"考推理"拆开评

传统医疗基准把所有题目混在一起报整体准确率,大量简单记忆题会把成绩拉高,掩盖模型在真正需要推理时的短板。AnesBench借认知科学的双系统理论,把7972道题按推理复杂度分成三档:System 1是纯事实回忆(如"丙泊酚的作用机制是什么"),System 1.x是混合推理(需要整合2-3个知识点),System 2是复杂临床决策(多步推理、条件判断、跨知识域综合)。分级靠DeepSeek-R1配合详细标注指南和少样本示例自动标注,再随机抽60%交由医学专家人工复审把关。最终System 1.x和System 2合计占两到三成,保证高阶推理被充分考察。分级之后,模型从System 1到System 2的准确率断崖式下滑才暴露出来——这正是整体准确率掩盖掉的瓶颈。

2. 多源数据构建与去污染流水线:四个数据集各取所需,且严防泄露

医疗领域的数据泄露格外棘手,常见考试题很可能早被LLM预训练数据吃进去,污染会让评测虚高。四个组件因此各走一条来源可控的构建路径:AnesBench取自ABA考试、标准化教材和验证过的在线评估工具;AnesCorpus用两级关键词过滤从Fineweb和Chinese Fineweb里筛麻醉学相关文档;AnesQA走双模型流水线,由LLaMA3.3-70B从PubMed论文出题、Qwen2.5-72B筛题并生成答案;AnesR1的CoT轨迹由DeepSeek-R1生成,并经拒绝采样(同一题3次都答不对就剔除)保证推理链可靠。去污染上对AnesCorpus做两阶段比对——先用n-gram快速粗筛,再用最长公共子串(LCS > 64字符)细粒度核对,配合专门的数据泄露分析算法,把评测集和训练语料的重叠压到最低。

3. Morpheus两阶段训练流程(SFT → GRPO):先教格式,再用可验证奖励逼出推理

只做SFT会有个尴尬副作用:英文准确率小涨,中文却大跌(Morpheus-14B仅SFT时中文从0.72掉到0.55),原因很可能是AnesR1的中英文配比不均,SFT把模型往目标语言带偏、造成语言维度的灾难性遗忘。Morpheus因此把SFT只当冷启动:第一阶段用AnesR1的CoT数据做有限步数SFT,让模型先学会输出结构化推理过程的格式;第二阶段在AnesR1的可验证选择题上做GRPO(Group Relative Policy Optimization)强化学习,直接拿"答案是否正确"当verifiable reward,对同一题采样多个回答、按组内相对排名算优势函数来更新策略,无需额外的reward model。GRPO在保住英文增益的同时把中文表现重新校准回来甚至反超基线。更值得注意的是,全程只用了约1万条麻醉学数据,推理增益却能泛化到通用医学乃至通用领域基准(如MMLU、MedQA),三种规模(7B/14B/32B)的Morpheus都因此追平了上一级别的Qwen2.5基线。

损失函数 / 训练策略

SFT阶段使用标准的next-token prediction损失。GRPO阶段采用group relative policy optimization——对同一问题采样多个候选回答,以正确答案匹配作为reward信号,用组内相对排名计算优势函数进行策略优化。与传统RL不同,GRPO不需要额外的reward model,直接利用选择题的可验证性作为奖励信号。训练在Qwen2.5-7B/14B/32B三种规模上分别进行,SFT步数有限,GRPO阶段使用标准超参设置。

实验关键数据

主实验:50+模型在AnesBench上的评测

论文评测了超过50个LLM,涵盖闭源模型(GPT-4o, Gemini-2.5-Pro/Flash, Claude-3.7-Sonnet)、通用开源模型(Qwen3系列、Llama-4、DeepSeek-R1/V3)和医疗特化模型(HuatuoGPT-o1、BioMistral)。

模型 EN-Sys1 EN-Sys1.x EN-Sys2 EN-Total CH-Sys1 CH-Sys1.x CH-Sys2 CH-Total Avg.
Gemini-2.5-Pro 0.89 0.82 0.77 0.86 0.88 0.75 0.60 0.85 0.85
DeepSeek-R1 0.85 0.78 0.70 0.82 0.86 0.77 0.61 0.83 0.82
Llama-4-Maverick 0.83 0.73 0.64 0.79 0.86 0.72 0.59 0.83 0.81
Gemini-2.5-Flash 0.84 0.76 0.68 0.81 0.84 0.72 0.59 0.81 0.81
GPT-4o 0.81 0.72 0.59 0.77 0.79 0.64 0.52 0.76 0.76
Claude-3.7-Sonnet 0.80 0.73 0.63 0.77 0.82 0.65 0.55 0.78 0.77
Qwen3-32B 0.72 0.64 0.48 0.68 0.81 0.64 0.57 0.78 0.70
HuatuoGPT-o1-72B 0.71 0.61 0.48 0.67 0.79 0.67 0.61 0.76 0.71
Qwen2.5-7B-Instruct 0.56 0.44 0.36 0.51 0.69 0.55 0.55 0.66 0.59
BioMistral-7B 0.43 0.30 0.32 0.39 0.24 0.25 0.16 0.24 0.31

Morpheus模型结果

模型 SFT GRPO EN-Total CH-Total Avg.
Qwen2.5-7B-Instruct 0.51 0.66 0.59
Morpheus-7B (SFT only) 0.54 0.56 0.54
Morpheus-7B 0.56 0.70 0.63
Qwen2.5-14B-Instruct 0.57 0.72 0.64
Morpheus-14B (SFT only) 0.60 0.55 0.57
Morpheus-14B 0.63 0.75 0.69
Qwen2.5-32B-Instruct 0.61 0.76 0.68
Morpheus-32B (SFT only) 0.67 0.64 0.65
Morpheus-32B 0.68 0.77 0.72

核心结论:Morpheus-7B追平Qwen2.5-14B-Instruct,Morpheus-14B追平Qwen2.5-32B-Instruct,Morpheus-32B追平Qwen2.5-72B-Instruct——每级模型通过SFT+GRPO都能达到上一级别的基线性能。

消融实验:训练策略与数据对比

模型 SFT数据 EN准确率 CH准确率
Qwen2.5-7B-Base + AnesQA 麻醉学 49.3 64.9
Qwen2.5-7B-Base + Medical-o1 通用医学 49.1 63.0
Qwen2.5-7B-Base + 两者混合 混合 49.7 65.9
Qwen2.5-7B-Base-CPT + AnesQA 麻醉学 49.7 50.7
Qwen2.5-7B-Base-CPT + Medical-o1 通用医学 50.7 59.4
Qwen2.5-7B-Base-CPT + 两者混合 混合 51.2 60.0

关键发现

  • System 2是所有模型的瓶颈:从System 1到System 2的性能衰减幅度惊人——即使Gemini-2.5-Pro在英文System 2上也仅0.77(vs System 1的0.89),大多数开源模型的System 2成绩低于0.5。这说明LLM在麻醉学的核心挑战不是知识缺失,而是将知识应用于复杂推理的能力不足
  • GRPO是推理增益的关键:单独SFT在英文端有小幅提升但会严重损害中文表现(Morpheus-14B SFT only的中文从0.72降到0.55),GRPO能在此基础上全面恢复并超越基线。这暗示SFT可能造成了语言维度的灾难性遗忘,而GRPO通过reward信号重新校准了语言平衡
  • CPT的双面性:AnesCorpus的持续预训练能提升英文表现(49.7→51.2),但严重损害中文表现(64.9→50.7),降幅高达14.2个百分点。作者推测是因为AnesCorpus中英文文档比例3:1,造成了中文知识系统的灾难性遗忘
  • CoT长度与推理质量正相关:在System 2任务上,生成更长CoT推理链的模型表现明显更好;但在System 1和System 1.x任务上,CoT长度的影响微乎其微,性能主要由模型规模决定
  • 通用医学数据具有互补价值:AnesQA(专科)和Medical-o1(通用医学)混合使用的效果优于单独使用任一数据集,说明即使在高度专业化的麻醉学领域,通用医学知识仍然是有益的补充
  • 医疗特化模型无显著优势:HuatuoGPT-o1等医疗LLM在AnesBench上的表现并未显著优于同规模的通用推理模型(如DeepSeek-R1),说明麻醉学推理与通用医学有本质差异

亮点与洞察

  • 认知分级思路可迁移:System 1/1.x/2的三级框架不依赖于麻醉学的具体内容,可以直接应用于其他需要区分记忆/简单推理/复杂推理的专科基准(如ICU重症决策、急诊分诊等)。这比简单的难/中/易分级更具理论基础,因为它对应了认知科学中已被充分验证的思维双系统理论
  • SFT作为GRPO的冷启动而非最终方案:这一发现非常实用——论文清晰展示了SFT的"副作用"(提升目标语言同时损害其他语言),以及GRPO如何通过可验证奖励信号修复这一问题。对于任何多语言模型的专科适配都有指导意义
  • 小数据高回报:仅用约1万条AnesR1数据就实现了跨规模级别的推理增益,并且增益还能泛化到通用医学和通用领域基准(如MMLU、MedQA),说明推理密集型专科数据的迁移价值被低估了
  • 数据集水平评测:超过50个模型的横评提供了一幅完整的LLM麻醉学推理能力图谱,对于选择部署方案具有直接参考价值

局限与展望

  • System 2题目来源于抽象场景而非真实病例:论文自己承认,System 2问题是从考试和教材中构建的结构化场景,而非来自真实电子病历(EMR)的临床决策案例,可能无法完全反映实际临床中更模糊、信息不完整的决策环境
  • 缺失多模态临床数据:真实麻醉工作涉及监护仪波形、影像学、视频喉镜画面等多模态信息,仅靠文本选择题无法评估模型在真实multi-modal临床环境中的决策能力
  • CPT策略探索不充分:AnesCorpus导致中文灾难性遗忘的问题只给出了猜测性解释,未深入探索中英文语料配比、学习率调度、progressive training等可能的修复策略
  • 评测形式受限:选择题天然受限于预设选项,无法评估模型生成自由形式临床建议的能力(虽然附录中有补充的开放式评测,但规模很小)
  • GRPO的可验证奖励依赖选择题格式:RLVR方法需要可自动验证的reward信号,这在选择题上很自然,但扩展到开放式临床推理时如何设计reward函数仍是开放问题

相关工作与启发

  • vs HuatuoGPT-o1:HuatuoGPT-o1是通用医疗推理模型,在麻醉学上72B版本达0.71 avg,但未专门针对麻醉学做数据和评测设计。AnesSuite的价值在于证明了通用医疗模型在专科推理上仍有明显盲区
  • vs CAB:CAB是此前唯一聚焦麻醉学的基准,但仅覆盖中文且以事实回忆题为主。AnesSuite在语言覆盖(双语)、认知分级(三级)和训练资源(评测+训练一体化)三个维度全面超越
  • vs DeepSeek-R1:DeepSeek-R1在AnesBench上达0.82 avg是所有开源模型最高,说明通用的强化学习推理训练对医学专科也有显著溢出效应,但与Gemini-2.5-Pro(0.85)仍有差距
  • 认知科学启发:Kahneman双系统理论在NLP社区此前主要被用于分析人类标注行为,AnesSuite首次将其系统化地应用于LLM基准设计,提供了一种跨领域迁移理论框架的范例

评分

  • 新颖性: ⭐⭐⭐⭐ 首个麻醉学完整数据集套件,认知三级分类有创新,但数据集构建方法本身较常规
  • 实验充分度: ⭐⭐⭐⭐⭐ 50+模型横评、多训练策略消融、跨语言分析、CoT长度分析等维度全面
  • 写作质量: ⭐⭐⭐⭐ 结构清晰、数据呈现充分,但CPT分析深度不足
  • 价值: ⭐⭐⭐⭐ 对医疗AI领域的专科适配和推理增强研究有重要参考价值,数据集和模型均开源