AnesSuite: A Comprehensive Benchmark and Dataset Suite for Anesthesiology Reasoning¶

会议: ICLR 2026
arXiv: 2504.02404
代码: MiliLab/AnesSuite
领域: LLM评测
关键词: 麻醉学推理, 医疗基准, 双语评测, 认知需求分级, GRPO强化学习

一句话总结¶

构建首个面向麻醉学推理的综合数据集套件AnesSuite，包含评测基准AnesBench（7972道三级认知难度双语选择题）和三组训练数据集（AnesCorpus/AnesQA/AnesR1），基于此训练的Morpheus模型通过SFT+GRPO让7B模型追平14B基线，同时揭示了当前最强LLM在复杂临床推理（System 2）上的显著瓶颈。

研究背景与动机¶

领域现状：LLM在医疗AI领域取得了长足进展，但在麻醉学这类高度专业化的学科中的推理能力仍然严重不足。麻醉学涉及气道和呼吸功能、心血管稳定性、电解质平衡、镇静水平等多系统的同时管理，需要从快速事实回忆（System 1）到复杂的多因素临床决策（System 2）的全谱推理能力。

现有痛点：现有医疗基准如MedQA、PubMedQA虽然覆盖面广，但存在三个关键问题：（1）麻醉学经常被隐性归入外科或牙科类别，缺乏独立的专项评测；（2）仅有的麻醉学评测如CAB主要关注事实记忆型题目，对临床推理和决策能力的考察不足；（3）语言覆盖单一，无法评估模型在中英双语临床场景下的表现差异。

核心矛盾：LLM在麻醉学上的主要挑战不是知识层面的缺失，而是将知识应用于复杂推理问题的能力不足。现有基准未能有效区分"知道什么"和"能推理什么"，导致无法精确定位模型瓶颈。同时，SFT、CPT、RLVR等训练策略在医学专科领域的效果差异缺乏系统性对比。

本文目标 （1）构建首个涵盖评测+训练全链路的麻醉学数据集套件；（2）建立认知需求三级分类体系以精确诊断模型能力边界；（3）探索高效的领域适配训练策略。

切入角度：作者借鉴认知心理学中Kahneman的System 1/2理论，在医疗基准中首次引入System 1（事实回忆）→ System 1.x（混合推理）→ System 2（复杂决策）的三级认知分级，使得评测能够精细化地揭示模型在不同推理层次上的表现差异。

核心 idea：通过构建认知分级的专科评测基准+配套训练数据集，系统化地推动LLM在麻醉学复杂推理上的能力提升及瓶颈分析。

方法详解¶

整体框架¶

AnesSuite是一个"评测+训练"一体化的数据集套件，由四个互补组件构成，覆盖从持续预训练到强化学习的完整模型开发链路。输入端是来自权威医学来源（ABA考试、教材、PubMed文献、大规模网络文本）的原始数据，输出端是结构化的评测基准和可直接用于各训练阶段的对齐数据。

组件	数据类型	英文规模	中文规模	用途
AnesBench	选择题	4,418题	3,554题	评测基准（三级认知分级）
AnesCorpus	纯文本文档	180万篇	60万篇	持续预训练（CPT）
AnesQA	QA对	20,713条	—	监督微调（SFT）
AnesR1	选择题+CoT	3,200条	7,000条	SFT冷启动 + RLVR（GRPO）

基于这套数据，作者训练了Morpheus系列模型——以Qwen2.5-7B/14B/32B为基座，经过AnesR1上的SFT+GRPO两阶段训练，得到首个麻醉学推理基线模型集合。

关键设计¶

三级认知需求分类体系（System 1 / 1.x / 2）
- 功能：将AnesBench中7972道题按推理复杂度分为三级，System 1（事实回忆，如"丙泊酚的作用机制是什么"）、System 1.x（混合推理，需要整合2-3个知识点）、System 2（复杂临床决策，涉及多步推理、条件判断和跨知识域综合）
- 核心思路：使用DeepSeek-R1对每道题目进行认知需求标注，辅以全面的标注指南和少样本示例。标注完成后随机抽取60%的题目由医学专家人工复审以确保质量。在难度分布上，System 1.x和System 2题目占总量的20-30%，保证了对高阶推理的充分考察
- 设计动机：传统医疗基准将所有题目混在一起报告整体准确率，容易被大量简单记忆题拉高成绩，掩盖模型在真正需要推理的场景下的不足。分级后可以清晰看到，模型从System 1到System 2的性能下降幅度远超预期
多源数据构建与去污染流水线
- 功能：确保四个数据集的质量和纯净性，避免训练/评测数据泄露
- 核心思路：AnesBench从ABA考试、标准化教材和验证过的在线评估工具中收集；AnesCorpus从Fineweb和Chinese Fineweb中用两级关键词过滤筛选麻醉学相关文档；AnesQA通过双模型流水线（LLaMA3.3-70B生成问题 + Qwen2.5-72B筛选并生成答案）从PubMed论文中构建；AnesR1的CoT轨迹由DeepSeek-R1生成并经过拒绝采样（3次尝试仍未得到正确答案则剔除）。去污染方面，对AnesCorpus实施两阶段过滤——先用n-gram快速筛选再用最长公共子串（LCS>64字符）细粒度比对
- 设计动机：医疗领域数据泄露问题严重，特别是常见考试题目可能已被LLM训练数据覆盖。双重去污染+专门的数据泄露分析算法确保了评测结果的可靠性
Morpheus两阶段训练流程（SFT → GRPO）
- 功能：基于Qwen2.5基座模型构建麻醉学推理能力
- 核心思路：第一阶段用AnesR1的CoT数据进行有限步数的SFT，作为GRPO训练的冷启动初始化——让模型先学会生成结构化推理过程的格式；第二阶段用GRPO（Group Relative Policy Optimization）在AnesR1的可验证选择题上进行强化学习，通过正确答案作为verifiable reward信号，进一步激发模型的推理潜力。Morpheus覆盖7B/14B/32B三种规模
- 设计动机：单独SFT在英文上有提升但会损害中文表现（可能因为AnesR1的中英文比例不均衡），而GRPO能够有效修复这一问题，在保持英文增益的同时恢复甚至超越中文基线。更核心的发现是，仅用约1万条麻醉学数据训练，推理增益就能泛化到通用医学甚至通用领域基准

损失函数 / 训练策略¶

SFT阶段使用标准的next-token prediction损失。GRPO阶段采用group relative policy optimization——对同一问题采样多个候选回答，以正确答案匹配作为reward信号，用组内相对排名计算优势函数进行策略优化。与传统RL不同，GRPO不需要额外的reward model，直接利用选择题的可验证性作为奖励信号。训练在Qwen2.5-7B/14B/32B三种规模上分别进行，SFT步数有限，GRPO阶段使用标准超参设置。

实验关键数据¶

主实验：50+模型在AnesBench上的评测¶

论文评测了超过50个LLM，涵盖闭源模型（GPT-4o, Gemini-2.5-Pro/Flash, Claude-3.7-Sonnet）、通用开源模型（Qwen3系列、Llama-4、DeepSeek-R1/V3）和医疗特化模型（HuatuoGPT-o1、BioMistral）。

模型	EN-Sys1	EN-Sys1.x	EN-Sys2	EN-Total	CH-Sys1	CH-Sys1.x	CH-Sys2	CH-Total	Avg.
Gemini-2.5-Pro	0.89	0.82	0.77	0.86	0.88	0.75	0.60	0.85	0.85
DeepSeek-R1	0.85	0.78	0.70	0.82	0.86	0.77	0.61	0.83	0.82
Llama-4-Maverick	0.83	0.73	0.64	0.79	0.86	0.72	0.59	0.83	0.81
Gemini-2.5-Flash	0.84	0.76	0.68	0.81	0.84	0.72	0.59	0.81	0.81
GPT-4o	0.81	0.72	0.59	0.77	0.79	0.64	0.52	0.76	0.76
Claude-3.7-Sonnet	0.80	0.73	0.63	0.77	0.82	0.65	0.55	0.78	0.77
Qwen3-32B	0.72	0.64	0.48	0.68	0.81	0.64	0.57	0.78	0.70
HuatuoGPT-o1-72B	0.71	0.61	0.48	0.67	0.79	0.67	0.61	0.76	0.71
Qwen2.5-7B-Instruct	0.56	0.44	0.36	0.51	0.69	0.55	0.55	0.66	0.59
BioMistral-7B	0.43	0.30	0.32	0.39	0.24	0.25	0.16	0.24	0.31

Morpheus模型结果¶

模型	SFT	GRPO	EN-Total	CH-Total	Avg.
Qwen2.5-7B-Instruct	—	—	0.51	0.66	0.59
Morpheus-7B (SFT only)	✓	✗	0.54	0.56	0.54
Morpheus-7B	✓	✓	0.56	0.70	0.63
Qwen2.5-14B-Instruct	—	—	0.57	0.72	0.64
Morpheus-14B (SFT only)	✓	✗	0.60	0.55	0.57
Morpheus-14B	✓	✓	0.63	0.75	0.69
Qwen2.5-32B-Instruct	—	—	0.61	0.76	0.68
Morpheus-32B (SFT only)	✓	✗	0.67	0.64	0.65
Morpheus-32B	✓	✓	0.68	0.77	0.72

核心结论：Morpheus-7B追平Qwen2.5-14B-Instruct，Morpheus-14B追平Qwen2.5-32B-Instruct，Morpheus-32B追平Qwen2.5-72B-Instruct——每级模型通过SFT+GRPO都能达到上一级别的基线性能。

消融实验：训练策略与数据对比¶

模型	SFT数据	EN准确率	CH准确率
Qwen2.5-7B-Base + AnesQA	麻醉学	49.3	64.9
Qwen2.5-7B-Base + Medical-o1	通用医学	49.1	63.0
Qwen2.5-7B-Base + 两者混合	混合	49.7	65.9
Qwen2.5-7B-Base-CPT + AnesQA	麻醉学	49.7	50.7
Qwen2.5-7B-Base-CPT + Medical-o1	通用医学	50.7	59.4
Qwen2.5-7B-Base-CPT + 两者混合	混合	51.2	60.0

关键发现¶

System 2是所有模型的瓶颈：从System 1到System 2的性能衰减幅度惊人——即使Gemini-2.5-Pro在英文System 2上也仅0.77（vs System 1的0.89），大多数开源模型的System 2成绩低于0.5。这说明LLM在麻醉学的核心挑战不是知识缺失，而是将知识应用于复杂推理的能力不足
GRPO是推理增益的关键：单独SFT在英文端有小幅提升但会严重损害中文表现（Morpheus-14B SFT only的中文从0.72降到0.55），GRPO能在此基础上全面恢复并超越基线。这暗示SFT可能造成了语言维度的灾难性遗忘，而GRPO通过reward信号重新校准了语言平衡
CPT的双面性：AnesCorpus的持续预训练能提升英文表现（49.7→51.2），但严重损害中文表现（64.9→50.7），降幅高达14.2个百分点。作者推测是因为AnesCorpus中英文文档比例3:1，造成了中文知识系统的灾难性遗忘
CoT长度与推理质量正相关：在System 2任务上，生成更长CoT推理链的模型表现明显更好；但在System 1和System 1.x任务上，CoT长度的影响微乎其微，性能主要由模型规模决定
通用医学数据具有互补价值：AnesQA（专科）和Medical-o1（通用医学）混合使用的效果优于单独使用任一数据集，说明即使在高度专业化的麻醉学领域，通用医学知识仍然是有益的补充
医疗特化模型无显著优势：HuatuoGPT-o1等医疗LLM在AnesBench上的表现并未显著优于同规模的通用推理模型（如DeepSeek-R1），说明麻醉学推理与通用医学有本质差异

亮点与洞察¶

认知分级思路可迁移：System 1/1.x/2的三级框架不依赖于麻醉学的具体内容，可以直接应用于其他需要区分记忆/简单推理/复杂推理的专科基准（如ICU重症决策、急诊分诊等）。这比简单的难/中/易分级更具理论基础，因为它对应了认知科学中已被充分验证的思维双系统理论
SFT作为GRPO的冷启动而非最终方案：这一发现非常实用——论文清晰展示了SFT的"副作用"（提升目标语言同时损害其他语言），以及GRPO如何通过可验证奖励信号修复这一问题。对于任何多语言模型的专科适配都有指导意义
小数据高回报：仅用约1万条AnesR1数据就实现了跨规模级别的推理增益，并且增益还能泛化到通用医学和通用领域基准（如MMLU、MedQA），说明推理密集型专科数据的迁移价值被低估了
数据集水平评测：超过50个模型的横评提供了一幅完整的LLM麻醉学推理能力图谱，对于选择部署方案具有直接参考价值

局限与展望¶

System 2题目来源于抽象场景而非真实病例：论文自己承认，System 2问题是从考试和教材中构建的结构化场景，而非来自真实电子病历（EMR）的临床决策案例，可能无法完全反映实际临床中更模糊、信息不完整的决策环境
缺失多模态临床数据：真实麻醉工作涉及监护仪波形、影像学、视频喉镜画面等多模态信息，仅靠文本选择题无法评估模型在真实multi-modal临床环境中的决策能力
CPT策略探索不充分：AnesCorpus导致中文灾难性遗忘的问题只给出了猜测性解释，未深入探索中英文语料配比、学习率调度、progressive training等可能的修复策略
评测形式受限：选择题天然受限于预设选项，无法评估模型生成自由形式临床建议的能力（虽然附录中有补充的开放式评测，但规模很小）
GRPO的可验证奖励依赖选择题格式：RLVR方法需要可自动验证的reward信号，这在选择题上很自然，但扩展到开放式临床推理时如何设计reward函数仍是开放问题

评分¶

新颖性: ⭐⭐⭐⭐ 首个麻醉学完整数据集套件，认知三级分类有创新，但数据集构建方法本身较常规
实验充分度: ⭐⭐⭐⭐⭐ 50+模型横评、多训练策略消融、跨语言分析、CoT长度分析等维度全面
写作质量: ⭐⭐⭐⭐ 结构清晰、数据呈现充分，但CPT分析深度不足
价值: ⭐⭐⭐⭐ 对医疗AI领域的专科适配和推理增强研究有重要参考价值，数据集和模型均开源