MultiCogEval: Evaluating LLMs Across Multi-Cognitive Levels¶

会议: ICML 2025
arXiv: 2506.08349
代码: https://github.com/THUMLP/MultiCogEval
领域: LLM评测
关键词: LLM评估, 多认知层次, Bloom分类法, 医学AI, 临床推理

一句话总结¶

受 Bloom 分类法启发，提出多认知层次评估框架 MultiCogEval，从知识掌握、综合应用、情景问题解决三个层次评估 LLM 医学能力，发现所有模型性能随认知复杂度增加显著下降，且模型规模在高层次更关键。

核心矛盾：GPT-4 在 MedQA 上达 90%+，但在临床诊断和治疗中仍有明显差距。

多数基准仅用 QA 测试知识掌握，缺乏跨认知层次的系统化评估框架。

现有痛点：医学生培养遵循：先记忆理解 → 再综合应用 → 最后实际解决问题。LLM 评估也应分层。

Level 1: 初步知识掌握（Remember/Understand） - 多选题 QA，测试记忆和理解

Level 2: 综合知识应用（Apply/Analyze） - 需整合多个知识点的临床病例分析

Level 3: 情景问题解决（Evaluate/Create） - 真实临床场景中的诊断与治疗决策

模型	参数量	L1 知识	L2 应用	L3 解决	降幅
GPT-4o	-	89.2	71.5	58.3	-30.9
Qwen2.5-72B	72B	85.1	67.3	53.8	-31.3
Llama-3.1-70B	70B	82.4	64.1	51.2	-31.2
Qwen2.5-7B	7B	68.3	48.2	35.1	-33.2
Gemma-2B	2B	45.2	29.8	18.5	-26.7

规模对比	L1 差异	L3 差异	说明
7B vs 70B+	+16.8	+22.5	高层次规模更关键
2B vs 7B	+23.1	+16.6	低层次差异更大