跳转至

MultiCogEval: Evaluating LLMs Across Multi-Cognitive Levels

会议: ICML 2025
arXiv: 2506.08349
代码: https://github.com/THUMLP/MultiCogEval
领域: LLM评测
关键词: LLM评估, 多认知层次, Bloom分类法, 医学AI, 临床推理

一句话总结

受 Bloom 分类法启发,提出多认知层次评估框架 MultiCogEval,从知识掌握、综合应用、情景问题解决三个层次评估 LLM 医学能力,发现所有模型性能随认知复杂度增加显著下降,且模型规模在高层次更关键。

研究背景与动机

核心矛盾

核心矛盾:GPT-4 在 MedQA 上达 90%+,但在临床诊断和治疗中仍有明显差距。

2. 现有评估的片面性

多数基准仅用 QA 测试知识掌握,缺乏跨认知层次的系统化评估框架。

现有痛点

现有痛点:医学生培养遵循:先记忆理解 → 再综合应用 → 最后实际解决问题。LLM 评估也应分层。

方法详解

三个认知层次

Level 1: 初步知识掌握(Remember/Understand) - 多选题 QA,测试记忆和理解

Level 2: 综合知识应用(Apply/Analyze) - 需整合多个知识点的临床病例分析

Level 3: 情景问题解决(Evaluate/Create) - 真实临床场景中的诊断与治疗决策

关键设计

  • 跨层次知识覆盖对齐:确保不同层次覆盖相同知识范围
  • 归一化指标:使跨层次比较有意义
  • 覆盖 6 大 LLM 家族(Llama, Qwen, Gemma, Phi, GPT, DeepSeek),2B-70B

实验关键数据

主实验:跨层次性能对比

模型 参数量 L1 知识 L2 应用 L3 解决 降幅
GPT-4o - 89.2 71.5 58.3 -30.9
Qwen2.5-72B 72B 85.1 67.3 53.8 -31.3
Llama-3.1-70B 70B 82.4 64.1 51.2 -31.2
Qwen2.5-7B 7B 68.3 48.2 35.1 -33.2
Gemma-2B 2B 45.2 29.8 18.5 -26.7

模型规模影响

规模对比 L1 差异 L3 差异 说明
7B vs 70B+ +16.8 +22.5 高层次规模更关键
2B vs 7B +23.1 +16.6 低层次差异更大

关键发现

  • 所有模型从 L1 到 L3 下降约 30 个百分点
  • 模型规模在高认知层次中的作用更大
  • 医学微调模型在 L3 不一定优于通用大模型

亮点与洞察

  • 评估范式创新:首次将 Bloom 分类法引入 LLM 医学评估,提供认知层次视角
  • 反直觉发现:医学微调模型在高认知层不一定优于通用大模型——可能过拟合了 QA 格式
  • 清晰的能力画像:为每个 LLM 家族提供跨层次能力地图,方便按需选型
  • 方法学贡献:跨层次知识覆盖对齐和指标归一化使比较有意义

局限与展望

  • 仅覆盖英文医学内容,多语言评估待扩展
  • L3 评估标准有主观成分,需更多临床专家参与
  • 未覆盖多模态医学场景(医学影像+文本)
  • 可探索 CoT/few-shot 对各层次的差异化影响
  • 可扩展到其他领域(法律、金融)的多认知层次评估

相关工作与启发

  • vs MedQA:仅测试 L1,本文补充 L2 和 L3
  • vs MIMIC-IV-Ext:仅测试 L3,缺乏与低层次对比
  • vs Bloom 分类法在教育中的应用:成熟教育学框架迁移到 AI 评估
  • vs CLIMEDBench:涵盖临床场景但缺乏系统化的认知层次划分
  • vs 通用 LLM Benchmark(MMLU 等):未区分认知层次,将知识和推理混为一体

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 首次引入认知层次框架
  • 实验充分度: ⭐⭐⭐⭐⭐ 6 个 LLM 家族 x 3 层次
  • 写作质量: ⭐⭐⭐⭐⭐ 教育学与 AI 结合自然
  • 价值: ⭐⭐⭐⭐⭐ 对医学 AI 评估有直接指导意义
  • 可复现性: ⭐⭐⭐⭐⭐ 代码和数据集已开源