MedAraBench: Large-scale Arabic Medical Question Answering Dataset and Benchmark¶

会议: ICLR2026
OpenReview: 1BXojAgNrg
代码: 待确认（作者声明随论文一同发布数据集与评测脚本）
领域: 医疗 LLM / NLP 评测
关键词: 阿拉伯语医疗 QA、多选题基准、专家质量评估、LLM-as-a-judge、QLoRA 微调

一句话总结¶

作者把阿拉伯语地区医学院的纸质考试题手工数字化、清洗成 24,883 道带专业科室和难度标注的医学多选题，构建出大规模阿拉伯语医疗 QA 基准 MedAraBench，并用专家评审 + LLM-as-a-judge 双重质检后，对 16 个开闭源大模型做零样本评测，发现即便最强的 GPT-o3 也只有 0.765 准确率，暴露出当前模型在阿拉伯语医疗推理上的明显短板。

研究背景与动机¶

领域现状：大模型在英文通用与医疗基准上表现亮眼，医疗 QA 评测（MedQA、MedMCQA、MMLU-USMLE 等）几乎都是英文或中文，评测套件高度成熟。

现有痛点：阿拉伯语是全球使用人数超过 4 亿的大语种，却在医疗 NLP 里严重缺资源。已有的阿拉伯语医疗数据要么是从在线问诊平台爬来的开放 QA（AraMed，没有标准化难度/科室映射），要么是把英文基准机器翻译过去（MMLU 翻译版，缺乏临床语境的本地化细节），要么规模太小（MedArabiQ 只有约 700 题，且没有专家评审、科室覆盖和难度分级）。结果是：没有一个既大规模、又有专家把关、还覆盖多科室多难度的阿拉伯语医疗基准，可以拿来公平衡量大模型的真实临床推理水平。

核心矛盾：高质量阿拉伯语医疗题的天然来源是医学院的考试，但这些题以纸质扫描件散落在学生自办平台上，没有结构化数字格式——想要规模就得付出大量人工数字化和清洗成本，而正是这种"非结构化"反而成了防止数据污染的天然屏障。

本文目标：把分散的纸质医学考题转化为一个标准化、可复现的评测资源，并配上质量证据与基线结果。具体拆成三件事：(i) 构建大规模、带科室和难度标注的阿拉伯语医疗 MCQ 数据集并切好训练/测试集；(ii) 用专家评审和 LLM-as-a-judge 双重证明数据质量；(iii) 在统一协议下给出 16 个 SOTA 模型的零样本基线。

核心 idea：用"手工数字化医学院纸质考题 + 严格过滤 + 双重质检"造出 24k 规模、19 科室、5 难度等级的阿拉伯语医疗 MCQ 基准，把模型在阿拉伯语医疗上的差距量化出来。

方法详解¶

整体框架¶

MedAraBench 不是一个模型方法，而是一条"数据→质检→评测"的基准构建流水线。输入是一堆扫描的纸质医学考卷，输出是一个切好训练/测试集、带多维标注、并附有专家质量证据和 16 个模型基线分数的标准化基准。整条管线分四步走：先做数据采集与预处理（数字化 + 严格过滤 + 标注 + 分层切分），再做质量评估（专家双盲评审 + LLM-as-a-judge 交叉验证），然后是零样本基准评测（16 个开闭源模型在统一协议下跑分），最后用少样本 + QLoRA 微调验证数据本身对模型的可用价值。论文是纯数据集/基准类工作，机制上靠流程和质检规范说话，这里不强塞框架图。

关键设计¶

1. 从纸质考题手工数字化构建数据集：用非结构化来源换取规模与抗污染

数据来源是阿拉伯语地区医学院学生自办平台上托管的扫描纸质考卷，由于不含任何个人或真实病患信息，无需匿名化处理。作者雇佣专业打字员把扫描件逐题录入，聚合成一个统一的 MCQ 数据集。这一步针对的正是前面"既要规模又要质量"的矛盾：医学院考题本身就是经过出题老师把关的高质量临床知识载体，但只存在于纸面。手工数字化虽然成本高，却带来一个额外好处——正因为这些题从未以结构化数字格式公开过，模型在预训练时几乎不可能见过，从而显著降低了数据污染（data contamination）的风险，让基准的"考"更接近真考。

2. 五人手工严格过滤 + 多维标注：保证数据可用且信息丰富

NLP 研究者人工检查后发现原始题存在大量问题：正确答案缺失或畸形、选项不全或重复、格式不规范或字段错位、答案键模糊或夹杂非 MCQ 内容。为此五名 NLP 研究者按严格标准手工过滤掉所有有上述问题的题目。初始 34,333 题经过约 29% 的删减，最终保留 24,883 题。每道题附带三类标注：(i) 选项数量（ABCD 四选、ABCDE 五选；六选的 ABCDEF 因只有 9 题被直接丢弃）；(ii) 难度等级，对应医学教育的五个学年 Y1–Y5；(iii) 医学科室，因扫描件本身就按科室归档，科室标签得以直接继承。题目覆盖 19 个科室（解剖、麻醉、生化、细胞分子生物学、化学物理、胚胎学、急诊、内科、医学伦理、微生物、眼科、病理、儿科、药理、生理、预防医学、精神科、统计、外科）。值得注意的是作者刻意不做术语标准化，理由是真实世界医疗 QA 本就术语不统一，不标准化反而更贴近临床现实。

3. 分层随机切分：让 19 个科室在训练/测试集均匀分布

作者按科室做分层随机切分（stratified random split），训练集占 80%、测试集占 20%。分层的意义在于：若某科室有 100 题，则 80 题随机进训练集、20 题进测试集，确保每个科室在两个集合里都有代表性，避免某些科室全落在一侧导致评测偏差。最终训练集 19,894 题、测试集 4,989 题。

4. 专家评审 + LLM-as-a-judge 双重质检：用统计学样本量和交叉验证证明数据质量

为证明数据质量，作者设计了两条互补的质检路径。专家评审沿四个维度打二元分（high/low）：医学准确性（Medical Accuracy）、临床相关性（Clinical Relevance）、题目难度（Question Difficulty）、题目质量（Question Quality，含清晰度、选项同质性、单一最佳答案、无暗示线索四条医学教育标准）。评审样本量用 Cochran 公式确定：在 95% 置信、±5% 误差、保守取 \(p=0.5\)（最大化方差从而给出样本量上界）下，先算无限总体样本量

\[n_0 = \frac{z^2 \, p(1-p)}{e^2}\]

取 \(z=1.96\)、\(p=0.5\)、\(e=0.05\) 得 \(n_0 = 384\)；再对有限总体做修正

\[n = \frac{n_0}{1 + \frac{n_0 - 1}{N}}\]

得最终 378 题。由两名分别专长麻醉学和内科、各有 20 年以上经验且具阿拉伯语临床流利度的认证医生，在 Qualtrics 平台上双盲独立评审。LLM-as-a-judge 则作为补充，用 gpt-o3、gemini-2.0-flash、claude-4-sonnet 等表现最好的 SOTA 模型扮演医学教育专家，对整个测试集按同样四个维度打 0/1 分，并在专家评过的那 378 题上计算每个模型与专家的 Pearson 相关系数——这样既覆盖更广的数据，又能反过来检验"用 LLM 评估阿拉伯语医疗数据质量"本身是否可靠。

损失函数 / 训练策略¶

评测协议方面，16 个模型一律设温度为 0 以保证输出稳定，每题只取一个字母答案，用模式匹配从模型文本里解析答案字母（A–D），不显式设语言参数（模型自动从输入识别阿拉伯语）。微调验证用 QLoRA：Llama-3.1-8B-instruct 以 4-bit 精度加载，在训练集上以阿拉伯语提示-响应对格式训练，LoRA 适配器接在注意力的 q/k/v/o 投影上，最多训练 800 步、配合梯度累积。少样本则提供 3 道被专家在所有维度都评高分的样例题（取自训练集、严格排除在测试集外，覆盖解剖、生化、生理等多主题）。

实验关键数据¶

主实验¶

16 个模型零样本基准结果（Table 4，整体准确率）：

类别	模型	整体准确率
闭源·通用	GPT-o3	0.765
闭源·通用	GPT-5	0.764
闭源·通用	Claude-Sonnet-4	0.694
闭源·通用	GPT-4.1	0.673
闭源·通用	Gemini-2.0-Flash	0.654
开源·通用	DeepSeek-chat-v3	0.620
开源·通用	Qwen-plus	0.618
开源·通用	Llama-3.3-70B-instruct	0.547
开源·阿拉伯语	Fanar-C-1-8.7B	0.498
开源·阿拉伯语	Allam-7B-instruct	0.447
开源·医疗	MedGemma-4B-it	0.390
开源·医疗	BiMedix-Bi-27B	0.390
开源·阿拉伯语	c4ai-command-r7b-arabic	0.381
开源·医疗	Med42-8B	0.318
开源·医疗	Apollo-7B	0.238
开源·通用	Llama-3.1-8B-instruct	0.170

结论很清晰：闭源通用/推理模型全面领先，最强 GPT-o3 也仅 0.765，远未达专家水平；专门的阿拉伯语模型和医疗模型反而普遍跌破 0.5，模型规模和训练数据量虽与表现正相关，但不足以让开源模型追平闭源。

数据质量与微调验证¶

专家评审结果（Table 2，378 题代表性子集）：

指标	平均分	一致率	Cohen's Kappa
医学准确性	0.722	82.0%	0.555
临床相关性	0.653	65.6%	0.275
题目难度	0.669	65.6%	0.233
题目质量	0.767	68.3%	0.152

四项平均分介于 0.653–0.767，标注者一致性为"slight to fair"，医学准确性一致性最高（Kappa 0.555、一致率 82%）。

少样本 + QLoRA 微调（Table 5，Llama-3.1-8B-instruct）：

配置	准确率	说明
零样本基线	0.170	几乎不可用
少样本（3 例）	0.191	仅 +12.4%
QLoRA 微调	0.320	+88.2%，近乎翻倍

关键发现¶

推理型闭源模型断层领先：GPT-o3 / GPT-5 这类经强化推理训练的模型显著高于其他模型，提示在医疗 NLP（尤其阿拉伯语）里引入推理与可解释性的重要性。
QLoRA 远胜 in-context learning：少样本只带来微弱提升（+12.4%），而用领域数据做参数高效微调几乎让 8B 模型翻倍（+88.2%），说明针对性训练比 prompt engineering 对适配专业医疗 QA 有效得多——也直接证明了 MedAraBench 训练集的实用价值。
LLM 当裁判尚不可靠：LLM-as-a-judge 与专家评分仅弱到中度相关，难度维度几乎不相关（最高仅 0.039），其中 GPT-o3 与专家相关性最高（医学准确性 0.577/0.505）；说明现阶段还不能用 LLM 替代专家评估阿拉伯语医疗数据。
MedAraBench 比 MedArabiQ 更难：跨代对比显示新模型全面超越老模型，但多数模型在更早的 MedArabiQ 上得分更高，反衬出 MedAraBench 整体更具挑战性。

亮点与洞察¶

"非结构化来源 = 抗污染屏障"这一视角很巧：通常数字化纸质题被视作纯粹的工程负担，作者却把它重新框定为防数据污染的优势——因为这些题从未结构化公开，模型预训练几乎见不到，基准更接近真实考试。这个思路可迁移到任何想做"干净"评测集的低资源场景。
故意不做术语标准化：反直觉地保留术语不一致，理由是真实临床 QA 本就不统一，标准化反而失真。这提醒做领域基准时要区分"为评测干净"和"为贴近现实"。
用 Cochran 公式 + 有限总体修正确定专家评审样本量：把统计抽样方法引入数据质检，让"我们抽了 378 题评审"有了可辩护的依据，而不是拍脑袋取样，这种规范可直接复用到其他人工评估工作。
一份高准确率≠真懂医：讨论里点出模型可能靠"疾病-治疗"统计共现排除错误选项来蒙对，而非真正做症状推演和鉴别诊断；建议未来不只评答案对错，还要评推理依据——这是对所有 MCQ 类医疗评测的清醒提醒。

局限与展望¶

只能评分类、不能评生成：MCQ 本质决定了只能考"选对答案"，无法评估模型的生成式临床推理能力。
污染无法完全排除：尽管来源非结构化、需大量数字化，作者承认仍不能 100% 保证测试题没被某些模型见过。
假设使用现代标准阿拉伯语（MSA）：但很多学习者/医生习惯方言或混合语言教学，可能影响基准对真实使用者的泛化性。
专家评审一致性偏低：两位医生在部分维度（如题目质量 Kappa 仅 0.152）出现分歧，反映临床判断的固有主观性，未来需要更多评审者达成更广共识。
可改进方向：补充生成式/解释式评测任务、引入临床医生对模型推理依据的评分、扩展到方言阿拉伯语，以及继续扩大专家评审规模以提高质检置信度。

评分¶

新颖性: ⭐⭐⭐⭐ 方法上是标准基准构建，但填补了大规模、专家把关的阿拉伯语医疗 MCQ 这一真实空白，"非结构化抗污染"视角有亮点。
实验充分度: ⭐⭐⭐⭐ 16 个模型零样本 + 专家/LLM 双质检 + 少样本/QLoRA 验证，覆盖面扎实，少一点生成式评测。
写作质量: ⭐⭐⭐⭐ 流程清晰、质检方法论严谨（Cochran 公式 + 有限总体修正），讨论部分对"模型在学什么"有深度反思。
价值: ⭐⭐⭐⭐⭐ 为低资源、高风险的阿拉伯语医疗 NLP 提供了可复现的标准化评测资源，对推动多语种医疗大模型有切实意义。