LiveClin: A Live Clinical Benchmark without Leakage¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=E0WSAugJ0j
代码: https://github.com/AQ-MedAI/LiveClin
领域: LLM 评测 / 医疗大模型 / 动态基准
关键词: 数据污染, 知识过时, 医疗 LLM, 临床路径, 多模态评测, AI-人协同标注

一句话总结¶

LiveClin 用每半年更新一次、源自最新同行评议病例报告的"活基准"，把单题问答升级为模拟完整临床路径的多模态序列考试，从根上抵抗数据污染与知识过时——26 个模型里最强的 Case Accuracy 也仅 35.7%，且仍落后于主任医师。

研究背景与动机¶

领域现状：医疗 LLM 被寄望于辅助诊断与个性化诊疗，而能否安全落地完全取决于能否被严格评估。但主流评测仍停留在 MedQA、MedXpertQA、AgentClinic 这类静态、单轮的问答集上。

现有痛点：静态基准有两个致命缺陷。其一，题目和答案随着模型在 web 级语料上训练会被不可避免地"吃进"训练集，造成数据污染（data contamination）——模型是在已见过的数据上被测，分数虚高，社区无法区分真实进步与"刷榜"；同时临床医学持续演进，静态题库还会知识过时（knowledge obsolescence）。其二，单轮评测与"患者纵向管理"的本质错位，把诊疗拆成一堆互不相关的快照任务，无法考察从首诊到长期管理的整合推理。

核心矛盾：论文用一个纵向 pilot 实验把矛盾量化了——GPT-5 在其知识截止前的旧数据上能拿 45.0%，但在截止后发布的新病例上骤降近 10 个百分点；这一模式在多个模型上一致出现，说明静态基准是"真实临床推理"的不可靠代理。

本文目标：构建一个动态、抗污染、覆盖完整临床路径的多模态基准，并配套一条可持续、可验证的生产管线。

核心 idea：(1) 活基准（live benchmark）——只用 PubMed Central（PMC）开放获取子集里"当代、同行评议"的病例报告做源头，每半年更新，让污染与过时在源头被规避；(2) 临床路径化——把一份静态病例报告改写成 3–6 题、随病程推进逐步引入新信息（影像、化验等）的序列 MCQ；(3) AI-人协同工厂——用 Generator-Critic-Judge 多智能体生成 + 239 位医生两阶段审核，兼顾规模与临床严谨度。

方法详解¶

整体框架¶

LiveClin 是一条三阶段流水线 + 一套三层临床分类体系（Taxonomy）。Taxonomy 提供多分辨率分析骨架：Level 1 为 16 个 ICD-10 章节（宏观专科），Level 2 为 72 个疾病簇（亚专科），Level 3 为具体 ICD-10 编码（诊断级）。流水线在此骨架上依次完成：① Case Construction（拉取并分层采样最新病例，建当代语料）→ ② Exam Generation（Generator-Critic 把静态报告改写成序列推理题）→ ③ Quality Check（Judge 智能体预筛 + 多级医生核验）。最终评测采用"对话式、零样本、全程保留历史"的协议，主指标 Case Accuracy 要求一个病例的所有序列题全对才算对。

flowchart LR
    A[PMC 开放获取<br/>2025上半年病例报告] --> B[Stage1 Case Construction<br/>解析+三层Taxonomy分类+分层采样<br/>2150份病例]
    B --> C[Stage2 Exam Generation<br/>Generator-Critic 闭环<br/>2092份题组]
    C --> D[Stage3 Quality Check<br/>Judge预筛→239医生两阶段核验<br/>1822→1407份]
    D --> E[评测: 对话式零样本<br/>Case Accuracy 全对才算对<br/>26模型 + 医生基线]

关键设计¶

1. 源头抗污染的"活"数据底座：用最新同行评议病例 + 分层采样建当代语料。 与"事后去污染（decontamination）"这种被动、且常不彻底的做法相反，LiveClin 选择主动设计——只程序化抓取 PMC 开放获取子集中 2025 年上半年发表的 XML 格式病例报告，把 Case Presentation 等"患者旅程"段落聚合成病例主线、Discussion 段落聚合成病例讨论，并把表格转 Markdown、抽取所有图像的持久 URL 与图注以支撑多模态。采样上先用 gpt-4.1 对每份病例打三层 Taxonomy 标签，再以 72 个 Level-2 疾病簇做分层采样（每簇目标 30 份），并在簇内优先 Level-3 疾病多样性以抑制常见病过表示，最终得到 2,150 份高质量病例。半年一更的机制让"新病例永远在模型知识截止之后"，使污染与过时从源头失效。

2. Generator-Critic 闭环把静态报告改写成完整临床路径序列考试。 这是把"单点快照"升级为"纵向路径"的关键。Generator Agent（o3 驱动）先只用"患者到达时可获信息"写一个初始临床场景，再生成 3–6 题、每题 10 选项的递进 MCQ，并给每题动态打上临床阶段标签（如 Initial Assessment），保证从诊断到长期管理的逻辑流；每题在合适的工作流节点策略性引入新临床细节，逼模型持续整合演进信息。Critic Agent 随后进入自动"同行评审"闭环，在 Clinical Accuracy 与 Cognitive Complexity 两个维度打分并给可执行反馈，循环直到题组达成 100% 临床准确率且 >60% 题目为高认知复杂度；10 个周期内不收敛则丢弃。该闭环把 2,150 份病例炼成 2,092 份高质量题组。

3. Judge 预筛 + 239 医生两阶段核验，以"保守拒绝"守住医学严谨。 质量检查遵循"任何可能有瑕疵的题一律拒绝"的保守原则。先由 o3 实现的 Judge Agent 做高保守预筛，按 Factual Validation（与源病例完全对齐）和 Logical Solvability（答案可由已知信息推出）两条标准，并刻意区分"特权信息"与"考生可见信息"来自动剔除根本性缺陷题，把池子从 2,092 收窄到 1,869。随后 239 位执业医师两阶段把关：Annotation 阶段由顶级医院主治医师逐题评估，Inspection 阶段由资深医师复核，任何分歧触发与标注者的修订循环直至共识——分歧仅出现在 8.7% 病例且两轮内全部解决。整个核验耗 1,772.18 人时、$24/小时、共 $42,304.39，产出 1,822 份合格题组，最后按 Level-2 簇每簇 20 例分层采样定稿为 1,407 份。

4. 对话式零样本评测协议 + 严苛的 Case Accuracy。 为忠实模拟序列临床会诊，评测全程把完整对话历史作为后续每题的上下文，强迫模型持续整合新信息；多数模型温度设 0 保证可复现。主指标 Case Accuracy 极其严苛：一个病例只有其所有序列题全部答对才计为正确，这使整体分数被压得很低，凸显基准难度。

实验关键数据¶

主实验（26 模型 + 医生基线，Case Accuracy）¶

对象	表现 / 排序
最强模型（o3 / GPT-5）	Case Accuracy 仅 35.7%（顶配）
主任医师（Chief Physician）	准确率最高，领先全部模型
主治医师（Attending Physician）	略低于主任，仍高于多数模型
o3 / GPT-5 vs 主治	仅"勉强超过主治"，仍明显落后主任
开源模型	InternVL-3.5-241B 逼近专有领头羊；GLM-4V-9B 超过较弱专有模型（如 GPT-4o）
反直觉	Claude 3.5 Sonnet > Claude 3.7 Sonnet；Gemini 2.0 Flash > Gemini 2.5 Flash —— 升级/扩规模不再自动带来临床推理增益

消融实验（出题方法，200 病例，每 100 份归一化成本）¶

方法	物理验证准确率(%)	Trivial 题占比(%)	时间(hrs)	成本($)
Physicians（纯人工）	92.5	38.5	188.9	4534.30
Generator	84.5	16.5	0.13	35.34
Generator-Critic	93.0	5.5	0.45	221.69
Generator-Critic-Judge	89.5*	5.5	0.55	244.19

*Judge 通过子集上准确率达 98.4%。Generator 单独把时间/成本降低近两个数量级，并把 trivial 题从 38.5% 压到 16.5%；加 Critic 把准确率从 84.5% 提到 93.0% 并进一步降 trivial 到 5.5%；加 Judge 名义通过率降到 89.5% 实为更严标准（>80% 被重判病例归因于真实临床复杂度）。

关键发现¶

数据新近度直接影响分数：GPT-5 在知识截止前数据 45.0%，截止后新病例骤降近 10 个百分点，证明静态基准虚高。
失败模式随模型类别分化：顶级专有模型（o3）在认知最密集的 Diagnosis & Interpretation 中段失误最多；开源医疗模型在末段 Follow-up 集中失误，暴露长上下文保持缺陷；通用模型（GLM-4V-9B）前置失误，初诊推理就崩。
领域与模态差异显著：模型在系统逻辑清晰的内分泌病擅长，在需细腻综合的肿瘤学普遍薄弱；多模态上能读结构化 Diagram（75.1%），却在 Pathology（59.6%）、Biosignals（53.6%）等需专家级推理处失分。

亮点与洞察¶

把"抗污染"从事后补救变成源头设计：用"半年一更 + 最新同行评议病例"让新题永远在模型知识截止之后，比 decontamination 这种被动手段更根本。
临床路径化的评测范式：序列 MCQ + 全程对话上下文，把"单点知识问答"升级为"纵向患者管理推理"，并能解剖出模型在路径不同阶段的失败模式。
AI-人协同被实证更优：消融显示 Generator-Critic 工厂在准确率、复杂度、成本三方面都优于"纯医生出题"，给可持续基准生产提供了可复制配方。
挑战"越新越大越强"的直觉：多个新版/大模型反而不如旧版/小模型，给医疗 AI"需要定向领域优化而非盲目 scaling"提供了硬证据。

局限与展望¶

病例来源单一：仅依赖 PMC 开放获取病例报告，可能偏向"可发表的罕见/复杂病例"，与真实门诊常见病分布存在偏差。
以 MCQ 为载体：10 选项序列 MCQ 仍是选择题形式，难以完整考察开放式问诊、医患沟通与实际操作决策。
依赖闭源强模型做生产与翻译：Generator/Critic/Judge 与中文翻译均由 o3 等驱动，生产管线本身受这些模型能力与可得性约束。
多语言/跨地域：素材为英文经 o3 译给中文专家审核，跨语言医学等价性与不同医疗体系的适配仍需更多验证。

评分¶

新颖性: ⭐⭐⭐⭐⭐ —— "活基准 + 源头抗污染 + 临床路径序列化 + AI-人协同工厂"四点组合在医疗 LLM 评测里是系统性的范式创新。
实验充分度: ⭐⭐⭐⭐⭐ —— 26 模型 + 医生基线 + 纵向新近度 pilot + 四方案出题消融 + 路径/领域/模态细粒度归因，覆盖全面。
写作质量: ⭐⭐⭐⭐ —— 动机—管线—实验逻辑清晰、图表丰富；个别多模态/路径分析依赖附录，正文略密。
价值: ⭐⭐⭐⭐⭐ —— 提供持续演进、临床扎实的评测框架与可复制的生产管线，对衡量真实医疗 AI 能力有直接、长期的价值。