CGBench: Benchmarking Language Model Scientific Reasoning for Clinical Genetics Research¶

会议: NeurIPS 2025
arXiv: 2510.11985
代码: GitHub
领域: 医学图像
关键词: 临床遗传学, 语言模型, 科学推理, benchmark, 证据评估

一句话总结¶

提出 CGBench，一个基于 ClinGen 专家标注的临床遗传学 benchmark，从变异和基因策展角度评估 LLM 的科学文献推理能力，涵盖证据评分、证据验证和实验证据提取三个任务，发现推理模型在细粒度任务上表现最佳但在高层判断上不如非推理模型。

研究背景与动机¶

领域现状：临床遗传学中判定基因-疾病关联（基因策展）和变异致病性（变异策展）是精准医疗的核心任务，传统上需要专家人工审阅大量科学文献并依据 ACMG/AMP 指南分配证据编码。

现有痛点：人工策展劳动密集、耗时长且容易产生不一致；现有 LLM 科学 benchmark 多聚焦于选择题、声明验证等窄任务，不能反映真实的科学文献综合推理需求。

核心矛盾：LLM 的文献理解能力不断提升，但在需要遵循精确、特定领域指南的复杂证据综合任务上的表现尚不清楚——尤其是处理 VCEP（特定变异策展专家组）规范这种高度定制化指令时。

本文目标：设计一个反映真实科学工作流的 benchmark，系统评估 LLM 在文献驱动的证据提取、强度判断和证据分类上的能力。

切入角度：利用 ClinGen ERepo 中数千条专家标注的策展记录，直接构建评估任务——确保 ground truth 来自最高质量的人类专家审核。

核心 idea：从 ClinGen 的 VCI 和 GCI 中提取三个递进难度的任务，结合 LM-as-Judge 方法评估解释质量。

方法详解¶

整体框架¶

CGBench 包含三个主任务：(1) VCI 证据评分（E-Score）：给定论文 + 变异信息，预测证据编码；(2) VCI 证据验证（E-Ver）：给定论文 + 特定证据编码，判断是否满足条件；(3) GCI 实验证据提取（E-Extract）：从论文中提取结构化的实验证据条目。数据均来源于 ClinGen Evidence Repository。

关键设计¶

VCI 证据评分（E-Score）:
- 功能：给定变异查询 \(q_i^v = (d_i, v_i, m_i)\)（疾病、变异、遗传模式）和论文全文 \(T_j\)，从 VCEP 定义的证据编码集 \(\mathcal{Y}_{vcep}\) 中选择正确的编码
- 核心思路：\(\mathbf{ES}(q_i^v, T_j, \mathcal{Y}_{vcep} | f_{LM}) = \hat{y}_k\)，其中证据编码有三层层级——主码（致病/良性）、副码（强度）、三级码（证据类型），越往下越难
- 评估指标：Precision@5 和 Recall@5
- 数据规模：205 个评估样本，120 篇论文，40 种疾病，191 个变异
VCI 证据验证（E-Ver）:
- 功能：给定一个特定证据编码，判断论文是否满足该编码的条件（二分类）
- 公式：\(\mathbf{EV}(q_i^v, T_j, y_k | f_{LM}) = \hat{v}\)，\(\hat{v} \in \{\text{"met"}, \text{"not met"}\}\)
- 数据规模：242 个评估样本（167 个 "not met"，119 个 "met"），28 种证据编码
GCI 实验证据提取（E-Extract）:
- 功能：从论文中提取结构化的实验证据元组 \((a_i, h_i, s_i, r_i)\)——证据类别、解释、评分、评分变更理由
- 公式：\(\mathbf{EE}(q_i^g, T_j, \mathcal{C}_{sop} | f_{LM}) = (a_i, h_i, s_i, r_i)\)
- 评估维度：类别匹配（Precision/Recall）、结构化输出遵从率、归一化 MAE、ΔStrength（评分变更方向准确率）
- 数据规模：336 个评估样本，860 种疾病，1291 个基因
LM-as-Judge 解释评估:
- 功能：利用 LLM 判官评估模型解释与 ClinGen 专家解释的一致性
- 核心思路：设计三种提示策略（任务无关、任务感知、证据感知），通过人工标注子集校准后选用任务感知方法（F1=0.744）
- 设计动机：仅依靠分类准确率无法发现 LLM 的"幻觉"问题——模型可能在分类正确的情况下仍产生错误的解释

训练策略¶

评估了 8 个 LLM：GPT-4o、GPT-4o-mini、Claude Sonnet 3.7、Qwen2.5 72B、Llama 4、DeepSeek R1、o3-mini、o4-mini。使用 chain-of-thought 提示 + 角色扮演 + 完整论文上下文。对 E-Score 和 E-Extract 任务使用 pass@5 采样。

实验关键数据¶

主实验（E-Score 三级码精度）¶

模型	主码 P@5/R@5	副码 P@5/R@5	三级码 P@5/R@5
GPT-4o	0.861/0.878	0.517/0.568	0.383/0.427
o4-mini	0.743/0.859	0.494/0.600	0.420/0.495
DeepSeek R1	0.780/0.898	0.485/0.629	0.418/0.517
Llama 4	0.837/0.873	0.471/0.532	0.361/0.424
GPT-4o-mini	0.841/0.849	0.463/0.527	0.278/0.341
Qwen2.5 72B	0.807/0.863	0.481/0.559	0.270/0.322

推理模型（o4-mini、DeepSeek R1）在三级码上领先，但主码精度反而较低（过度思考导致简单问题出错）。

GCI 证据提取¶

模型	类别 Precision	类别 Recall	结构遵从率	归一化 MAE ↓	ΔStrength ↑
GPT-4o	0.493	0.787	98.81%	0.196	0.342
o4-mini	0.425	0.835	96.73%	0.186	0.445
DeepSeek R1	0.456	0.734	61.61%	0.228	0.346
Llama 4	0.363	0.787	99.40%	0.393	0.129

关键发现¶

推理模型在细粒度证据分类（三级码）上优于非推理模型，但在高层判断（主码）和证据验证上反而不如 GPT-4o
E-Ver 任务上所有模型 F1 < 0.634，且普遍倾向于过度预测"met"（正例率约 0.66 vs 实际 0.43），暴露 LLM 判断证据充分性的能力薄弱
DeepSeek R1 在 GCI 证据提取中有 ~40% 的结构遵从率失败，结构化输出是推理模型的短板
ICL 提示在 E-Score 上有效（30-shot 时三级码提升显著），但在 E-Ver 上效果不稳定
LM Judge 评估显示，即使分类正确，GPT-4o 零样本也只有 48.6% 的解释与专家解释一致；30-shot 后提升至 70.4%

亮点与洞察¶

真实科学工作流对齐：CGBench 直接来源于 ClinGen 的专家策展流程，是目前最贴近真实科学文献综合推理的 LLM benchmark——与多数基于选择题的科学 QA 形成鲜明对比
推理模型的双刃剑效应：推理模型（o4-mini、R1）在需要细致分析的任务上表现突出，但在需要整体判断的任务上反而不如非推理模型，揭示了"过度思考"的成本
分类正确 ≠ 理解正确：LM Judge 评估揭示了一个重要洞察——模型可能通过表面模式匹配正确分类，但产生与专家不一致甚至幻觉的解释

局限与展望¶

E-Score 仅 205 个样本、33 个 VCEP，每个 VCEP 平均仅 7 个样本，统计功效有限
LM Judge 本身可能存在偏差，尽管做了人工校准但仍非完美代理
所有模型均为冻结评估，未探索微调或 RAG 增强的上限
未覆盖多模态证据（如基因组图谱、蛋白结构等）
可以探索将 CGBench 作为 agent benchmark，让模型主动搜索和筛选文献而非被动接受

评分¶

新颖性: ⭐⭐⭐⭐ 首个面向真实临床遗传学策展流程的 LLM benchmark，任务设计贴合实际
实验充分度: ⭐⭐⭐⭐ 8 个模型 + 多种提示策略 + LM Judge + 人工校准，但数据规模偏小
写作质量: ⭐⭐⭐⭐ 背景知识介绍充分，任务形式化清晰，但领域门槛较高
价值: ⭐⭐⭐⭐ 为 LLM 在科学文献推理中的应用提供了严谨的评估标准，对 AI4Science 社区有指导意义