SC-Arena：面向单细胞推理的自然语言基准与知识增强评测¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=5RcoUe1tA1
代码: https://github.com/SUAT-AIRI/SC-Arena
领域: 计算生物学 / LLM 评测基准 / 单细胞推理
关键词: 单细胞基准, 虚拟细胞, 知识增强评测, LLM-as-judge, 自然语言任务

一句话总结¶

SC-Arena 把"评测 LLM 能不能当一个虚拟细胞"重构成一个自然语言竞技场：用面向对象的"知识细胞类"抽象统一评测目标（属性 + 方法），设计 5 个开放式自然语言任务，并用挂接本体/标记基因数据库/文献的知识增强 LLM 裁判替代脆弱的字符串匹配指标，最终发现当前模型在描述类任务流畅、却在机制/因果类任务（扰动预测、细胞类型标注）系统性翻车。

研究背景与动机¶

领域现状：单细胞生物学正在把 LLM 引进来做细胞类型标注、扰动分析、机制问答，目标是构建"虚拟细胞"——一个能在计算机里模拟细胞行为、加速科学发现的模型。无论是从头训练的 scGPT、Geneformer、C2S-Scale 这类领域专用模型，还是 GPT-4o、DeepSeek-R1 这类通用大模型，都被拿来跑这些任务。

现有痛点：但配套的评测严重落后。现有基准有三个具体毛病：(1) 任务碎片化——大多只盯一个窄任务（如只做细胞类型标注），无法判断模型是否真正掌握了"细胞身份 + 动态"的整体理解；(2) 格式失真——像 CELLVERSE 这样把开放问题硬转成多选题（MCQ）来保证稳定性，与真实使用场景脱节，也压制了推理深度；(3) 指标空洞——SOAR 等依赖 BLEU、exact match 这种表面字符串重叠，把复杂的生物推理降级成词面匹配，既缺生物学根据，也几乎没有可解释性。

核心矛盾：评测要同时满足"统一覆盖异构任务"、"开放式自然语言形式"、"生物学上可信且可解释"这三点，而现有指标在生物保真度上是缺失的——它们分不清模型是真的理解了细胞机制，还是只是记住了表面模式。常规 NLP 指标（BLEU/ROUGE/BERTScore）在作者的预实验里要么各模型分数挤在一起没区分度、要么趋近于零，根本无法捕捉生物推理质量。

本文目标：建一个评测框架，能用一套统一的对象（虚拟细胞）把异构任务收进来，用开放式自然语言问答（不给候选列表）来考，并注入领域知识保证生物保真度。

切入角度：作者借了"面向对象建模"的思路——把细胞看成一个类的实例，它既有静态属性（identity、state），又有动态方法（对环境的响应、与环境的交互）。一个真正的虚拟细胞模型应当能连贯地表征这两面。

核心 idea：用"虚拟细胞（知识细胞类）"抽象统一评测目标 + 用"知识增强的 LLM 裁判"替代字符串匹配，把单细胞评测变成一个开放式、可解释、生物学可信的自然语言竞技场。

方法详解¶

整体框架¶

SC-Arena 是一个评测框架而非一个新模型，它把整套评测组织成三段串行的流程：先把参赛模型框定为一个"虚拟细胞"（定义清楚要考什么），再用一场覆盖 5 个任务的"正式考试"去考它（定义清楚怎么考），最后用挂接外部知识库的 LLM 裁判去打分（定义清楚怎么评）。输入是各类单细胞数据（表达谱转成的"细胞句子"、扰动设定、机制问题），输出是一张细粒度、可解释、带证据理由的排行榜。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400, 'subGraphTitleMargin': {'top': 8, 'bottom': 16}}}%%
flowchart TD
    A["单细胞数据<br/>表达谱→细胞句子 / 扰动 / 文献问答"] --> B["虚拟细胞抽象<br/>知识细胞类：属性 + 方法"]
    B --> C["五大自然语言任务<br/>CTA / CC / CG / PP / SQA"]
    C --> D["知识增强 LLM 裁判<br/>挂接本体·标记库·文献打分"]
    D --> E["可解释排行榜<br/>分数 + 证据理由"]

关键设计¶

1. 虚拟细胞抽象：用面向对象的"知识细胞类"统一评测目标

这一设计直击"任务碎片化"——以前每个任务各管各的，没有统一的评测单元。作者借面向对象建模，把每个待评的细胞定义成一个 Knowledge Cell 类的实例，它封装两类东西。属性（Attributes）代表细胞内在的身份与状态，是多模态的：(i) 表达层面，scRNA-seq 谱被编码成结构化的"细胞句子"（cell sentence，即把基因按表达量排成一串 token）；(ii) 文本层面，从文献和数据库整理出的形态、功能、定位、角色描述；(iii) 本体层面，来自 Cell Ontology（CL）的层级化注释。方法（Methods）代表细胞对外的动态行为：(i) Cell→Environment，如细胞因子分泌、信号传导、抗原呈递、免疫激活；(ii) Environment→Cell，如药物处理或基因敲除等扰动下的转录变化。一个模型只有同时能连贯地表征"属性 + 方法"，才算合格的虚拟细胞候选。这个抽象的价值在于：它把原本零散的标注、生成、扰动、问答任务全部映射到"知识细胞类的某个属性或方法上"，从而能用一个统一的框架去考。

2. 五大自然语言任务：把异构能力拆成知识细胞类内部的模态映射

有了知识细胞类，作者据此设计了 5 个代表性任务，每个任务对应类内部的一种模态映射或推理方向，且全部采用开放式自然语言问答而非多选题：

细胞类型标注 CTA（Expression→Ontology）：给一句细胞句子，让模型预测对应的本体细胞类型标签；
细胞描述 CC（Expression→Language）：给细胞句子，让模型生成对生物状态的自然语言描述，考"把转录组模式说成人话"的可解释性；
细胞生成 CG（Ontology/Language→Expression）：给细胞类型名，让模型反向生成一句合理的细胞句子，考它能否产出与语义标签一致的分子谱；
扰动预测 PP（Environment→Cell）：给基线谱 + 扰动信号，让模型 (i) 预测上/下调基因，(ii) 生成扰动后的细胞句子；
科学问答 SQA（Cell→Environment）：基于文献提问，要求模型抽取相关知识、给出有证据支撑的机制性解释。

这五个任务的设计动机很明确：前三个构成"表达谱 ↔ 本体标签 ↔ 自然语言"的闭环双向翻译，后两个考细胞与环境之间的因果交互推理，合起来既覆盖静态身份、又覆盖动态行为和跨模态推理，从而能整体地测出模型是否真的理解了细胞系统。

3. 知识增强评测：让 LLM 裁判挂接外部知识库，把字符串匹配换成生物学可信打分

这一设计针对"指标空洞"。作者采用 LLM-as-a-judge，但借鉴 Eval-RAG 的思路，让裁判不再只看 prompt 和模型输出，而是显式接入一批人工整理的外部资源：Cell Ontology、UniProt、Gene Ontology、CellMarker、以及同行评议文献。形式化地，每个评测实例表示为 \(I = (q, r, K, g)\)，其中 \(q\) 是任务 prompt、\(r\) 是模型回答、\(K\) 是检索到的外部知识、\(g\) 是 ground truth；裁判 LLM \(E\) 把这个四元组映射成一个分数 \(s = E(I) \in [0, 100]\)（实现上先打 \([0,5]\) 的离散分再线性缩放到 \([0,100]\)）。同时条件于 \(K\) 和 \(g\) 的好处是：裁判既能容忍语言表述上的差异、对语义相关但不完全对的预测给部分分，又能拿可信参考去惩罚生物学上不成立的事实错误。每个任务的知识锚点是任务定制的：CTA 用 CL 层级路径算语义距离（层级上接近也给分，不卡 exact match）；CC 用 CL 的官方定义当参考描述查有没有漏关键属性；CG 用 CellMarker 的标记基因校验生成谱是否保留了细胞身份的区分度；PP 用 NCBI/UniProt/GO 的基因功能注释核对扰动响应是否符合已知机制；SQA 直接抽原始 PubMed 文章的摘要和关键片段当事实依据。框架刻意"重生物保真、轻臆测新颖"——只有与已被实验验证的事实一致的预测才能拿高分，且因为锚定的是共识级证据而非动态检索，即便底层数据库被替换（如换掉 UniProt、CellMarker）评分仍保持稳定。

一个例子：扰动预测怎么被打分¶

以一个 K562 细胞、扰动条件为 DNAJC19+ctrl 的样本为例，裁判按结构化步骤评分：Step 1 发现预测与 ground truth 部分吻合，但混入了未经验证的下调基因（如 FTH1、ARPC1B），可靠性存疑；Step 2 确认预测的上/下调基因（如 CD63、RPS28）在 CRISPRi 扰动语境下生物学上合理，且直接靶点 DNAJC19 被正确预测为下调；Step 3 指出模型抓住了核心受调控基因集合，但对功能角色的注释（尤其显著下调基因）不够精确；Step 4 用外部知识佐证——已知 DNAJC19 敲低会触发线粒体应激及相关通路，间接验证了预测的表达变化；结论：整体生物学上合理但有不准（尤其过度预测下调基因），给中等分 3 分。这个走查具象地展示了"分数 + 证据理由"是怎么一步步生成的——评测从黑箱数字变成了可审计、能当作迭代改进教学信号的过程。

实验关键数据¶

主实验¶

在 5 个任务上评测通用模型（Qwen2.5/Qwen3 系列、GPT-4o、DeepSeek-R1、Kimi-K2）与领域专用模型（C2S-Scale、scGenePT、scGPT、Cell-O1），各列满分均为标准化后的水平（Total 满分约 5×100）。

模型	CTA	CG	CC	PP	SQA	Total
Qwen2.5-7B	12.61	45.98	51.05	28.84	64.09	202.57
Qwen3-235B	37.47	52.76	62.03	35.94	74.48	262.68
GPT-4o	36.29	59.70	63.02	37.24	67.56	263.81
DeepSeek-R1	40.81	62.24	66.51	36.23	70.87	276.66
Kimi-K2	40.00	63.04	67.89	37.10	69.13	277.16
C2S-Pythia-410m (CTA)	47.34	—	—	—	—	—
Cell-o1	34.11	43.91	67.89	24.20	64.09	234.20

关键读数：(1) 没有任何系统达到可靠"虚拟细胞"水平——最强的 Kimi-K2（277.2）和 DeepSeek-R1（276.7）都没跨过归一化及格线（5×60=300），说明单细胞推理本身极难、提升空间巨大；(2) 任务间分化剧烈——描述（最高 67.9）和科学问答（最高 74.5）能到 60–70 区间，但细胞类型标注普遍卡在 40 附近、扰动预测全员低于 38，暴露"流畅但不忠实"（fluent but not faithful）的鸿沟；(3) 专用模型在对口任务上能小博大——仅 410M 的 C2S-Pythia 在 CTA 上拿到 47.3，反超 GPT-4o（36.3）和 Qwen3-235B（37.5），但 scGenePT 在 PP 上只有 21–26，说明专用化高度任务依赖、并非处处有利。

规模与评测器有效性分析¶

维度	关键结果	说明
模型规模/迭代	Qwen2.5-7B 202.6 → Qwen3-235B 262.7	扩规模 + 迭代约涨 60 分，但不解决机制推理
评测器·生物正确性	Spearman \(\rho=0.6212\), \(p<0.001\)	CTA 中评分与本体距离强正相关，越接近真值类型分越高
评测器·区分度	NLP 指标各模型分数挤在一起或近 0	知识增强评测能拉开模型差距，大模型生成更深更具体的类型预测
评测器·鲁棒性	换裁判模型 / 换知识库仍稳定	评分对回答长度不敏感，对底层数据库替换不敏感

关键发现¶

"流畅但不忠实"是系统性现象：通用模型在开放式生成（描述）上凭表面流畅性反超专用模型，但一到需要本体精度或因果准确性的任务（标注、扰动预测）优势消失甚至被反超——模型会"说生物学"，但不会按层级与因果"推理生物学"。
知识增强评测确实有生物学根据：CTA 中评分与 Cell Ontology 最短路径距离强正相关（\(\rho=0.6212\)），证明打分忠实对齐了生物层级结构，而非随意打分。
常规 NLP 指标没有区分度：BLEU/ROUGE/BERTScore/METEOR 要么各模型分数挤在一起、要么趋近零，无法反映生物推理质量差异，这正是引入知识增强评测的实证依据。
数据泄漏风险低：用 C2S-scale 系列在 CTA 上验证，这些模型与样本的字符级相似度显著低于通用模型、但任务准确率更高，说明学到的是任务相关知识而非记住了数据。

亮点与洞察¶

把面向对象建模搬进生物评测：用"知识细胞类（属性 + 方法）"当统一评测单元，是个很漂亮的抽象——它让标注/描述/生成/扰动/问答这些看似无关的任务，统一成"类内部的模态映射或动态响应"，可扩展性强（后续加空间转录组、发育轨迹只是往类里加属性/方法）。
知识增强裁判把评测变成可审计过程：\(I=(q,r,K,g)\) 这套设计的巧妙之处是同时条件于"外部知识 \(K\)"和"真值 \(g\)"，既能给语义相近的预测部分分（解决字符串匹配过脆），又能拿可信证据惩罚事实错误（解决纯 LLM 裁判易被流畅文本骗）——而且锚定共识级证据让评分对换库稳定。
"流畅但不忠实"是个可迁移的诊断视角：把语言流畅度和领域忠实度拆开看，这个二分法可以迁移到任何"用 LLM 做专业领域推理"的评测中（法律、医学、化学），提醒大家高 BLEU/高描述分不等于真懂。
小模型对口反超大模型：410M 的 C2S-Pythia 在 CTA 反超千亿级通用模型，强化了"领域结构化知识 > 单纯堆参数"的结论。

局限与展望¶

裁判继承了 LLM 的概率本性：作者承认知识增强裁判仍有 LLM 固有的不稳定性，未来可用多裁判集成降方差、用专家标注的理由集校准、接入实时知识库（GO/CL/CellMarker）让评分标准随科学进展演化。
覆盖模态仍有限：当前只覆盖 scRNA-seq 表达 + 文献问答；空间转录组、发育轨迹（时序推理）、多组学（ATAC-seq、蛋白组）尚未纳入，作者把它们列为把 SC-Arena 做成"活基准"的扩展方向。
样本规模偏小：PP 仅 138 个干预、SQA 仅 254 题、CTA/CC/CG 共享 608 个谱，统计上对模型排名的置信度有限（笔者观察）。
及格线设定较主观：把"5×60"当虚拟细胞及格线缺乏外部依据，更多是说明"还差得远"，不宜过度解读绝对分值（笔者观察）。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 虚拟细胞（知识细胞类）抽象 + 知识增强 LLM 裁判，是单细胞评测里少见的统一且可解释的范式。
实验充分度: ⭐⭐⭐⭐ 覆盖通用 + 专用模型、5 任务、裁判的正确性/可解释性/区分度/鲁棒性都有验证，但单任务样本量偏小。
写作质量: ⭐⭐⭐⭐ 框架三段式清晰，"流畅但不忠实"的洞察提炼到位。
价值: ⭐⭐⭐⭐⭐ 给单细胞基础模型提供了统一、可解释、生物可信的诊断工具，对推动 biology-aligned 模型有实打实的导向意义。