A Survey on Foundation Language Models for Single-cell Biology¶

会议: ACL 2025 (Long Paper)
arXiv: 无
代码: 无
领域: 计算生物学 / NLP交叉
关键词: single-cell biology, foundation language model, pre-trained language model, gene expression, tokenization

一句话总结¶

首篇从语言建模视角系统综述单细胞生物学基础语言模型，将现有工作划分为PLM（从头预训练）和LLM（利用已有大模型）两大类，全面分析tokenization策略、预训练/微调范式以及下游任务体系，并指出当前领域在数据质量、统一评测和scaling law方面的核心挑战。

研究背景与动机¶

跨领域迁移趋势: 语言模型（BERT、GPT等）的成功已渗透至计算生物学领域。研究者发现可以将细胞类比为"句子"，基因类比为"词/token"，从而用语言模型构建统一的单细胞基础模型。

统一表示的价值: 这类模型能获得跨数据集、跨任务的通用细胞表示，在细胞类型注释、基因扰动预测、药物响应等下游任务上超越传统专用模型，避免了为每个任务单独设计模型的高昂成本。

综述动机: 已有综述大多从Transformer架构角度分析单细胞模型（如Lan et al. 2024, Szalata et al. 2024），缺乏从"语言建模"这一NLP核心范式出发的系统分析。本文填补这一空白，用NLP社区更熟悉的PLM vs LLM二分法重新组织该领域知识。

方法详解¶

整体框架¶

将单细胞基础语言模型分为两大阵营：

Single-cell PLMs（预训练语言模型）：将基因视为token、细胞视为句子，从头在大规模单细胞数据上预训练。典型代表：scBERT、scGPT、GeneFormer、scFoundation等。
Single-cell LLMs（大语言模型）：不从头预训练，利用已有通用LLM（GPT-2/3.5/4、LLaMA、T5），通过将细胞数据转为文本后微调或直接推理。典型代表：Cell2Sentence、GenePT、scELMo等。

关键设计¶

Tokenization策略（PLM端）

将细胞的基因表达矩阵 (N x G) 转化为语言模型可理解的格式，三大方向： - 离散化: Binning将连续表达值离散为整数区间（scBERT, CellLM）；Rank Value Encoding按表达量排序用基因词表编码（GeneFormer系列） - 连续嵌入: 利用蛋白质语言模型获取基因嵌入（UCE, scPRINT）；可学习层映射（CellPLM）；分层贝叶斯下采样处理稀疏性（scFoundation） - 辅助信息融入: 整合元数据（细胞状态、器官来源、供体信息、测序技术）或蛋白质基础模型的先验知识
预训练范式（PLM端）
- 掩码语言建模（MLM）: 最主流，随机掩码15-30%基因后重建。采用者：scBERT, UCE, GeneFormer, CellPLM, scFoundation, Nicheformer
- 下一个token预测（NTP）: 自回归预训练，仅tGPT和scGPT采用。在单细胞领域不流行，原因：(1) 数据规模比文本仍小得多；(2) 基因表达稀疏导致大量ground truth为零，模型倾向学到平凡零值解
- 多任务预训练: 在MLM基础上叠加对比学习、分类、细胞生成、元数据预测、去噪等监督信号（CellLM, LangCell, scCello, scPRINT, scMulan, GeneCompass, CellFM）
细胞-文本转换与微调范式（LLM端）

转换方式: - Cell-to-Sentence：按表达量排序选top-100基因名拼成自然语言句子（Cell2Sentence, CHATCELL, CELLama） - Text-level Gene Embeddings：用LLM获取每个基因的功能描述嵌入，再用表达值加权组合（GenePT, scELMo, scInterpreter）

微调范式: - 指令微调：将任务转为QA格式（Cell2Sentence, CHATCELL） - 嵌入微调：直接利用细胞/基因嵌入进行监督微调（目前主流） - 免调优：LLM作为agent直接生成Python代码执行分析（scChat）

实验¶

模型对比总览¶

模型	类型	Tokenization	预训练范式	数据规模
scBERT	PLM	Binning	MLM	1M cells
GeneFormer	PLM	Rank Value	MLM	27.4M cells
scGPT	PLM	Binning+Meta	NTP	33M cells
scFoundation	PLM	Downsampling	MLM	50M cells
GeneCompass	PLM	Ranking+Meta	Multi-task	126M cells
CellFM	PLM	Padding+MLP	Multi-task	100M cells
Nicheformer	PLM	Ranking+Meta	MLM	57M cells
Cell2Sentence	LLM	Cell-to-Text	指令微调	GPT-2 base
GenePT	LLM	Text Embedding	嵌入微调	GPT-3.5 base
CELLama	LLM	Cell-to-Text	指令微调	LLaMA-13B base

下游任务体系¶

任务层级	具体任务
细胞级	细胞类型注释、新细胞类型发现、批次效应校正、细胞聚类、多组学整合、细胞生成
基因级	基因网络分析、基因扰动预测、基因功能/表达预测
药物相关	药物敏感性预测、药物响应建模
空间相关	空间转录组补全、空间标签预测、空间组成分析

关键发现¶

MLM在单细胞领域显著优于NTP：数据规模和稀疏性是NTP表现不佳的主因
多任务预训练整合了自监督和监督信号，通常效果最好
数据规模从1M扩展到126M cells带来了一致的性能提升，但scaling law尚不明确
仅scGPT和scELMo验证了多组学整合能力，该方向空间广阔
Cell-to-Sentence方式简单直观但信息损失大（仅保留top-100基因），Text-level Embedding更忠实但计算开销更高

亮点¶

清晰的分类体系: PLM vs LLM的二分法，配合tokenization三策略、预训练三范式、LLM三种微调模式的精细子分类，使读者快速建立全景视图
语言建模新视角: 首次完全从NLP的语言建模角度审视单细胞基础模型，而非传统的生物信息学视角，对NLP社区更友好
Cell=Sentence类比的系统化: 将基因视为token、细胞视为句子的统一框架简洁优雅，是跨领域知识迁移的典范
系统的挑战分析: 从数据质量（稀疏性/批次效应/多组学缺乏）、模型设计（统一tokenizer/scaling law未现）、评测协议（缺统一基准）三方面深入分析

局限性¶

综述本身无原创实验，对各模型的经验效果缺乏横向量化对比（因模型大多在私有数据集上评测）
作者自己承认侧重技术分析，对设计背后的生物学动机讨论不足——为什么某种tokenization在生物学上更合理？
时效性受限：后续大量新模型（如CellVerse等）涌现但未覆盖
缺乏统一benchmark是整个领域的痛点，论文指出但未提出具体解决方案
现有最大单细胞PLM不到1B参数，scaling行为是否与NLP领域类似仍不清楚

评分¶

新颖性: ⭐⭐⭐ 综述无新方法，但首次从语言建模视角切入是一个有价值的新角度
实验充分度: ⭐⭐⭐ 无原创实验，模型总结表格较完整但缺乏量化对比
写作质量: ⭐⭐⭐⭐ 结构清晰、分类体系完整、配图直观，适合快速入门
对我的价值: ⭐⭐⭐ 对了解NLP与计算生物学交叉领域有参考价值