Large Language Models in Bioinformatics: A Survey¶
会议: ACL 2025
arXiv: 2503.04490
代码: 无
领域: LLM/NLP
关键词: survey, bioinformatics, DNA, RNA, protein, single-cell
一句话总结¶
本文系统综述了大语言模型在生物信息学四大领域(DNA/基因组、RNA、蛋白质、单细胞分析)的应用进展,涵盖 30+ 代表性模型的架构、任务和数据集,并讨论了数据稀缺、计算复杂度、跨组学整合等核心挑战和未来方向。
研究背景与动机¶
领域现状:大语言模型在 NLP 中取得了突破性进展,研究者已开始将 LLM 应用于生物信息学的各种任务中——包括 DNA 序列功能预测、RNA 结构预测、蛋白质功能推断和单细胞转录组分析。近年来生物信息学的 LLM 数量呈爆发式增长。
现有痛点:生物数据与自然语言数据有本质差异(序列类型、数据规模、标注成本等),将 LLM 有效适配到生物信息学任务面临独特挑战。现有各种方法分散在不同子领域,缺乏系统性的梳理和比较分析。
核心矛盾:一方面 LLM 在生物序列建模上展现了巨大潜力,另一方面数据稀缺、计算资源需求高、跨模态整合困难等问题制约了其进一步发展。此前的综述未能全面覆盖 DNA、RNA、蛋白质和单细胞四大领域的最新进展。
本文目标 提供一个全面、系统的综述,覆盖 LLM 在生物信息学各子领域的代表性方法,归纳架构范式,分析共性挑战,指明未来方向。
切入角度:按生物序列类型(DNA → RNA → 蛋白质 → 单细胞)分章组织,按模型架构范式(Encoder-only / Decoder-only / Encoder-Decoder)分类,形成清晰的二维综述框架。
核心 idea:首个全面覆盖 LLM 在 DNA、RNA、蛋白质和单细胞四大生物信息学领域的系统综述,提供模型分类、计算成本量化和未来方向展望。
方法详解¶
整体框架¶
这是一篇综述论文,不涉及新方法提出。组织结构为:预备知识(三种架构范式)→ DNA 和基因组学 → RNA(结构与功能)→ 蛋白质(预测与设计)→ 单细胞分析 → 挑战与未来方向。核心贡献是对 30+ 代表性模型的系统分类和对比。
关键设计¶
-
三种架构范式的系统对比:
- Encoder-only(如 DNABERT、ProteinBERT、scBERT):双向自注意力捕捉序列上下文,擅长表示学习和下游分类/功能预测任务。平均训练资源需求适中(~43GB 显存,~14 天)
- Decoder-only(如 ProGen2、Evo、DNAGPT):自回归生成方式,适合序列生成和从头设计任务。训练最快(~46GB,~5 天),但单向注意力难以捕捉长程双向依赖
- Encoder-Decoder(如 RoseTTAFold、ESM-3、scGPT):序列到序列转换,适合跨模态映射和需要双向理解的结构化输出。功能最强但计算资源需求也最高(~81GB,~40 天)
-
四大应用领域梳理:
- DNA/基因组:从 DNABERT(功能预测)到 DNABERT2(跨物种)到 Evo(统一 DNA/RNA/蛋白质),发展脉络是从单物种单任务走向跨物种跨分子的大统一模型
- RNA:二级结构预测(RiNALMo、ERNIE-RNA 效果最优)→ 三级结构预测(RhoFold+ 端到端)→ 功能预测 → 序列生成(RNA-GPT、RNA-DCGen)
- 蛋白质:结构预测(AlphaFold2/3 达到原子级精度)→ 功能推断(ESM-1b、ProtTrans)→ 设计工程(ProtGPT2、ESM-3 多模态预测与设计),形成预测-理解-设计的完整链条
- 单细胞:scBERT、Geneformer(2990 万转录组预训练)、scFoundation(1 亿参数)、scGPT(3300 万转录组预训练 + 多组学),实现细胞类型标注、扰动预测、批次整合等任务的迁移学习
-
挑战与未来方向总结:
- 三大挑战:数据稀缺与偏差(偏向模式生物和常见疾病)、计算复杂度(长生物序列对标准 Transformer 不友好)、跨组学整合不足(大多模型仍在单模态上训练)
- 三大方向:混合 AI 模型(LLM + GNN + 知识图谱 + 符号 AI)→ 多模态跨组学整合(同时处理 DNA + RNA + 蛋白质 + 表观遗传数据)→ 临床转化(模型验证、合规、伦理)
损失函数 / 训练策略¶
综述论文不涉及具体训练策略。综述的共性总结是:自监督预训练(MLM 或自回归)+ 下游任务微调是主流范式。
实验关键数据¶
主实验¶
本文为综述,无自有实验。以下汇总综述中的代表性模型对比:
| 模型 | 架构 | 领域 | 关键成就 |
|---|---|---|---|
| AlphaFold2 | 特殊架构 | Protein | CASP14 原子级精度蛋白质结构预测 |
| ESM-3 | Enc-Dec | Protein | 多模态蛋白质预测与设计 |
| DNABERT2 | Enc-only | DNA | 多物种基因组功能高效分析 |
| Evo | Dec-only | DNA/RNA/Protein | 首个跨 DNA/RNA/蛋白质的统一基础模型 |
| scGPT | Enc-Dec | scRNA | 3300 万单细胞预训练,多组学分析 |
| RhoFold+ | Enc-only | RNA | 端到端 RNA 三维结构预测 |
模型规模与计算成本统计¶
| 架构类型 | 平均显存/设备 | 平均训练时长 |
|---|---|---|
| Encoder-only | ~43 GB | ~14 天 |
| Decoder-only | ~46 GB | ~5 天 |
| Encoder-Decoder | ~81 GB | ~40 天 |
关键发现¶
- Encoder-only 模型在分类和功能预测任务中表现稳健,训练效率适中,是目前最常用的架构
- Decoder-only 模型训练最快但对长程双向依赖捕捉弱,主要用于序列生成和从头设计
- Encoder-Decoder 功能最强但资源消耗最大,是蛋白质结构预测和单细胞基础模型的首选
- 单模态训练是当前主流限制,跨组学整合(DNA+RNA+蛋白质+表观遗传)是关键突破方向
- 数据稀缺和标注偏差(偏向模式生物和常见疾病)制约了模型的泛化能力
亮点与洞察¶
- 全面的模型矩阵表(Table 1):汇总了 30+ 模型的架构、数据集、任务和能力,是一份高效的参考速查手册,省去大量文献调研时间
- 计算成本量化:罕见地提供了不同架构的平均 GPU 显存和训练时间统计,对资源有限的研究者选型有切实的参考价值
- 清晰的未来方向定位:混合 AI 模型(LLM + GNN + 知识图谱)、多模态跨组学整合、临床转化三大方向指引明确
局限与展望¶
- 范围限制:未覆盖表观基因组学和宏基因组学等重要领域
- 缺乏统一基准测试:综述仅汇总各文献自报结果,未在统一条件下进行模型对比实验,难以做出严格公平的性能排序
- 快速过时风险:该领域发展极快,截至 2025 年初的综述可能很快需要更新
- 未深入讨论生物序列 tokenization 策略差异(如 k-mer、BPE、单核苷酸等)对性能的影响,这是一个关键技术点
相关工作与启发¶
- vs 此前综述:此前综述多聚焦单一领域(如蛋白质或基因组),本文首次横跨 DNA/RNA/蛋白质/单细胞四大领域,综合性更强
- vs 通用 NLP 综述:生物信息学的 LLM 面临独特挑战——生物序列的 tokenization、极长序列处理(基因组可达数十亿碱基)、跨模态对齐等问题在通用 NLP 中不存在
- Evo 模型尝试统一 DNA/RNA/蛋白质的思路值得关注,可能代表了生物基础模型的未来方向
评分¶
- 新颖性: ⭐⭐⭐ 综述论文不强调方法新颖性,但跨四大领域的全面性是核心贡献
- 实验充分度: ⭐⭐⭐ 综述无自有实验,但模型覆盖面广且包含计算成本量化
- 写作质量: ⭐⭐⭐⭐ 结构清晰,分类体系合理,Table 1 非常有价值
- 价值: ⭐⭐⭐⭐ 对于想了解 LLM 在生物信息学应用全貌的读者是很好的入门材料