跳转至

🧬 计算生物

🧪 ICML2025 · 46 篇论文解读

📌 同领域跨会议浏览: 🧪 ICML2026 (35) · 💬 ACL2026 (5) · 📷 CVPR2026 (11) · 🔬 ICLR2026 (38) · 🤖 AAAI2026 (20) · 🧠 NeurIPS2025 (72)

🔥 高频主题: 生物分子 ×14 · 扩散模型 ×6 · 强化学习 ×2

ADIOS: Antibody Development via Opponent Shaping

将多智能体强化学习中的对手塑形(Opponent Shaping)引入抗体设计,提出 ADIOS 元学习框架:外层循环优化抗体,内层循环模拟病毒适应性逃逸,使设计出的"塑形抗体"(shapers)不仅能对抗当前病毒变种,还能主动引导病毒向更弱、更易被靶向的方向进化。

Aligning Protein Conformation Ensemble Generation with Physical Feedback

提出 Energy-based Alignment (EBA),将物理力场的能量反馈融入扩散生成模型的微调过程,通过 Boltzmann 因子加权的分类目标函数对齐生成分布与物理能量景观,在 ATLAS MD 基准上实现蛋白质构象集合生成的 SOTA 性能。

CFP-Gen: Combinatorial Functional Protein Generation via Diffusion Language Models

提出 CFP-Gen——一种大规模扩散语言模型,通过注释引导特征调制(AGFM)和残基级控制编码(RCFE)实现多模态功能约束(功能注释 + 序列基序 + 3D 结构)的组合蛋白质生成,F1 分数比 ESM3 提升 30%。

Compositional Flows for 3D Molecule and Synthesis Pathway Co-design

提出 CGFlow(Compositional Generative Flows)——将 flow matching 扩展到组合对象的逐步生成,交织组合结构采样(合成路径)和连续状态传输(3D 构象),作为 3DSynthFlow 应用于可合成药物设计,在 LIT-PCBA 15个靶标上首次同时达到结合亲和力和可合成性的 SOTA。

ComRecGC: Global Graph Counterfactual Explainer through Common Recourse

本文首次形式化了图神经网络的公共补救 (Common Recourse) 全局反事实解释问题,证明该问题是 NP-hard 的,并提出了 ComRecGC 算法——通过多头顶点增强随机游走 (Multi-head VRRW) 寻找反事实图,再用 DBScan 聚类提取公共补救,在 NCI1、Mutagenicity、AIDS、Proteins 四个真实数据集上,覆盖率全面超越现有基线 10%–30%。

DeepSeq: High-Throughput Single-Cell RNA Sequencing Data Labeling via Web Search-Augmented Agentic Generative AI Foundation Models

提出 DeepSeq 流水线,利用大语言模型(尤其是具备实时网络搜索能力的 Agentic GPT-4o)对单细胞RNA测序数据进行自动化细胞类型标注,最高准确率达 82.5%,解决了大规模组学数据标注的吞吐量瓶颈。

Designing Cyclic Peptides via Harmonic SDE with Atom-Bond Modeling

提出 CpSDE 框架,通过谐波 SDE 生成模型 (AtomSDE) 和残基类型预测器 (ResRouter) 的交替采样,首次实现基于 3D 受体结构的全类型环肽设计,在稳定性和亲和力上超越现有线性肽设计方法。

eccDNAMamba: A Pre-Trained Model for Ultra-Long eccDNA Sequence Analysis

eccDNAMamba 是首个面向环状DNA的双向状态空间编码器,结合BPE分词、环状数据增强和SpanBERT式预训练,在保持线性时间复杂度的同时支持高达200Kbp的超长eccDNA序列建模,在癌症分类和真实eccDNA识别任务上显著超越DNABERT-2、HyenaDNA和Caduceus。

Efficient Molecular Conformer Generation with SO(3)-Averaged Flow Matching and Reflow

提出 SO(3)-Averaged Flow 训练目标,通过解析地对旋转群 SO(3) 上所有旋转取平均来消除先验-数据分布间的旋转对齐需求,结合 Reflow+蒸馏实现高质量的少步乃至单步分子构象生成。

Elucidating the Design Space of Multimodal Protein Language Models

系统性地探索了基于token的多模态蛋白质语言模型(PLM)的设计空间,通过比特级离散建模、几何感知架构、表征对齐和多聚体数据扩展四个维度的创新,将650M参数模型的折叠RMSD从5.52降至2.36,超越3B基线模型,接近专用折叠模型水平。

Empower Structure-Based Molecule Optimization with Gradient Guided Bayesian Flow Networks

提出 MolJO 框架,利用贝叶斯流网络(BFN)的连续可微参数空间 \(\boldsymbol{\theta}\),实现对分子坐标(连续)和原子类型(离散)的联合梯度引导优化,并设计滑动窗口后向校正策略平衡探索与利用,在 CrossDocked2020 上以 51.3% Success Rate 大幅领先现有方法。

ExLM: Rethinking the Impact of [MASK] Tokens in Masked Language Models

本文首次系统分析了 MLM 中 [MASK] 对性能的影响,发现语义损坏(corrupted semantics)非真实token(unreal tokens)的负面作用更大,据此提出 ExLM:通过将每个 [MASK] 扩展为多个隐状态并用转移矩阵建模依赖关系,有效缓解语义多模态性问题,在文本和分子建模任务上均取得显著提升。

Flexibility-conditioned Protein Structure Design with Flow Matching

提出 BackFlip(从骨架预测残基级柔性)和 FliPS(以柔性 profile 为条件的 SE(3)-等变 flow matching 模型),首次实现根据目标柔性分布生成具有期望动态特性的蛋白质骨架结构,并通过 300 ns 分子动力学模拟验证。

GenMol: A Drug Discovery Generalist with Discrete Diffusion

提出 GenMol,一个基于掩码离散扩散(Masked Discrete Diffusion)的通用分子生成框架,通过非自回归双向并行解码生成 SAFE 序列,并引入片段重掩码(fragment remasking)和分子上下文引导(MCG),用单一模型覆盖从头生成、片段约束生成、目标导向 hit 生成和先导化合物优化四大药物发现场景,全面超越此前最优方法。

Geometric Generative Modeling with Noise-Conditioned Graph Networks

提出 Noise-Conditioned Graph Networks (NCGNs),使 GNN 架构根据噪声级别动态调整消息传递的范围和图分辨率:高噪声时用远程连接+低分辨率,低噪声时用局部连接+高分辨率,在 3D 点云、空间转录组和图像生成中均超越固定架构基线。

Geometric Representation Condition Improves Equivariant Molecule Generation

GeoRCG 提出两阶段分子生成框架——先生成低维的几何表示(informative representation),再以此为条件生成完整分子,在条件分子生成任务上平均提升 50%,同时可将扩散步数从 1000 减少到 100。

Global Context-aware Representation Learning for Spatially Resolved Transcriptomics

提出 Spotscape 框架,通过 Similarity Telescope 模块捕获 spot 间的全局相似关系(而非仅依赖空间局部邻居),并引入原型对比学习和相似度尺度匹配策略处理多切片批次效应,在空间域识别、轨迹推断、多切片整合与对齐等任务上全面超越现有方法。

Graph Generative Pre-trained Transformer (G2PT)

提出 G2PT——将图编码为节点+边的 token 序列,用 GPT 风格的自回归 Transformer 做 next-token prediction 来生成图,并通过拒绝采样微调(RFT)和 PPO 强化学习实现目标导向分子生成,在通用图和分子数据集上均达到 SOTA。

Improved Off-policy Reinforcement Learning in Biological Sequence Design

提出 δ-Conservative Search (δ-CS),一种面向生物序列设计的新型 off-policy 搜索方法,通过对高分离线序列进行 token 级噪声注入(以概率 δ 随机遮蔽)再用 GFlowNet 策略去噪,并根据代理模型不确定性自适应调节保守程度,在 DNA、RNA、蛋白质和肽设计任务上显著优于现有方法。

Improving Flow Matching by Aligning Flow Divergence

从 PDE 视角分析了 Flow Matching 中学习概率路径与真实概率路径之间的误差,证明该误差受到向量场散度(divergence)差距的控制,并提出联合匹配流和散度的 FDM 训练目标,在密度估计、DNA 序列生成和视频预测等任务上显著提升了 FM 的表现。

Kinetic Langevin Diffusion for Crystalline Materials Generation

KLDM 提出用 Kinetic Langevin Diffusion 处理晶体材料生成中原子分数坐标位于超环面的问题,通过引入辅助速度变量将扩散偏移到平坦欧几里得空间,同时保持周期平移对称性,在晶体结构预测和从头生成任务上达到竞争力性能。

Latent Imputation before Prediction: A New Computational Paradigm for De Novo Peptide Sequencing

LIPNovo 提出在肽段预测前,通过隐空间补全(latent imputation)来弥补质谱中碎片缺失信息的新范式,利用可学习peak queries和二部匹配补全理论peak隐表示,在三个基准上大幅超越 CasaNovo 等 SOTA(氨基酸精度提升 5.6%-20%)。

LDMol: A Text-to-Molecule Diffusion Model with Structurally Informative Latent Space Surpasses AR Models

提出 LDMol,通过 SMILES 枚举对比学习构建结构感知的潜在空间,在该空间上训练条件扩散模型实现文本到分子生成,首次让扩散模型在文本数据生成任务上超越自回归模型。

Leveraging Partial SMILES Validation Scheme for Enhanced Drug Design in Reinforcement Learning Frameworks

提出 PSV-PPO 算法,在自回归 SMILES 分子生成的每一步引入部分 SMILES 验证(PSV)真值表,实时惩罚无效 token,在保持分子有效性的同时增强化学空间探索能力。

MF-LAL: Drug Compound Generation Using Multi-Fidelity Latent Space Active Learning

提出 MF-LAL 框架,将多保真度代理模型与分子生成模型统一到层次化潜空间中,通过主动学习高效整合分子对接(低保真)和结合自由能计算(高保真)两类预言机,生成具有显著更优结合自由能的候选药物分子(平均 ABFE 得分提升约 50%)。

Neural Graph Matching Improves Retrieval Augmented Generation in Molecular Machine Learning

提出 MARASON,将神经图匹配(Neural Graph Matching)引入分子机器学习的检索增强生成(RAG)框架,通过可微分的碎片级对齐机制,把检索到的参考分子谱图信息有效融入目标分子的质谱预测中,在 NIST 数据集上将 top-1 检索准确率从 19% 提升到 28%。

PepTune: De Novo Generation of Therapeutic Peptides with Multi-Objective-Guided Discrete Diffusion

PepTune 结合 Masked Discrete Language Model (MDLM) 和蒙特卡罗树搜索 (MCTS) 多目标引导策略,在离散肽 SMILES 空间中同时优化多种治疗属性(结合亲和力、溶解性、膜通透性等),生成含非天然氨基酸和环化修饰的从头设计肽药物。

Piloting Structure-Based Drug Design via Modality-Specific Optimal Schedule

提出 VLB-Optimal Scheduling (VOS) 策略,通过理论分析多模态(连续3D位置+离散2D拓扑)联合噪声调度的路径依赖VLB特性,用动态规划搜索最优噪声调度路径,在 CrossDock 上以 95.9% PoseBusters 通过率达到 SBDD SOTA。

PolyConf: Unlocking Polymer Conformation Generation through Hierarchical Generative Models

提出 PolyConf——首个专为聚合物构象生成设计的层次化生成框架:Phase 1 用掩码自回归模型(MAR)+ 扩散过程在随机顺序下生成各重复单元的局部构象,Phase 2 用 SO(3) 扩散模型生成朝向变换以将局部构象组装为完整聚合物构象;同时构建了首个聚合物构象基准 PolyBench(5万+聚合物,~2000原子/构象),在所有结构和能量指标上均大幅超越现有方法 25%+。

Protein Structure Tokenization: Benchmarking and New Recipe

提出 StructTokenBench——首个全面评估蛋白质结构分词器 (PST) 的基准框架,从下游有效性、敏感性、独特性和 codebook 利用效率四个维度评估现有方法,并提出 AminoAseed 策略通过 codebook 重参数化和 Pareto 最优配置显著改善 VQ-VAE 型分词器的质量(相比 ESM3 提升 6.31%、利用率提升 124%)。

Protriever: End-to-End Differentiable Protein Homology Search for Fitness Prediction

提出 Protriever,首个端到端可微的蛋白质同源序列检索框架,将检索器与阅读器联合训练,在蛋白质适应性预测任务上达到序列模型 SOTA,同时比传统 MSA 检索快两个数量级。

Reliable Algorithm Selection for Machine Learning-Guided Design

提出一种设计算法选择方法,通过将候选设计算法配置的成功判定形式化为多重假设检验问题,结合预测驱动推断(Prediction-Powered Inference)技术校正预测误差,以高概率保证选出在未标注设计分布上满足用户定义成功准则的算法配置。

Scalable Equilibrium Sampling with Sequential Boltzmann Generators

SBG通过Transformer架构规范化流(TarFlow)和退火Langevin动力学的序列蒙特卡洛,首次在笛卡尔坐标系中实现六肽(66原子)系统的高效平衡采样。

Scalable Generation of Spatial Transcriptomics from Histology Images via Whole-Slide Flow Matching

提出 STFlow,一种基于 flow matching 的生成模型,通过建模整张切片的基因表达联合分布来显式捕获细胞间交互,并采用局部空间注意力实现高效全切片编码,在 HEST-1k 和 STImage-1K4M 上相对最优基线提升 18%。

Scalable Non-Equivariant 3D Molecule Generation via Rotational Alignment

提出 RADM (Rotationally Aligned Diffusion Model),通过学习样本相关的 SO(3) 旋转变换构建对齐的潜空间,使非等变扩散模型能够有效生成 3D 分子,在生成质量上媲美 SOTA 等变模型,同时提供更好的可扩展性和采样效率。

scSSL-Bench: Benchmarking Self-Supervised Learning for Single-Cell Data

提出 scSSL-Bench,一个系统性 benchmark,在 9 个单细胞数据集上评估 19 种自监督学习方法在批次校正、细胞类型注释和缺失模态预测三个下游任务上的表现,揭示了通用 SSL 方法与领域专用方法之间的任务特异性权衡。

SPACE: Your Genomic Profile Predictor is a Powerful DNA Foundation Model

提出 SPACE(Species-Profile Adaptive Collaborative Experts),论证监督式基因组图谱预测比无监督序列预训练能学到更有效的 DNA 表征,并通过物种感知 MoE 编码器和双门控解码器在 18 项 NT 下游任务中 11 项 SOTA。

Steering Protein Language Models

首次将LLM领域的Activation Steering技术迁移到蛋白质语言模型(PLM),通过在推理时编辑模型内部激活来引导蛋白质序列生成和优化朝向目标属性(如热稳定性、溶解度),完全无需重新训练,并提出基于steering vector相异度的突变位点识别算法(ASPO),在溶菌酶和GFP优化任务上大幅超越传统方法。

SToFM: a Multi-scale Foundation Model for Spatial Transcriptomics

提出 SToFM,首个多尺度空间转录组学基础模型,通过基因尺度域适应、微观尺度子切片划分和宏观尺度虚拟细胞注入,结合 SE(2) Transformer 和 88M 细胞的大规模预训练语料库,在组织区域语义分割和细胞类型标注等任务上显著超越现有方法。

SUICA: Learning Super-high Dimensional Sparse Implicit Neural Representations for Spatial Transcriptomics

提出 SUICA,通过图增强自编码器将超高维稀疏空间转录组数据压缩到紧凑嵌入空间,再用隐式神经表示(INR)建模坐标到嵌入的连续映射,实现跨多种 ST 平台的空间填补、基因填补和去噪。

Supercharging Graph Transformers with Advective Diffusion

提出 Advective Diffusion Transformer(AdvDIFFormer),一种物理启发的图Transformer模型,通过结合非局部扩散(全局注意力)和对流(局部消息传递)两种机制,在拓扑分布偏移下具有可证明的泛化误差控制能力,优于仅依赖局部扩散的GNN。

Training Flexible Models of Genetic Variant Effects from Functional Annotations using Accelerated Linear Algebra

本文提出 DeepWAS(Deep genome Wide Association Studies),利用现代快速线性代数技术(带状矩阵近似 + 迭代求解)解决 GWAS 中大规模 LD 矩阵求逆的计算瓶颈,首次实现用大规模神经网络最大化全似然来训练功能注释驱动的遗传变异效应预测模型,且发现只有在全似然训练下(而非传统 summary statistics 拟合)更大的模型才能带来更好的性能。

UniMoMo: Unified Generative Modeling of 3D Molecules for De Novo Binder Design

提出 UniMoMo,首个统一小分子、肽和抗体三类分子的 3D binder 设计框架,使用“块图”作为统一表示、迭代全原子自编码器压缩潜空间、E(3)-等变扩散模型生成,在三个基准上超越领域特定模型。

UniSim: A Unified Simulator for Time-Coarsened Dynamics of Biomolecules

UniSim 是首个面向跨域(小分子/肽链/蛋白质)全原子时间粗化分子动力学的深度生成模型,通过三阶段管线——多头预训练统一原子表示、随机插值向量场模型学习长时间步状态推进、力引导核参数高效适配不同化学环境——实现跨分子域的可迁移动力学模拟。

Weisfeiler and Leman Go Gambling: Why Expressive Lottery Tickets Win

首次从理论上将 GNN 的表达力(Weisfeiler-Leman 测试)与彩票假说(LTH)联系起来,提出并证明了强表达力彩票假说(SELTH),证明稀疏初始化的 GNN 中存在保持 1-WL 表达力的可训练子网络,且表达力更强的稀疏初始化更可能成为"中奖彩票",同时展示了不当剪枝导致的不可恢复表达力损失在药物发现等场景中的严重后果。

WGFormer: An SE(3)-Transformer Driven by Wasserstein Gradient Flows for Molecular Generation

本文提出 WGFormer,一种由 Wasserstein 梯度流驱动的 SE(3)-Transformer,在自编码器框架内通过最小化原子潜在混合模型上的能量函数来优化分子构象,在基态构象预测任务上一致超越 SOTA。