跳转至

🧬 计算生物

🔬 ICLR2026 · 38 篇论文解读

📌 同领域跨会议浏览: 🧪 ICML2026 (35) · 💬 ACL2026 (5) · 📷 CVPR2026 (11) · 🤖 AAAI2026 (20) · 🧠 NeurIPS2025 (72) · 📹 ICCV2025 (4)

🔥 高频主题: 生物分子 ×12 · 扩散模型 ×8 · LLM ×3 · 对抗鲁棒 ×2 · 对齐/RLHF ×2

A Genetic Algorithm for Navigating Synthesizable Molecular Spaces

提出 SynGA,一种直接在合成路线(合成树)上操作的遗传算法,通过自定义的交叉和变异算子将搜索严格约束在可合成分子空间内,结合 ML 驱动的构建块过滤实现 SOTA 的可合成类似物搜索和属性优化性能。

AFD-INSTRUCTION: A Comprehensive Antibody Instruction Dataset with Functional Annotations for LLM-Based Understanding and Design

构建了首个大规模抗体功能注释指令数据集AFD-Instruction(430K+条目),通过多智能体文献抽取pipeline对齐抗体序列与自然语言功能描述,用于指令微调通用LLM使其掌握抗体理解和功能导向设计能力,在5类分类任务上平均准确率提升20+点。

Antibody: Strengthening Defense Against Harmful Fine-Tuning for Large Language Models via Attenuating Harmful Gradient Influence

提出Antibody防御框架:在对齐阶段通过平坦度正则化使模型处于有害损失的平坦区域(梯度小→难被攻击),在微调阶段用基于模型安全知识的样本加权方案(对比目标完成 vs 拒绝的似然比)抑制有害样本的学习,平均Harmful Score从15.29%降至7.04%。

AntigenLM: Structure-Aware DNA Language Modeling for Influenza

AntigenLM 是一个保留基因组功能单元完整性的 GPT-2 风格 DNA 语言模型,通过在流感病毒全基因组上预训练并微调,能够自回归预测未来流行毒株的抗原序列,在氨基酸错配率上显著优于进化模型 beth-1 和通用基因组模型。

ConfHit: Conformal Generative Design with Oracle Free Guarantees

提出 ConfHit 框架,利用密度比加权的共形排列 p 值实现"认证"(判断生成批次是否包含 hit)和"设计"(精简候选集同时保持统计保证),在无需实验验证 oracle 和存在分布偏移的条件下,为生成式分子设计提供有限样本 \(1-\alpha\) 覆盖保证。

Contact-Guided 3D Genome Structure Generation of E. coli via Diffusion Transformers

提出 DiffBacChrom——基于条件扩散 Transformer (CrossDiT) 从 Hi-C 接触图谱生成大肠杆菌三维基因组构象集合,通过 ResNet VAE 保持逐 bin 对齐的潜空间编码、Transformer 编码器 + 交叉注意力注入 Hi-C 条件、flow-matching 训练,生成的集合在距离衰减 P(s) 和 SCC 指标上与输入 Hi-C 高度一致,同时保持构象多样性。

Controlling Repetition in Protein Language Models

首次系统性研究蛋白质语言模型(PLM)中的病态重复问题,提出统一的重复度量指标 \(R(x)\) 和效用指标 \(U(x)\),并设计 UCCS(Utility-Controlled Contrastive Steering)方法,通过在隐层注入与重复解耦的引导向量,在不重训模型的前提下有效抑制重复同时保持折叠可信度。

CORDS: Continuous Representations of Discrete Structures

提出 CORDS 框架,通过将变大小离散集合(检测框、分子原子)双射映射为连续的密度场和特征场,使模型可在场空间中学习并精确解码回离散集合,避免了固定 slot 或 padding 的限制。

CryoNet.Refine: A One-step Diffusion Model for Rapid Refinement of Structural Models with Cryo-EM Density Map Restraints

提出CryoNet.Refine——首个基于AI的冷冻电镜(cryo-EM)原子模型精修框架:设计单步扩散模型(初始化自Boltz-2权重)→创新可微分密度生成器(物理模拟合成密度图)→首次将密度图相关性作为可微损失函数(余弦相似度)→联合Ramachandran/Rotamer/键角等几何约束损失→测试时优化策略逐案定制→在120个蛋白质/DNA-RNA复合物上全面超越Phenix.real_space_refine(CC_mask 0.59 vs 0.54, Ramachandran favored 98.92%)。

Diffusion Alignment as Variational Expectation-Maximization

将扩散模型对齐形式化为变分 EM 算法:E-step 用 test-time search(soft Q 引导 + 重要性采样)探索高奖励多模态轨迹,M-step 通过 forward-KL 蒸馏将搜索结果写入模型参数,在图像生成和 DNA 序列设计上同时实现高奖励和高多样性。

Discrete Diffusion Trajectory Alignment via Stepwise Decomposition

提出 SDPO(Stepwise Decomposition Preference Optimization),将离散扩散模型的轨迹对齐问题分解为逐步后验对齐子问题,避免了在整条去噪链上反传梯度的困难,在 DNA 序列设计、蛋白质逆折叠和语言建模三个任务上均显著超越现有方法。

DistMLIP: A Distributed Inference Platform for Machine Learning Interatomic Potentials

提出 DistMLIP 分布式推理平台,基于零冗余图级并行化策略(graph-level parallelization),解决现有机器学习原子间势(MLIP)缺乏多 GPU 支持的问题,在 8 GPU 上实现接近百万原子的模拟,比空间分区方法快达 8 倍且能模拟 3.4 倍更大的系统。

DriftLite: Lightweight Drift Control for Inference-Time Scaling of Diffusion Models

DriftLite 提出在 Fokker-Planck 方程中利用漂移-势函数的自由度,通过轻量级线性系统求解最优控制漂移来主动稳定粒子权重,以最小代价解决 Sequential Monte Carlo 中的权重退化问题,在高斯混合、分子系统和蛋白质-配体共折叠任务上大幅超越 Guidance-SMC 基线。

Enhancing Molecular Property Predictions by Learning from Bond Modelling and Interactions

提出 DeMol 双图增强多尺度交互框架,通过并行的原子中心图和键中心图通道以及 Double-Helix Blocks 显式建模原子-原子、原子-键、键-键三类交互,在 PCQM4Mv2、OC20、QM9 等基准上取得 SOTA。

EvoFlows: Evolutionary Edit-Based Flow-Matching for Protein Engineering

EvoFlows 提出一种基于编辑操作的 Flow Matching 方法,通过学习进化相关蛋白质序列间的突变轨迹,能在模板序列上执行可控数量的突变(插入、删除、替换),同时预测"突变什么"和"在哪里突变"。

Extending Sequence Length is Not All You Need: Effective Integration of Multimodal Signals for Gene Expression Prediction

挑战基因表达预测中"越长越好"的长序列建模范式,发现当前 SSM 模型本质上只利用近端信息;进而识别出背景染色质信号(DNase-seq/Hi-C)作为混杂变量引入虚假关联,提出 Prism 框架通过后门调整去混杂,仅用 2k 短序列即超越 200k 长序列的 SOTA。

Fine-Tuning Diffusion Models via Intermediate Distribution Shaping

统一拒绝采样微调方法为GRAFT框架并证明其隐式执行KL正则化奖励最大化,进而提出P-GRAFT在中间去噪步骤做分布整形(偏差-方差权衡更优),以及Inverse Noise Correction无需奖励即可改进流模型质量,在T2I上VQAScore提升8.81%。

Fusing Pixels and Genes: Spatially-Aware Learning in Computational Pathology

本文提出 Stamp 框架,利用空间转录组学基因表达数据作为监督信号,通过空间感知基因编码器预训练和层次化多尺度对比对齐,实现病理图像与空间转录组数据的联合表示学习,在 6 个数据集 4 个下游任务上取得 SOTA。

HeurekaBench: A Benchmarking Framework for AI Co-scientist

提出 HeurekaBench,一个基于真实科学工作流构建评测基准的框架,通过多LLM流水线从论文中提取可验证的科学洞见并生成开放式研究问题,用于评估AI co-scientist在数据驱动科学发现中的端到端能力。

HistoPrism: Unlocking Functional Pathway Analysis from Pan-Cancer Histology via Gene Expression Prediction

本文提出 HistoPrism,一个高效的 Transformer 架构,通过交叉注意力注入癌症类型条件来从 H&E 病理图像预测泛癌基因表达,并提出基于 Hallmark/GO 通路的 Gene Pathway Coherence (GPC) 评估框架,在通路级别预测上大幅超越 STPath,尤其在低方差核心生物通路上优势显著。

How to Make the Most of Your Masked Language Model for Protein Engineering

提出基于温度退火随机束搜索(SBS)的MLM采样方法,利用伪似然的野生型边际近似实现高效全序列评估,在真实抗体治疗优化的体外实验中证明采样算法选择至少与模型选择同等重要,SBS+引导达到100%成功率。

Intrinsic Lorentz Neural Network

提出完全内禀(fully intrinsic)的双曲神经网络 ILNN,所有运算均在 Lorentz 模型内完成,消除了现有方法中混合欧几里得操作的几何不一致性,在图像分类、基因组学和图分类上取得 SOTA。

Learning Molecular Chirality via Chiral Determinant Kernels

提出手性行列式核(ChiDeK)来编码 SE(3) 不变的手性矩阵,首次在 GNN 框架中统一处理中心手性和轴向手性,结合交叉注意力传播立体化学信息,在新构建的轴向手性基准上准确率提升 >7%。

mCLM: A Modular Chemical Language Model that Generates Functional and Makeable Molecules

提出 mCLM(模块化化学语言模型),通过将分子表示为可合成构建模块的序列,使 LLM 能生成同时满足药理功能和自动化合成可行性的分子,在 430 种 FDA 批准药物上显著改善了药代动力学和毒性性质。

Protein as a Second Language for LLMs

将氨基酸序列视为 LLM 的"第二语言",通过构建蛋白质-自然语言双语数据集和自适应上下文构造机制,无需任何训练即可让通用 LLM 在蛋白质问答任务上平均提升 7% ROUGE-L,最高 17.2%,甚至超越领域专用微调模型。

Protein Counterfactuals via Diffusion-Guided Latent Optimization

提出MCCOP框架,在蛋白质的连续序列-结构联合潜空间中,利用预训练扩散模型作为流形先验进行梯度引导的反事实优化,以最少突变(2-3个)生成生物学可信的蛋白质变体来翻转预测器输出,同时实现模型解释和蛋白质设计假说生成。

Protein Structure Tokenization via Geometric Byte Pair Encoding

提出 GeoBPE——首个将 BPE(字节对编码)从离散文本扩展到连续蛋白质骨架几何的 tokenizer,通过交替执行"局部合并(k-medoids聚类+量化)"和"全局校正(可微逆运动学)"构建层次化结构 motif 词汇表,以 >10× 压缩比和 >10× 数据效率超越 VQ-VAE 类 PST,在 12 个下游任务 24 个测试集上排名第一。

Retrieval-Augmented Generation for Predicting Cellular Responses to Gene Perturbation

提出 PT-RAG(Perturbation-aware Two-stage Retrieval-Augmented Generation),首次将可微检索增强生成范式应用于单细胞基因扰动响应预测:通过 GenePT 语义检索候选扰动 + Gumbel-Softmax 条件离散采样实现细胞类型感知的端到端检索优化,在 Replogle-Nadig 数据集上超越 STATE 基线(Pearson 0.633 vs 0.624),同时发现朴素 RAG 会严重损害性能(Pearson 仅 0.396),证明可微且细胞类型感知的检索在该领域不可或缺。

Reverse Distillation: Consistently Scaling Protein Language Model Representations

针对蛋白质语言模型(PLM)"模型越大性能不一定越好"的反常缩放现象,提出反向蒸馏框架:以小模型表示为基底、用SVD提取大模型正交残差信息,构造Matryoshka嵌套嵌入,使得更大的反向蒸馏模型一致优于更小的,ESM-2 15B经反向蒸馏后首次成为全家族最强。

Scalable Spatio-Temporal SE(3) Diffusion for Long-Horizon Protein Dynamics

提出 STAR-MD,一个 SE(3) 等变的因果扩散 Transformer,通过联合时空注意力和上下文噪声扰动实现微秒级蛋白质动力学轨迹生成,在 ATLAS 基准上所有指标达到 SOTA,且能稳定外推到训练中未见的微秒时间尺度。

scDFM: Distributional Flow Matching for Robust Single-Cell Perturbation Prediction

提出 scDFM,基于条件流匹配(CFM)的生成式框架,通过 MMD 正则化保证分布级保真度,并设计 PAD-Transformer 骨干处理噪声稀疏的单细胞数据,在组合扰动预测上比最强基线 CellFlow 的 MSE 降低 19.6%。

SynCoGen: Synthesizable 3D Molecule Generation via Joint Reaction and Coordinate Modeling

SynCoGen 提出了一种结合掩码图扩散和流匹配的多模态生成框架,能够同时采样分子构建块反应图和3D原子坐标,在保证合成可行性的同时实现高质量的3D分子生成。

Thompson Sampling via Fine-Tuning of LLMs

提出 ToSFiT,通过微调大语言模型直接参数化最大概率(Probability of Maximality),将 Thompson Sampling 扩展到大规模非结构化离散空间,避免了获取函数最大化的难题。

Tracing Pharmacological Knowledge in Large Language Models

首次系统性地对生物医学 LLM 中药物分组语义的编码机制进行因果分析,发现药物组知识存储在早期层、分布在多个 token 上(非最后一个 token),线性可分的语义信息在嵌入层即已存在。

Unified Biomolecular Trajectory Generation via Pretrained Variational Bridge

PVB(Pretrained Variational Bridge)通过编码器-解码器架构结合增强桥匹配,统一了单结构预训练和配对轨迹微调的训练目标,实现了跨领域生物分子轨迹生成,并通过RL微调加速蛋白质-配体holo态探索。

VCWorld: A Biological World Model for Virtual Cell Simulation

提出 VCWorld,一个细胞级白盒模拟器,整合结构化生物知识图谱与大语言模型的迭代推理能力,以数据高效的方式模拟药物扰动引发的信号级联,生成可解释的逐步预测和显式机制假说,在药物扰动基准上达到 SOTA。

Verifier-Constrained Flow Expansion for Discovery Beyond the Data

提出Flow Expander (FE),通过验证器约束的熵最大化在概率空间中扩展预训练流模型的覆盖范围,使其生成超越训练数据分布但保持有效性的设计样本,在分子构象设计中增加多样性同时保持化学有效性。

Zatom-1: A Multimodal Flow Foundation Model for 3D Molecules and Materials

Zatom-1是首个端到端全开源的基础模型,通过多模态流匹配(multimodal flow matching)统一了3D分子和材料的生成建模与属性预测,使用标准Transformer架构在欧几里得空间直接建模离散原子类型和连续3D几何,实现了跨化学域的正迁移学习。