🧬 计算生物¶
🧪 ICML2026 · 35 篇论文解读
📌 同领域跨会议浏览: 💬 ACL2026 (5) · 📷 CVPR2026 (11) · 🔬 ICLR2026 (38) · 🤖 AAAI2026 (20) · 🧠 NeurIPS2025 (72) · 📹 ICCV2025 (4)
🔥 高频主题: 生物分子 ×18 · 扩散模型 ×5 · 布局/合成 ×3 · 多模态 ×2 · Agent ×2
- Active Timepoint Selection for Learning Measure-Valued Trajectories
-
本文研究“什么时候采样一个分布快照最有价值”,用 LOT 把 Wasserstein 空间中的测度轨迹线性化,再用带时间扭曲的多输出 GP 给出 epistemic uncertainty,从而主动选择最能降低轨迹重建误差的时间点。
- CARD: Coarse-to-fine Autoregressive Modeling with Radix-based Decomposition for Transferable Free Energy Estimation
-
CARD 用"基数 \(r\) 分解"把分子 3D 坐标双射映射为先粗后细的离散-连续混合 token 序列,让一个跨系统通用的自回归 Transformer 作为"零自由能 proposal"通过 BAR 直接估算任意分子系统的绝对自由能,在 70 个新系统的溶剂化任务上达到经典 MFES 的精度且推理快约 40 倍。
- CoSiNE: 条件位点独立的抗体序列神经进化模型
-
CoSiNE 用神经网络参数化的条件位点独立连续时间马尔可夫链(CTMC)来建模抗体亲和力成熟过程,在保持可处理性的同时捕获位点间上位效应,并通过 Guided Gillespie 采样实现抗原特异性的抗体优化,在零样本变体效应预测上超越了现有语言模型和进化模型。
- Constrained Flow Optimization via Sequential Fine-Tuning for Molecular Design
-
本文针对"在满足领域硬约束(如合成可达性、能量上界)的前提下最大化奖励(如结合亲和、偶极矩)"这一关键场景,提出 CFO 算法:用增广拉格朗日把约束生成式优化拆成一串带 KL 正则的标准微调子问题,自适应地更新罚因子 \(\rho_k\) 与对偶变量 \(\lambda_k\),在合成低维场景与 FlowMol 分子设计任务上同时给出可证收敛与显著的奖励—约束 Pareto 改进。
- Cross-Chirality Generalization by Axial Vectors for Hetero-Chiral Protein-Peptide Interaction Design
-
本文提出 AFI(Axial Feature Injection),把轴向量特征以线性混合方式注入 \(E(3)\)-等变标量化模型的极向量通道,使其退化为 \(SE(3)\)-等变并对手性敏感;以此改造 UniMoMo 得到 PepMirror,仅用同手性(L-L)训练数据即可零样本生成异手性(D-L)多肽 binder,并通过湿实验在 CD38 靶点上验证为首个实验确证的 AI de novo D-肽设计框架。
- Demystifying Multimodal Biomolecular Co-design with Intrinsic Geodesic Coupling
-
作者把"序列 + 三维结构"这种异质模态的共生成问题,重新建模为时序最优传输 (Temporal Optimal Transport) 问题,用双层优化 + 高斯过程代理 (GeoCoupling) 在训练过程中自动学出非对角的时间耦合曲线(即让结构和序列以各自适合的节奏被去噪),在 SBDD 和无条件蛋白质共设计两个任务上同时打败"同步耦合"和"随机耦合"两大类基线,并意外发现一条普适的"结构先行 (structure-leading)"几何先于语义的生成规律。
- DNAChunker: Learnable Tokenization for DNA Language Models
-
DNAChunker 在掩码 DNA 语言模型中嵌入一个端到端可学习的"动态分块器",通过双向 Mamba 编码 + 余弦相似度边界预测把 base-pair 序列压成变长 chunk,并配合 mask 保护与残差门控防止信息泄露,仅用人类参考基因组、172M 参数就在五个基因组 benchmark 上全面超越 2.5B 级别的多物种预训练基线。
- EvoEGF-Mol: Evolving Exponential Geodesic Flow for Structure-based Drug Design
-
EvoEGF-Mol 把 SBDD 的连续坐标与离散原子/键类型放到同一个指数族自然参数空间里,用动态收紧的目标分布替代奇异的 Dirac 端点,沿着 Fisher-Rao 几何下的指数测地线同步演化,在 CrossDock 上把 PoseBusters 通过率推到 93.4%,逼近参考分子水平。
- Flow Sampling: Learning to Sample from Unnormalized Densities via Denoising Conditional Processes
-
本文提出 Flow Sampling,把流匹配/扩散模型从"数据驱动"反转为"噪声驱动"——以源噪声样本为条件构造去噪扩散漂移,在 interpolant 上用 detached 模型采得 \(X_1\) 的能量梯度做回归目标,从而学到无数据情况下的高效扩散采样器,并自然推广到常曲率黎曼流形。
- From Feasible to Practical: Pareto-Optimal Synthesis Planning
-
PareSP 用多目标 MCTS 搜索联合优化合成路径的成本 / 时间 / 可行性 / 环境影响——找到完整帕累托前沿而非单一"最佳"路径,在 USPTO 和 ASKCOS 基准上较单目标方法节省 23% 成本、35% 时间,同时保持 ≥ 95% 化学可行性。
- From Holo Pockets to Electron Density: GPT-style Drug Design with Density
-
本文把结构药物设计的 condition 从"刚性 empty pocket"换成"包含配体与溶剂的 filler 低分辨率电子云",并提出第一个 decoder-only autoregressive 的 EDMolGPT,在 DUD-E 101 个靶点上 bioactive recovery 达 41%、远超先前 ED-based 方法。
- Influence-Guided Symbolic Regression: Scientific Discovery via LLM-Driven Equation Search with Granular Feedback
-
IGSR 把符号回归拆成"LLM 提议基函数 ψ_j + 逐项影响力分数 Δ_j 剪枝"两步循环,并把这个循环嵌入 MCTS 来搜组合空间,在 6 个生物医学基准和 LLM-SRBench 上同时拿下最佳 MSE 与符号召回,还在湿实验里发现了 DNA 甲基化与 RNA Pol II 停顿的新关系。
- Learning Protein Structure-Function Relationships through Knowledge-guided Representation Decomposition
-
ProtDiS 把预训练蛋白质微环境嵌入(如 ESM-3)通过信息瓶颈+冗余消除的方式拆解成 8 个生物物理可解释的"知识通道"和 1 个残差通道,让结构表示在十二个下游任务(尤其是结构相似但功能不同的情形)上一致提升。
- Learning the Interaction Prior for Protein-Protein Interaction Prediction: A Model-Agnostic Approach
-
L3-PPI 把生物学里的 "L3 规则"(蛋白质对之间的 length-3 路径越多越可能相互作用)变成可学习的 graph prompt:用预训练 GNN 识别 L3 模式,再用门控网络生成虚拟 L3 路径并按 PPI 标签正则路径数量,做成一个即插即用的分类头,把任意 PPI 表征模型平均涨 2-4 个点。
- Learning the Neighborhood: Contrast-Free Multimodal Self-Supervised Molecular Graph Pretraining
-
C-FREE 把分子拆成固定半径的 k-EgoNet 子图,2D 拓扑 + 多个 3D 构象走 GINE + PaiNN + Transformer 编码后用 JEPA 风格的潜空间预测做预训练,全程无负样本、无增广、无位置编码,仅用 0.33M 分子(GEOM)就在 MoleculeNet 8 个任务上超越了用 19M–77M 分子训练的 UniMol / MolFM 等多模态基线。
- LineageFlow: Flow Matching for High-Fidelity Family-Aware Protein Sequence Generation
-
把通用的均匀/掩码噪声先验换成由祖先序列重建(ASR)得到的家族特异 Dirichlet 先验,让 Dirichlet flow matching 从"已经进化好的脚手架"出发去做结构化突变,再在中间时刻插入一次 mutate–select–amplify 的 rerouting,从而在 Pfam 8886 个家族上把家族识别准确率推到接近自然序列(95.3% vs 96.6%)、同时保持高新颖度和折叠置信度。
- Neural Estimation of Pairwise Mutual Information in Masked Discrete Sequence Models
-
本文从一个预训练 masked diffusion model (MDM) 的隐藏状态出发,训练一个轻量级"互信息预测头",一次前向就能输出全部 token 对之间的条件互信息矩阵,并据此挑选"条件独立"的 token 子集做并行解码,在 Sudoku 和蛋白质 (ESM-C) 上把推理 NFE 降低 3-5 倍同时保持甚至超过顺序解码的质量。
- On the Collapse of Generative Paths: A Criterion and Correction for Diffusion Steering
-
本文指出"用 ratio-of-densities 组合多个异质扩散/流模型"的推理时引导会出现 Marginal Path Collapse(MPC)——中间时刻的复合密度变得不可归一化,进而提出一个充要的 Path Existence Criterion (PEC) \(C(t)>0\) 来诊断塌缩,并设计 ACE 通过对指数 \(\gamma_i(t)\) 加 bump 函数来动态修正路径,把 Feynman–Kac 修正器推广到时变指数情形,在合成 Checkerboard、柔性 pose scaffold decoration(DN/CONF/SBDD 三专家组合)以及 COCO-MIG 多属性生成上都显著优于 NR/FKC 等常数指数基线。
- Protein Autoregressive Modeling via Multiscale Structure Generation
-
PAR 把图像领域 VAR 的 "next-scale prediction" 思路搬到蛋白质 Cα 骨架生成上,用多尺度下采样 + 自回归 Transformer + flow-based 解码器替代单尺度扩散模型,配合 noisy context learning 和 scheduled sampling 缓解曝光偏差,在无条件生成 FPSD 上达到 161.0 的同时解锁 zero-shot 点提示生成与 motif scaffolding,并取得 2.5× 采样加速。
- Protein Circuit Tracing via Cross-layer Transcoders
-
作者把 NLP 中的 cross-layer transcoder 搬到蛋白质语言模型 ESM2 上,提出 ProtoMech 框架以 < 1% 的稀疏潜变量电路恢复 79% 的下游性能,并能沿电路 steering 设计出高 fitness 的蛋白变体,在 70%+ 案例中击败基线。
- Protein Fold Classification at Scale: Benchmarking and Pretraining
-
作者基于 TED + Foldseek 聚类的 AlphaFold 结构构建了规模空前(约 49 万条、965 类)的非冗余蛋白质折叠分类基准 TEDBench,并提出 SE(3)-不变的掩码自编码器 MiAE:用高达 90% 的极端掩码率 + 重编码器/轻解码器的非对称架构,仅 100M 参数即在线性探测和微调上击败 ESM2-650M、SaProt-650M 等更大模型。
- Protein Language Model Embeddings Improve Generalization of Implicit Transfer Operators
-
本文把预训练蛋白质语言模型(pLM)的残基嵌入直接灌进可迁移隐式转移算子(TITO),训出 PLaTITO 在 mdCATH 上仅用 56 ms 轨迹和 1100 GPU 小时就让小到 19 M 参数的粗粒化 \(C_\alpha\) 模型在快折叠蛋白等离群系统的平衡采样上全面超过 BioEmu。
- Routing by Reaching: Composition of Pre-trained GFlowNets for Multi-Objective Generation
-
本文提出一种无需训练的 GFlowNets 组合框架,通过用每个预训练模型的"到达概率"作为权重去混合各自的前向策略,使得在推理阶段就能针对任意线性标量化或逻辑算子的多目标组合直接采样,并在线性情形下被证明可精确恢复目标分布。
- Scalable Single-Cell Gene Expression Generation with Latent Diffusion Models
-
scLDM 用统一的多头交叉注意力块 (MCAB) 把可交换的基因表达数据编成固定长度、置换不变的潜变量集合,再用 DiT + 流匹配 + 联合多属性 classifier-free guidance 替代 Gaussian 先验,在多个 scRNA-seq 数据集上的重构、(有/无条件) 生成、扰动响应预测全面超过 scVI / scDiffusion / CFGen。
- SIGMA: Structure-Invariant Generative Molecular Alignment for Chemical Language Models via Autoregressive Contrastive Learning
-
SIGMA 用 token 级对比损失把同一分子不同 SMILES 排列的隐状态强制对齐到同一条轨迹,并配套提出 IsoBeam 在解码阶段剪掉同构冗余路径,让序列模型在化学空间中真正"按图而非按字符串"思考。
- Site4Drug: Predicting Drug-Binding Target Sites with an AI Agent
-
Site4Drug 把"在蛋白质上选哪里下药"这一上游瓶颈重构为一个约束优先的证据整合问题——LLM Agent 从序列推导拓扑、PTM、Motif、半胱氨酸等可行性信号,输出带分数、风险标签和可追溯日志的候选位点排序,并自动推荐应当采用抗体/多肽还是小分子模态。
- Stein Diffusion Guidance: Training-Free Posterior Correction for Sampling Beyond High-Density Regions
-
SDG 把"训练免(training-free)扩散引导"和"随机最优控制(SOC)后验采样"两条路线统一起来:用 SOC 推出引导项的变分上界后,发现现有 Tweedie 类方法都漏掉了一个 KL 正则项,于是借 Stein 变分梯度下降设计一个"先 Tweedie 倒推到数据流形 \(\mathcal{M}_T\)、再 Stein 修正、再前推回噪声流形 \(\mathcal{M}_t\)"的回环修正机制,在图像引导和小分子-蛋白对接两类任务上都显著超过 DPS/LGD/MPGD/UGD 等基线,特别擅长在低密度区域采到稀有高价值样本。
- SwitchCraft: A Programmatic Framework for Designing State-Switching Proteins
-
SwitchCraft 把"设计一个能在多个功能态之间切换的蛋白质"形式化为一个对组合约束求解的优化问题,通过对结构预测模型 Boltz-1 反向传播多组状态相关的损失(基序、结合、构象变化、接触),直接梯度下降优化氨基酸 logits,实现首个通用的多态蛋白计算设计框架,并在体外硅基实验中演示了正/负变构、基序切换、诱导结合、配体修饰、配体辨识与 cpGFP 荧光生物传感器的从头设计。
- TadA-Bench: A Million-Variant Benchmark for Future-Round Discovery Toward Agentic Protein Engineering
-
TadA-Bench 用 31 轮真实定向进化湿实验中的百万级 TadA 变体序列,把蛋白工程问题形式化为"用前若干轮排出后若干轮"的固定数据回放任务,并配套 Seq2Graph 图式标签统一管线,揭示了主流生物大模型在"未来轮发现"上严重失效。
- TD3B: Transition-Directed Discrete Diffusion for Allosteric Binder Generation
-
TD3B 把激动剂/拮抗剂的设计当作「方向性转移算子」生成任务,用一个方向 Oracle + 亲和力门控 + 树搜索摊销微调的掩码离散扩散框架,让预训练肽段生成器学会写出能定向偏移蛋白质活/失活构象转移的多肽序列。
- Temporal Score Rescaling for Temperature Sampling in Diffusion and Flow Models
-
通过对预训练扩散/流模型的 score 输出乘以一个仅依赖时间步、变量 \(k\) 与 \(\sigma\) 的解析重标缩因子 \(r_t\),即可在推理阶段把采样分布"局部"地变得更尖或更平,而无需任何微调,对 DDIM 等确定性采样器也完全兼容。
- Towards A Generative Protein Evolution Machine with DPLM-Evo
-
本文提出 DPLM-Evo,把蛋白质语言模型的离散扩散从"只支持掩码替换"扩展为"显式建模替换+插入+删除三种进化编辑",通过把变长观测序列解耦到上采样长度的隐对齐空间 + 上下文化进化噪声核,实现变长进化生成、进化轨迹式的蛋白质后编辑/优化,并在 ProteinGym 单序列变体效应预测上取得 SOTA。
- Towards Universal Gene Regulatory Network Inference: Unlocking Generalizable Regulatory Knowledge in Single-cell Foundation Models
-
本文指出单细胞基础模型 (scFM) 蕴含丰富但被"重建式预训练"遮蔽的基因调控知识,并提出 Virtual Value Perturbation 与 Gradient Trajectory 两种探针,从冻结的 scFM 中蒸馏出可跨基因/跨数据集泛化的成对基因特征,在 BEELINE 基准上把 AUPRC 从 ~0.5 推到 0.8–0.97,开启了"通用 GRN 推断 (UGRN)"这一新范式。
- Transformed Latent Variable Multi-Output Gaussian Processes
-
本文提出 T-LVMOGP:把多输出 GP 的核心建模问题——跨输出协方差 \(k_{p,p'}(x, x')\) 的构造——转化成"在 Lipschitz 正则的 RCNN 嵌入空间里用单个标量基核做内积",并完整嵌入 SVGP 框架,使 MOGP 第一次能可扩展且高表达力地处理 \(P > 10000\) 输出(含 ZINB 似然的空间转录组数据),同时全面胜过 SV-LMC / OILMM / GS-LVMOGP 等基线。
- What Makes a Representation Good for Single-Cell Perturbation Prediction?
-
这篇论文提出 PerturbedVAE,认为单细胞扰动预测的好表征必须显式分离占主导的扰动不变背景程序和稀疏的扰动响应信号,并用因果结构组织后者,从而更好泛化到未见双基因组合扰动。