跳转至

🧬 计算生物

🧠 NeurIPS2025 · 72 篇论文解读

📌 同领域跨会议浏览: 🧪 ICML2026 (35) · 💬 ACL2026 (5) · 📷 CVPR2026 (11) · 🔬 ICLR2026 (38) · 🤖 AAAI2026 (20) · 📹 ICCV2025 (4)

🔥 高频主题: 生物分子 ×22 · 扩散模型 ×14 · LLM ×3 · 推理 ×3 · 对齐/RLHF ×2

A Standardized Benchmark for Multilabel Antimicrobial Peptide Classification

提出 ESCAPE——首个标准化的多标签抗菌肽分类基准,整合 27 个公开数据库共 80,000+ 肽段,并设计基于双分支 Transformer + 双向交叉注意力的 Baseline 模型,在 mAP 上相对第二名提升 2.56%。

A Unified Framework for Variable Selection in Model-Based Clustering with Missing Not at Random

在高斯混合模型的聚类框架中,统一解决变量选择(区分信号变量、冗余变量和噪声变量)与MNAR缺失数据建模,通过两阶段策略(LASSO惩罚排序加BIC角色分配)和谱距离自适应惩罚权重实现高维场景下的高效推理,并证明了可辨识性和渐近选择一致性。

AANet: Virtual Screening under Structural Uncertainty via Alignment and Aggregation

针对现实药物发现中蛋白质 holo 结构不可用的问题,提出 AANet——通过三模态对比学习(配体-holo pocket-检测cavity)对齐表征并用交叉注意力聚合多个候选结合位点,在 apo/predicted 蛋白质结构上的盲筛性能远超 SOTA(DUD-E 上 EF1% 从 11.75 提升至 37.19)。

Amortized Active Generation of Pareto Sets

提出 A-GPS 框架,通过学习 Pareto 集的条件生成模型实现在线离散黑箱多目标优化——用非支配类概率估计器(CPE)作为 PHVI 的隐式估计替代显式超体积计算,并通过偏好方向向量实现摊还式后验偏好条件化(无需重新训练),在合成基准和蛋白质设计任务上展示了优越的样本效率。

Amortized Sampling with Transferable Normalizing Flows

提出 Prose——一个 285M 参数的全原子可迁移归一化流,基于 TarFlow 架构训练在 21,700 个短肽 MD 轨迹上(总计 4.3ms 模拟时长),实现对任意短肽系统的零样本无相关性提议采样,在能量评估预算相同时超越 MD 基线,生成速度比之前的可迁移玻尔兹曼生成器 (TBG) 快 4000 倍。

Atomic Diffusion Models for Small Molecule Structure Elucidation from NMR Spectra

提出 ChefNMR,首个基于 3D 原子扩散模型的端到端框架,仅从 1D NMR 光谱和化学式直接预测未知小分子(尤其是复杂天然产物)的分子结构,在合成和实验数据集上均达到 SOTA。

GraphFLA: Augmenting Biological Fitness Prediction Benchmarks with Landscape Features

GraphFLA 是一个高效的适应度景观分析框架——计算 20 个生物学意义的景观特征(粗糙度/上位性/可导航性/中性),在 5300+ 真实景观(ProteinGym/RNAGym/CIS-BP)上揭示模型性能高度依赖景观拓扑,如 VenusREM 在高可导航性景观上优于 ProSST 但在高上位性景观上弱于后者,处理百万突变体仅需 20 秒(vs MAGELLAN 5 小时)。

Autoencoding Random Forests

RFAE 首次为随机森林构建了原则性的编码-解码框架——利用 RF 核的正定性和普适性进行扩散映射谱分解得到低维编码,通过 k-NN 回归在叶节点空间中解码回原始特征,在 20 个表格数据集上重建质量排名 1.80(大幅优于 TVAE 3.38、AE 3.27),并成功应用于 MNIST 重建和 scRNA-seq 批次效应去除。

BarcodeMamba+: Advancing State-Space Models for Fungal Biodiversity Research

BarcodeMamba+ 是面向真菌 ITS DNA 条形码分类的 SSM 基础模型,通过预训练+微调范式充分利用海量未标注序列,并结合层次标签平滑、逆平方根加权损失和多头输出三项增强,在三个测试集所有分类层级上大幅超越 BLAST、CNN 和 Transformer 基线,种级准确率最高达 88.9%。

Benchmarking Agentic Systems in Automated Scientific Information Extraction with ChemX

构建 ChemX——10 个由领域专家手工标注和验证的多模态化学数据提取基准数据集,涵盖纳米材料和小分子两大领域,系统评估了 ChatGPT Agent、SLM-Matrix、FutureHouse、nanoMINER 等 SOTA Agent 系统以及 GPT-5/GPT-5 Thinking 等前沿 LLM;提出的单 Agent 方法通过结构化文档预处理(marker-pdf → Markdown → LLM 提取)在纳米酶数据集上达到 F1=0.61,超越所有通用多 Agent 系统,同时揭示了化学信息提取仍存在 SMILES 解析失败、术语歧义等系统性挑战。

Beyond Chemical QA: Evaluating LLM's Chemical Reasoning with Modular Chemical Operations

提出 ChemCoTBench,首个评估 LLM 化学推理能力的 CoT 基准,将复杂化学问题分解为模块化的化学操作(加/删/替换官能团),配合 22,000 条专家标注的 CoT 数据集(ChemCoTDataset),系统性评估了推理型和非推理型 LLM 在分子理解/编辑/优化/反应预测上的能力。

CrossNovo: Bidirectional Representations Augmented Autoregressive Biological Sequence Generation

CrossNovo 融合自回归(AR)和非自回归(NAR)解码器,通过共享谱编码器 + 重要性退火 + 梯度阻断知识蒸馏,让 NAR 的双向全局理解增强 AR 的序列生成能力,在 9-Species 基准上氨基酸精度达 0.811(+2.6%)、肽段召回 0.654(+5.3%)。

Compressing Biology: Evaluating the Stable Diffusion VAE for Phenotypic Drug Discovery

首次系统评估 Stable Diffusion VAE(SD-VAE)在 Cell Painting 显微镜图像上的重建质量,发现 SD-VAE 在像素级和生物信号层面均能良好保留表型信息(FR 几乎无下降),且通用特征提取器 InceptionV3 在检索任务上与领域专用模型 OpenPhenom 持平甚至更优。

ConfRover: Simultaneous Modeling of Protein Conformation and Dynamics via Autoregression

ConfRover 提出自回归框架将蛋白质 MD 轨迹分解为逐帧条件生成 \(p(\mathbf{x}^{1:L}) = \prod_l p(\mathbf{x}^l | \mathbf{x}^{<l})\),通过编码器 + 因果 Transformer + SE(3) 扩散解码器的模块化架构,首次在单一模型中统一轨迹模拟、时间无关构象采样和构象插值三大任务,在 ATLAS 数据集上全面超越 MDGen。

Consistent Sampling and Simulation: Molecular Dynamics with Energy-Based Diffusion Models

本文发现扩散模型在采样和模拟之间存在不一致性问题(尤其在小扩散时间步),提出基于 Fokker-Planck 方程的正则化项来强制一致性,并结合时间分段的混合专家(MoE)策略,实现了在多个生物分子系统上一致且高效的采样与分子动力学模拟。

Constrained Discrete Diffusion

提出 CDD(Constrained Discrete Diffusion),将可微约束优化投影算子嵌入离散扩散模型的去噪过程中,无需重训练即可在采样时强制满足序列级约束,在毒性文本生成、分子设计和指令遵循三类任务上实现零约束违反。

Curly Flow Matching for Learning Non-gradient Field Dynamics

提出 Curly Flow Matching (Curly-FM),通过设计带有非零参考漂移的 Schrödinger Bridge 问题,使 flow matching 能够学习周期性、旋转性等非梯度场动力学,突破了传统方法只能建模梯度场的限制。

De novo generation of functional terpene synthases using TpsGPT

TpsGPT 通过在 79K 萜烯合酶(TPS)序列上微调蒸馏版 ProtGPT2 Tiny(38.9M 参数),生成 28K 候选序列,经多阶段过滤(困惑度/pLDDT/EnzymeExplorer/CLEAN/InterPro/Foldseek)筛选出 7 条进化距离远(<60% 序列相似度)但结构保守的从头 TPS 序列,湿实验验证其中 2 条具有 TPS 酶活性——以不到 $200 GPU 成本实现功能酶从头设计。

DesignX: Human-Competitive Algorithm Designer for Black-Box Optimization

提出 DesignX,首个统一学习算法工作流生成和超参数动态控制两个子任务的自动算法设计框架,通过双 Transformer 智能体在 10k 合成问题上大规模预训练,在合成测试集和蛋白质对接/AutoML/UAV 路径规划等真实场景中超越人类手工设计的优化器。

Diffusion Generative Modeling on Lie Group Representations

提出在李群表示空间(而非李群本身)上构建扩散过程的新理论框架,通过广义分数匹配将非阿贝尔李群的弯曲动力学映射到欧几里得空间中,实现无模拟训练的李群扩散模型,并证明标准分数匹配是其平移群的特例。

EDBench: Large-Scale Electron Density Data for Molecular Modeling

构建了目前最大规模的电子密度(ED)数据集 EDBench(330 万分子,基于 B3LYP/6-31G** DFT 计算),并设计了涵盖预测、检索、生成三类任务的 ED 基准评估体系,首次系统评估了深度学习模型对电子密度的理解和利用能力。

Energy Loss Functions for Physical Systems

提出基于物理能量的损失函数框架,通过反向 KL 散度与玻尔兹曼分布推导出以成对距离为基础的能量差损失,天然满足 SE(d) 不变性,在分子生成和自旋基态预测中显著优于 MSE 和交叉熵损失。

Evaluating Multiple Models Using Labeled and Unlabeled Data

提出 SSME (Semi-Supervised Model Evaluation),利用少量标注数据和大量未标注数据,通过半监督混合模型估计多个分类器联合分布 \(P(y, \mathbf{s})\),实现精确的分类器性能评估,误差降低至仅用标注数据的 1/5。

FGBench: A Dataset and Benchmark for Molecular Property Reasoning at Functional Group-Level in Large Language Models

本文提出 FGBench,一个包含 625K 分子性质推理问题的数据集,专注于功能基团(functional group)级别的推理评估,通过三个维度(单功能基团影响、多功能基团交互、分子比较)系统揭示了当前 LLM 在细粒度化学推理能力上的严重不足。

Flow Density Control: Generative Optimization Beyond Entropy-Regularized Fine-Tuning

提出 Flow Density Control(FDC),将预训练流/扩散模型的微调从 KL 正则期望奖励最大化推广到任意分布效用函数 + 任意散度正则的通用框架,通过将非线性目标分解为一系列线性微调子任务实现,并提供收敛保证。

Fractional Diffusion Bridge Models

提出分数扩散桥模型(FDBM),将分数布朗运动(fBM)引入生成扩散桥框架,通过 Hurst 指数 \(H\) 控制轨迹的粗糙度和长程依赖性,在蛋白质构象预测和图像翻译任务上超越布朗运动基线。

g-DPO: Scalable Preference Optimization for Protein Language Models

针对蛋白质语言模型(PLM)应用 DPO 时偏好对数量随样本数二次增长导致训练不可扩展的问题,提出 g-DPO 框架:(1) 通过序列空间 union mask 聚类剪枝冗余偏好对,保留局部邻域中信息量更大的比较;(2) 利用共享 union mask 的分组似然摊销,一次前向传播同时计算组内所有序列的 log-likelihood。在三个蛋白质工程任务上,g-DPO 保持与标准 DPO 统计上不可区分的 in silico 和 in vitro 性能,同时实现 1.7-5.4× 的训练加速。

Generative Distribution Embeddings: Lifting Autoencoders to the Space of Distributions for Multiscale Representation Learning

提出生成分布嵌入(GDE),将自编码器提升到分布空间——编码器作用于样本集合,解码器替换为条件生成模型,学习分布级别的表示,并在6个计算生物学任务上验证有效性。

Generative Modeling of Full-Atom Protein Conformations using Latent Diffusion on Graph Embeddings

提出 LD-FPG 框架,使用 Chebyshev 图神经网络将蛋白质全原子 MD 轨迹编码到低维潜在空间,再用 DDPM 在该空间中生成新的构象集合体(ensemble),首次实现了包含侧链所有重原子的蛋白质构象生成。

Graph Diffusion that can Insert and Delete

提出 GrIDDD 模型,首次将离散去噪扩散模型(DDPM)扩展为支持在生成过程中动态插入和删除图节点,使分子图的大小可在扩散过程中自适应变化,在性质靶向和分子优化任务上达到或超过现有方法。

Inferring Stochastic Dynamics with Growth from Cross-Sectional Data

提出非平衡概率流推断(UPFI),通过Fokker-Planck方程的Lagrangian形式化,从横截面数据中联合推断随机动力学系统的漂移项、扩散项和增长率,首次准确处理含细胞增殖/死亡的场景。

Interpreting GFlowNets for Drug Discovery: Extracting Actionable Insights for Medicinal Chemistry

为 SynFlowNet(基于合成反应模板的 GFlowNet)构建了一套多层次可解释性工具包,整合梯度显著性、反事实扰动、稀疏自编码器(SAE)和基序探针,揭示模型内部表征如何编码药物化学相关的理化性质和官能团信息。

Is Sequence Information All You Need for Bayesian Optimization of Antibodies?

本文系统比较了序列信息和结构信息在抗体贝叶斯优化中的作用,发现通过蛋白质语言模型(pLM)软约束,纯序列方法可以匹配结构方法的性能,质疑了结构信息在抗体贝叶斯优化中的必要性。

Iterative Foundation Model Fine-Tuning on Multiple Rewards

提出 IterativeRS(迭代 Rewarded Soups),通过在多目标专家策略的独立微调和策略合并之间交替迭代,统一了奖励组合和专家合并两类方法,在小分子设计、DNA 序列生成和文本摘要任务上均优于 MORLHF 和 Rewarded Soups。

JAMUN: Bridging Smoothed Molecular Dynamics and Score-Based Learning for Conformational Ensembles

提出 JAMUN,一种基于 Walk-Jump Sampling 框架的分子构象集成生成方法,通过在加噪的平滑流形上执行朗之万动力学并用 SE(3) 等变去噪器跳回原始分布,实现了比传统分子动力学快一个数量级的肽段构象采样,且具备对训练外系统的迁移能力。

JanusDNA: A Powerful Bi-directional Hybrid DNA Foundation Model

提出JanusDNA,首个双向DNA基础模型,结合Mamba-Attention-MoE混合架构和Janus Modeling训练范式,以自回归的训练效率实现双向理解,在多个基因组基准上达到SOTA。

KLASS: KL-Guided Fast Inference in Masked Diffusion Models

提出 KLASS(KL-Adaptive Stability Sampling),一种无需训练的采样方法,利用 token 级别的 KL 散度和置信度来识别稳定 token 并行解码,在掩码扩散模型上实现最高 2.78× 加速且不损失甚至提升生成质量。

Learning Conformational Ensembles of Proteins Based on Backbone Geometry

提出 BBFlow,一种基于蛋白质骨架几何信息的流匹配生成模型,用于蛋白质构象集合采样,无需进化序列信息或预训练折叠模型,推理速度比 AlphaFlow 快一个数量级以上,且可扩展到多链蛋白质。

Learning Relative Gene Expression Trends from Pathology Images in Spatial Transcriptomics

提出 STRank 损失函数,将病理图像基因表达估计重新定义为排序分数估计任务,利用二项分布/多项分布建模表达计数的随机噪声特性,使模型能从包含批次效应和随机波动的空间转录组数据中学习到鲁棒的相对表达关系。

Learning Repetition-Invariant Representations for Polymer Informatics

提出 GRIN(Graph Repetition-Invariant Network),通过 Max 聚合和特殊的图构建策略使 GNN 对聚合物重复单元的拼接数量不变,解决了聚合物表示中的基本对称性问题。

Manipulating 3D Molecules in a Fixed-Dimensional E(3)-Equivariant Latent Space

提出MolFLAE,一种学习固定维度、E(3)等变潜在空间的3D分子变分自编码器,通过引入可学习虚拟节点和贝叶斯流网络解码器,实现零样本分子编辑,包括原子数编辑、结构重构和性质插值,并在人类糖皮质激素受体(hGR)的药物优化中展示了实际应用价值。

MEIcoder: Decoding Visual Stimuli from Neural Activity by Leveraging Most Exciting Inputs

提出 MEIcoder,利用神经元特异性的最激励输入(MEI)作为生物学先验、SSIM 损失和对抗训练,从初级视觉皮层(V1)的神经群体活动中实现 SOTA 级别的视觉刺激重建,尤其在小数据集和少量神经元场景下表现突出。

Modeling Microenvironment Trajectories on Spatial Transcriptomics with NicheFlow

NicheFlow是一种基于Flow Matching的生成模型,将细胞微环境表示为点云,通过Variational Flow Matching和最优传输联合建模细胞状态与空间坐标的时间演化,在胚胎发育、脑发育和衰老数据集上显著优于单细胞级别的轨迹推断方法。

Mol-LLaMA: Towards General Understanding of Molecules in Large Molecular Language Models

提出 Mol-LLaMA,一个面向分子通用理解的大型分子语言模型,通过设计三类关键指令数据类型和 2D-3D 分子表示融合模块,在分子特征理解上超越 GPT-4o,具备可解释性和推理能力。

Multimodal 3D Genome Pre-training

提出MIX-HIC——首个面向3D基因组的多模态基础模型,通过跨模态交互块和跨模态映射块融合Hi-C接触图和表观基因组信号,在超过127万对样本上预训练,在Hi-C预测、染色质环检测和CAGE-seq表达预测三个下游任务上全面超越SOTA。

Multiscale Guidance of Protein Structure Prediction with Heterogeneous Cryo-EM Data

CryoBoltz利用冷冻电镜(cryo-EM)密度图通过多尺度引导机制(全局→局部)引导预训练扩散结构预测模型(Boltz-1)的采样轨迹,无需重新训练即可生成与实验数据一致的多构象原子模型。

Omni-Mol: Multitask Molecular Model for Any-to-Any Modalities

提出 Omni-Mol,一个基于多模态 LLM 的统一分子理解与生成框架,通过构建 142 万样本的指令微调数据集、Gradient Adaptive LoRA (GAL) 和 Mixture-of-GAL-Experts (MoGE) 架构,首次在单一模型中统一学习 16 个分子任务(Mol2Mol/Mol2Text/Mol2Num/Text2Mol),以仅 2.2B 参数在 13 个任务上达到 SOTA。

One Small Step with Fingerprints, One Giant Leap for De Novo Molecule Generation from Mass Spectra

通过将 MIST 作为质谱-指纹编码器、MolForge 作为指纹-结构解码器,并采用先验调整阈值策略,在 MassSpecGym 基准上实现了从质谱从头生成分子结构的十倍性能提升(top-1 准确率从 2.3% 提升至 31%)。

Pharmacophore-Guided Generative Design of Novel Drug-Like Molecules

提出一种药效团引导的分子生成框架,在强化学习模型(FREED++)的奖励函数中同时最大化药效团相似度和最小化结构相似度,生成既保留生物活性特征又具有高结构新颖性的候选药物分子。

Post Hoc Regression Refinement via Pairwise Rankings

提出 RankRefine,一种模型无关的后处理回归改进方法,通过将基础回归器的预测与基于成对排序的估计进行逆方差加权融合,在无需重训练的情况下显著降低预测误差,仅需 20 次成对比较和通用 LLM 即可实现分子性质预测中高达 10% 的 MAE 相对减少。

PRESCRIBE: Predicting Single-Cell Responses with Bayesian Estimation

提出 PRESCRIBE 框架,通过多变量深度证据回归联合建模单细胞扰动预测中的认知不确定性(模型对输入的不熟悉程度)和随机不确定性(生物系统固有的随机性),生成伪 E-distance 作为统一的不确定性代理指标,过滤不可靠预测后准确率提升 3% 以上。

Prior-Guided Flow Matching for Target-Aware Molecule Design with Learnable Atom Number

提出 PAFlow,基于流匹配框架的 3D 分子生成模型,通过蛋白-配体交互预测器引导向量场和可学习原子数预测器,在 CrossDocked2020 上实现 -8.31 Avg. Vina Score 的新 SOTA,大幅超越已有方法。

PROSPERO: Active Learning for Robust Protein Design Beyond Wild-Type Neighborhood

提出 ProSpero,一个主动学习框架,通过冻结的预训练生成模型(EvoDiff)在代理模型引导下的推理时采样、针对性掩码策略和生物约束的 SMC 采样,在代理模型可能失配的条件下仍能发现高适应性且新颖的蛋白质序列。

Protein Design with Dynamic Protein Vocabulary

提出 ProDVa 方法,将天然蛋白质片段作为"动态词汇"引入生成式蛋白质设计,通过文本编码器+蛋白质语言模型+片段编码器的三组件架构,利用不到 0.04% 的训练数据即可设计出功能对齐且结构可折叠的蛋白质序列,在 pLDDT>70 比例上超越 SOTA 模型 Pinal 达 7.38%。

Quantifying the Role of OpenFold Components in Protein Structure Prediction

本文提出系统方法评估 OpenFold/AlphaFold2 中 Evoformer 各组件对蛋白质结构预测精度的贡献,发现 MSA 列注意力和 MLP Transition 层是最关键的组件,且多个组件的重要性与蛋白质序列长度显著相关。

Random Search Neural Networks for Efficient and Expressive Graph Learning

提出随机搜索神经网络(RSNN),用随机深度优先搜索(DFS)替代随机游走来采样图结构,在稀疏图上仅需\(O(\log|V|)\)次搜索即可实现完整边覆盖,配合通用序列模型可达到通用逼近能力,在分子和蛋白质基准上以最多16倍更少的采样量持续超越RWNN。

Remasking Discrete Diffusion Models with Inference-Time Scaling

提出 ReMDM 采样器,通过在生成过程中允许已解码 token 被重新掩码(remask),赋予离散掩码扩散模型迭代纠错能力,实现推理时计算缩放,在文本、图像和分子设计任务上显著提升采样质量。

Retrosynthesis Planning via Worst-path Policy Optimisation in Tree-structured MDPs

将逆合成规划重构为树结构MDP中的最差路径(worst-path)优化问题——合成树的价值由最弱路径决定(任何一条死胡同路径将导致整棵树无效),提出InterRetro通过加权自模仿学习优化这一最差路径目标,在Retro*-190上达到100%成功率,路径长度缩短4.9%,仅需10%训练数据即达92%完整性能。

scMRDR: A Scalable and Flexible Framework for Unpaired Single-Cell Multi-Omics Data Integration

提出scMRDR框架,基于β-VAE将单细胞多组学数据的潜在表征解耦为模态共享和模态特异成分,通过等距正则化、对抗训练和掩码重建损失实现非配对多组学数据的可扩展整合。

scPilot: Large Language Model Reasoning Toward Automated Single-Cell Analysis and Discovery

提出 scPilot 框架和 scBench 基准,让LLM直接在单细胞RNA-seq数据上进行"组学原生推理"(读取标记基因→提出假设→调用工具验证→迭代修正),实现细胞类型标注准确率提升11%、轨迹推断graph-edit distance降低30%。

SpecMER: Fast Protein Generation with K-mer Guided Speculative Decoding

SpecMER 将投机解码引入蛋白质序列生成,用 K-mer 引导的批量选择策略从 draft 模型的多个候选中选取最符合进化保守性的序列供 target 模型验证,在保持分布一致性的同时实现 24-32% 加速,且生成序列的 NLL 和 pLDDT 结构置信度显著优于无引导的 baseline。

Split Gibbs Discrete Diffusion Posterior Sampling

提出 SGDD(Split Gibbs Discrete Diffusion),一种基于分裂 Gibbs 采样原理的即插即用离散扩散后验采样算法,通过引入辅助变量和基于 Hamming 距离的正则化势函数,将后验采样分解为似然采样步和先验采样步交替进行,在 DNA 序列设计、离散图像逆问题和音乐填充等任务上大幅超越基线。

Steering Generative Models with Experimental Data for Protein Fitness Optimization

系统性地评估了引导蛋白质生成模型(离散扩散模型和语言模型)进行适应度优化的各种策略,发现使用少量标注数据(~200条)的即插即用引导方法(特别是 DAPS)优于基于 RL 的微调方法,并提出了集成不确定性的 Thompson 采样策略用于自适应优化。

Towards Multiscale Graph-based Protein Learning with Geometric Secondary Structural Motifs

提出SSHG(Secondary Structure-based Hierarchical Graph)框架,基于蛋白质二级结构motif构建两级层次化图表示(残基级内部图+motif级全局图),用两阶段GNN分别学习局部和全局特征,理论证明保持最大表达力的同时在酶分类和配体亲和力预测上同时提升精度和降低计算成本。

Towards Unified and Lossless Latent Space for 3D Molecular Latent Diffusion Modeling

提出 UAE-3D,一种多模态变分自编码器,将3D分子的原子类型、化学键和3D坐标压缩到统一的近无损潜在空间中,消除了处理多模态和等变性的复杂性,使通用 Diffusion Transformer 即可实现 SOTA 的3D分子生成。

Uncertainty-Aware Multi-Objective Reinforcement Learning-Guided Diffusion Models for 3D De Novo Molecular Design

提出不确定性感知的多目标强化学习框架,引导 3D 分子扩散模型(EDM)同时优化药物相关性(QED)、合成可及性(SAS)和结合亲和力(binding affinity),通过代理模型的预测不确定性动态塑造奖励函数,在三个基准数据集上一致超越基线,并通过分子动力学模拟和 ADMET 验证候选分子的药物潜力。

Uncertainty-Guided Model Selection for Tabular Foundation Models in Biomolecule Efficacy Prediction

本文提出OligoICP方法,利用TabPFN模型的预测分位数间距(IQR)作为无标签模型选择启发式指标,在siRNA敲低效率预测中实现了优于专用SOTA模型和朴素集成的性能。

Understanding and Enhancing Mask-Based Pretraining towards Universal Representations

用高维线性回归理论精确刻画了 mask-based pretraining 中掩码率对测试风险的影响(偏差-方差分解),揭示了最优掩码率依赖于任务和模型大小,并据此提出 R2MAE(随机随机掩码),在视觉、语言、DNA、单细胞模型上一致超越固定掩码率。

Unified All-Atom Molecule Generation with Neural Fields

提出 FuncBind 框架,利用神经场(Neural Fields)将分子表示为连续原子密度函数,构建统一的条件生成模型,能够同时处理小分子、大环肽和抗体 CDR 环三种药物模态的靶标条件生成。

UniSite: The First Cross-Structure Dataset and Learning Framework for End-to-End Ligand Binding Site Detection

提出首个以UniProt(唯一蛋白质)为中心的配体结合位点数据集UniSite-DS,以及首个端到端的结合位点检测框架UniSite,通过集合预测损失和双射匹配直接预测多个可能重叠的结合位点,同时引入IoU-based AP作为更准确的评估指标。

Variational Regularized Unbalanced Optimal Transport: Single Network, Least Action

提出 Var-RUOT,通过将正则化非平衡最优传输(RUOT)问题的最优性必要条件融入参数化和损失设计,仅需学习单个标量场即可求解 RUOT,获得更低作用量的解并提升训练稳定性;同时分析了增长惩罚函数对生物先验的影响。

Why Masking Diffusion Works: Condition on the Jump Schedule for Improved Discrete Diffusion

揭示了掩码扩散模型优越性的根本原因——它内建了已知的跳转时间分布,由此提出Schedule-Conditioned Diffusion (SCUD)框架,将此优势推广到任何离散扩散模型,结合结构化前向过程在图像和蛋白质数据上超越掩码扩散。