Generative Modeling of Full-Atom Protein Conformations using Latent Diffusion on Graph Embeddings¶
会议: NeurIPS 2025
arXiv: 2506.17064
代码: 有(开源)
领域: 医学图像
关键词: 蛋白质构象生成, 潜在扩散, 图神经网络, 全原子建模, GPCR
arXiv: 2506.17064
代码: 无
领域: 医学图像
一句话总结¶
提出 LD-FPG 框架,使用 Chebyshev 图神经网络将蛋白质全原子 MD 轨迹编码到低维潜在空间,再用 DDPM 在该空间中生成新的构象集合体(ensemble),首次实现了包含侧链所有重原子的蛋白质构象生成。
研究背景与动机¶
领域现状:蛋白质功能依赖于不同构象状态之间的动态转换。AlphaFold2等方法主要预测单一静态构象,无法捕捉功能性构象多样性。
现有痛点:现有生成模型要么只生成骨架(无侧链),要么只能产生粗粒度表示,要么局限于从头设计而非特定蛋白质的构象采样。关键的侧链重排往往决定了分子识别和催化机制。
核心矛盾:生成全原子(包括每个侧链重原子)的构象集合的需求 vs 已有方法的能力缺口——尤其是对于 GPCR 这类在膜环境中具有复杂动力学的蛋白质。
本文目标:从已有的分子动力学(MD)模拟数据中学习并生成特定蛋白质(如多巴胺 D2 受体)的高保真全原子构象集合。
切入角度:不模拟新的MD轨迹,而是学习MD数据的潜在表示——将构象建模为相对于参考结构的变形(deformation)。
核心 idea:用 ChebNet 编码、池化压缩、DDPM采样、条件解码的四阶段流水线,在紧凑的潜在空间中生成全原子构象。
方法详解¶
整体框架(图1)¶
- ChebNet编码:将MD帧的全原子坐标编码为逐原子潜在嵌入 \(Z^{(t)} \in \mathbb{R}^{N \times d_z}\)
- 池化压缩:将高维 \(Z^{(t)}\) 池化为紧凑的潜在向量 \(\mathbf{h}_0\)(约60-1100维)
- DDPM生成:在池化后的潜在空间中训练DDPM,生成 \(\mathbf{h}_0^{\text{gen}}\)
- 条件解码:以参考结构的潜在表示 \(Z_{\text{ref}}\) 为条件,从 \(\mathbf{h}_0^{\text{gen}}\) 解码回全原子坐标
关键设计 1:ChebNet 多跳编码¶
- 功能:将每帧的Kabsch对齐后的原子坐标映射到潜在嵌入。
- 核心思路:使用4层 Chebyshev 图卷积(\(K=4\) 阶多项式): $\(H^{(l+1)} = \sigma\left(\sum_{k=0}^{K-1} \Theta_k^{(l)} T_k(\tilde{L}) H^{(l)}\right)\)$ 构建 \(k\)-NN 图(\(k=4\)),每层后接 BatchNorm,最终输出 \(L_2\) 归一化。
- 设计动机:光谱图卷积能捕获多跳原子间关系,不依赖全局注意力即可编码局部几何。
- 条件机制:使用冻结的预训练编码器生成参考结构嵌入 \(C = Z_{\text{ref}}\),比直接以原始坐标为条件效果更好。
关键设计 2:三种池化策略¶
| 策略 | 描述 | \(d_z\) | 潜在维度 |
|---|---|---|---|
| Blind pooling | 全局自适应平均池化所有N个原子 | 16 | ~100 |
| Sequential pooling | 先解码骨架,再以骨架信息为条件解码侧链 | 8 | ~100 |
| Residue pooling | 按残基分别池化,每个残基独立描述 | 4 | \(N_{\text{res}} \times d_p \approx 1100\) |
- 设计动机:高维 \(Z^{(t)}\)(D2R: 最高35K维)直接输入DDPM不可行,必须压缩。\(d_p > 200-300\) 妨碍扩散训练,\(d_p < 50\) 损失重构质量。
关键设计 3:扩散与损失函数¶
- DDPM损失:\(\mathcal{L}_{\text{diffusion}}(\theta) = \mathbb{E}_{t,\mathbf{h}_0,\epsilon}[\|\epsilon - \epsilon_\theta(\sqrt{\bar{\alpha}_t}\mathbf{h}_0 + \sqrt{1-\bar{\alpha}_t}\epsilon, t)\|^2]\)
- 解码器损失:Blind和Residue用 \(\mathcal{L}_{\text{coord}}\)(坐标MSE),Sequential分阶段用 \(\mathcal{L}_{\text{BB}}\) 和 \(\mathcal{L}_{\text{SC}}\)
- 可选的二面角微调:\(\mathcal{L}_{\text{Dec}} = w_{\text{base}}\mathcal{L}_{\text{coord}} + \lambda_{\text{mse}}\mathcal{L}_{\text{mse\_dih}} + \lambda_{\text{div}}\mathcal{L}_{\text{div\_dih}}\)
实验关键数据¶
解码器重构性能(Table 1)¶
| Decoder | lDDT\(_{\text{All}}\) ↑ | lDDT\(_{\text{BB}}\) ↑ | \(\sum\)JSD\(_{\text{bb}}\) ↓ | \(\sum\)JSD\(_{\text{sc}}\) ↓ | MSE\(_{\text{sc}}\) ↓ |
|---|---|---|---|---|---|
| Blind (dz=16) | 0.714 | 0.792 | 0.0032 | 0.0290 | 0.3934 |
| Sequential (dz=8) | 0.718 | 0.800 | 0.0026 | 0.0192 | 0.5130 |
| Residue (dz=4) | 0.704 | 0.777 | 0.0078 | 0.0125 | 0.2257 |
| Ground Truth (MD) Ref | 0.698 | 0.779 | - | - | - |
扩散生成性能(Table 2)¶
| Model | lDDT\(_{\text{All}}\) ↑ | \(\sum\)JSD\(_{\text{bb}}\) ↓ | \(\sum\)JSD\(_{\text{sc}}\) ↓ | Avg. Clashes ↓ |
|---|---|---|---|---|
| Blind pooling | 0.719 | 0.006582 | 0.04185 | 1350.5 |
| Sequential pooling | 0.712 | 0.0029 | 0.02895 | 1220.5 |
| Residue pooling | 0.688 | 0.0117 | 0.0224 | 1145.6 |
| MD reference | ~0.698 | - | - | ~1023 |
消融实验¶
- ChebNet 编码保真度:dz=16时重构 MSE\(_{\text{bb}}\)=0.0008,JSD~0.00016,建立了保真度上界
- 二面角微调:对Blind策略仅微弱改善JSD,同时略微降低lDDT
- BioEmu对比:通用MD模型BioEmu生成的A100分布(mean=-17.19)与D2R-MD参考(mean≈-47.5)严重偏离
关键发现¶
- 三种池化策略各有所长:Blind优于全局保真度,Sequential在骨架几何上最佳,Residue在侧链旋转异构体和碰撞数量上最优
- Residue pooling 虽然全局骨架指标稍逊,但在A100构象景观覆盖上最完整(多epoch采样后),这得益于其更大的有效潜在空间(~1.1K维)
- 生成结构的碰撞数(1145-1350)仍高于MD参考(~1023),这是当前主要局限
亮点与洞察¶
- 首次全原子构象生成:据作者所知,这是第一个专门为全原子蛋白质构象集合生成设计的潜在扩散框架
- 参考结构变形建模:将生成重定义为相对于参考结构的变形学习,大大简化了生成任务
- Residue pooling 的设计直觉:按残基分池的策略让每个残基有独立的变形描述符,这与蛋白质化学的基本单位(氨基酸残基)自然对应
- 对比 BioEmu 的分析有说服力:通用模型在特定膜蛋白功能态采样上严重不足,凸显了系统特异性方法的必要性
局限与展望¶
- 碰撞问题:生成结构的原子碰撞数显著高于MD参考,需要引入轻量级能量代理或物理约束
- Residue pooling 依赖多epoch采样:需要聚合不同DDPM训练阶段的样本才能获得完整的构象多样性
- 单一系统验证:仅在D2R(一种GPCR)上验证,泛化到其他蛋白质体系需要进一步工作
- 无等变性:ChebNet不天然保证SE(3)等变性,虽然Kabsch对齐缓解了这一问题
- 池化信息损失:从35K维到~100维的激进压缩不可避免地损失了细节,更大的 \(d_p\) 值需要更多训练数据
相关工作与启发¶
- 与 AlphaFlow/ESMFlow 的区别:后者通过扰动静态预测来采样,LD-FPG直接从MD数据学习系统特异性的构象分布
- 与 LatentDiff 的互补:LatentDiff生成新的蛋白质骨架折叠,LD-FPG生成已知蛋白的构象集合
- 对药物发现的意义:GPCR是约50%上市药物的靶点,准确的构象景观建模可加速变构位点发现和药物设计
评分¶
⭐⭐⭐⭐ (4/5)
填补了全原子蛋白质构象生成的重要空白。框架设计合理,三种池化策略的系统比较提供了有价值的设计指导。主要不足是碰撞问题、单系统验证和多epoch采样需求。