S2Drug: Bridging Protein Sequence and 3D Structure in Contrastive Representation Learning for Virtual Screening¶
会议: AAAI 2026
arXiv: 2511.07006
代码: 有(附录中提供)
领域: 医学图像 / 药物发现 / 虚拟筛选
关键词: 虚拟筛选, 蛋白质-配体交互, 对比学习, 蛋白质序列, 3D结构, 结合位点预测, 药物发现
一句话总结¶
提出 S2Drug,一个两阶段对比学习框架,第一阶段在 ChemBL 大规模数据上用蛋白质序列-配体对比预训练(含双边数据采样策略降噪去冗),第二阶段在 PDBBind 上通过残基级门控模块融合序列与 3D 结构信息并引入结合位点预测辅助任务,在 DUD-E 和 LIT-PCBA 虚拟筛选基准上大幅超越现有方法。
研究背景与动机¶
领域现状:虚拟筛选(VS)是药物发现的核心步骤,目标是从海量化合物库中找到与靶蛋白口袋结合的小分子。现有方法分为分子对接(如 AutoDock Vina,精确但慢)和深度学习方法(如 DrugCLIP/DrugHash,用对比学习对齐蛋白-配体表示)。
现有方法的关键盲区 — 蛋白质序列被忽视: - 几乎所有主流方法都仅依赖 3D 结构信息 - 单构象原子级结构模型对输入扰动敏感,且难以应对口袋构象柔性 - 获取蛋白质 3D 结构(X-ray、Cryo-EM)成本高耗时,限制了大规模训练数据的扩展 - 而蛋白质序列数据广泛可得,且"序列决定结构,结构决定功能"是蛋白质研究的基本原则
直接使用序列的挑战: - 大规模蛋白质-配体数据集(如 ChemBL,745K 条目)存在严重的冗余和噪声 - 蛋白质侧:同源冗余、功能异构体重复 - 配体侧:亲和力测量变异性、频繁命中的非特异性化合物 - 仅用序列而丢弃结构上下文会失去关键的空间交互信息
切入角度:两阶段学习——序列预训练解决数据规模与泛化问题,结构融合微调解决空间精度问题。
方法详解¶
整体框架:两阶段对比学习¶
Stage 1: 序列预训练(ChemBL,大规模)→ Stage 2: 序列-结构融合微调(PDBBind,小规模高质量)
Stage 1: 序列模型预训练¶
双边数据采样策略(Bilateral Data Sampling)¶
从 ChemBL 的 745K 条目中清洗出高质量子集:
蛋白质侧冗余削减: 1. 同源感知降权:MMseqs2 在 40% 序列一致性阈值聚类,大族中蛋白质的采样概率降低:\(\Pr(P_n) = |C_m^{hom}|^{-\alpha}\),\(\alpha=0.5\) 2. 功能去重:基于 UniProt/GO 注释,每个功能组仅保留配体多样性最大的代表蛋白
配体侧噪声缓解: 1. 亲和力变异过滤:同一蛋白-配体对在不同实验条件下的亲和力值标准差 \(\sigma_n > 1.0\) 的去除 2. 频繁命中去除:与超过 20 个蛋白结合的配体视为非特异性化合物移除,PAINS 反应性亚结构也过滤
表示学习¶
- 序列编码器:ESM2-650M,输入氨基酸序列,Mean Pooling 得到蛋白质嵌入
- 配体结构编码器:Uni-Mol,输入 3D 构象(原子坐标+类型),Mean Pooling 得到配体嵌入
- 两个 MLP 投影到共享空间,用对称 InfoNCE 对比损失训练
Stage 2: 序列-结构融合微调¶
残基级门控融合模块¶
对每个口袋残基 \(r_i\),从序列编码器和结构编码器分别获得表示 \(x_{n,i}^s\) 和 \(x_{n,i}^g\),通过自适应门控融合:
门控权重 \(\beta\) 是学习得到的,允许模型对每个残基动态选择更有信息量的模态。融合后经两层 Transformer 再 Mean Pooling 得到最终口袋表示。
结合位点预测辅助任务¶
核心思想:口袋是散布在一级序列上、在 3D 空间中聚集形成结合腔的残基集合。预测结合位点帮助模型理解蛋白质 3D 折叠(尤其是口袋区域)。
- 采样 \(K\) 个配体探针,计算其与每个残基的注意力相关性
- 仅使用序列表示 \(x_{n,i}^s\)(避免信息泄漏),用 BCE 损失训练
总损失¶
其中 \(\mathcal{L}_{\text{fc}}\) 为融合表示的对比损失,\(\mathcal{L}_{\text{bsp}}\) 为结合位点预测损失。
实验¶
主实验:虚拟筛选性能¶
DUD-E 数据集(大规模,含 decoy):
| 方法 | AUROC | BEDROC | EF 0.5% | EF 1% | EF 5% |
|---|---|---|---|---|---|
| Glide-SP | 76.70 | 40.70 | 19.39 | 16.18 | 7.23 |
| DrugCLIP | 79.45 | 47.82 | 37.86 | 30.76 | 10.10 |
| DrugHash | 83.73 | 57.16 | 43.03 | 37.18 | 12.07 |
| S2Drug | 92.46 | 79.25 | 58.37 | 43.06 | 18.82 |
S2Drug 在 AUROC 上超过 DrugHash 8.73 个点、超过 DrugCLIP 13.01 个点。
LIT-PCBA 数据集(更真实的筛选场景):
| 方法 | AUROC | BEDROC | EF 0.5% | EF 1% |
|---|---|---|---|---|
| DrugCLIP | 56.36 | 6.78 | 7.77 | 5.66 |
| DrugHash | 54.58 | 7.14 | 9.65 | 6.14 |
| S2Drug | 58.23 | 8.69 | 11.44 | 7.38 |
同源排除实验(泛化性评估)¶
在不同序列一致性阈值(90%/60%/30%/HMM)下排除训练-测试重叠: - S2Drug 在所有阈值下均大幅优于 DrugCLIP - 即使在 90% 和 60% 阈值下,S2Drug 仍优于 DrugHash/DrugCLIP 在无排除设置下的性能 - 证明双边数据采样有效减少了过拟合和冗余依赖
消融实验¶
| 变体 | DUD-E AUROC | LIT-PCBA AUROC |
|---|---|---|
| - BDS(去双边采样) | 88.73 | 56.12 |
| - SSF(去序列-结构融合) | 87.92 | 55.03 |
| - BSP(去结合位点预测) | 89.58 | 56.47 |
| S2Drug | 92.46 | 58.23 |
- 移除序列-结构融合 (SSF) 影响最大:AUROC 下降 4.54/3.20
- 双边数据采样 (BDS) 的贡献也很显著:3.73/2.11
- 结合位点预测辅助任务 (BSP) 提供约 2.88/1.76 的提升
结合位点预测¶
在 HOLO4K、COACH420、ASD 三个基准上,S2Drug 也展现了有竞争力的结合位点预测性能,验证了辅助任务的有效性。
亮点与洞察¶
- "序列决定结构,结构决定功能"原则的实践化:首次系统性将蛋白质序列引入虚拟筛选的对比表示学习
- 双边数据采样策略精妙:同源降权+功能去重+亲和力过滤+频繁命中去除,四管齐下解决 ChemBL 的数据质量问题
- 残基级门控融合:允许每个残基动态选择更依赖序列还是结构信息,比简单拼接或加权求和更灵活
- 辅助任务设计有生物学洞察:结合位点是序列上散布但空间聚集的残基,预测它帮助模型理解 3D 折叠
- 在严格同源排除下仍显著领先,表明模型真正学到了蛋白质-配体交互的底层规律而非记忆同源模式
局限性¶
- 两阶段训练较复杂,预训练阶段在 ChemBL 上需 8×A6000 GPU
- 第二阶段微调数据集 PDBBind 规模有限(~19K 条目),可能限制了融合模块的学习
- 结合位点预测辅助任务需要真实结合位点标注,对无标注蛋白不适用
- LIT-PCBA 上的 AUROC 绝对值仍偏低(58.23),说明更真实的筛选场景仍极具挑战
- 未讨论计算成本(ESM2-650M + Uni-Mol 的推理延迟对大规模筛选的影响)
相关工作¶
- 虚拟筛选:分子对接(Glide-SP/Vina)、回归(DeepDTA/Planet)、分类(OnionNet-2)、检索(DrugCLIP/DrugHash)
- 蛋白质表示学习:ESM2(序列)、UniMol(结构),近期趋势是序列+结构协同(SaProt, ESMFold)
- 对比学习在药物发现:DrugCLIP 首创检索范式,DrugHash 引入哈希加速
评分 ⭐⭐⭐⭐¶
- 创新性:⭐⭐⭐⭐ — 两阶段学习 + 双边数据采样 + 残基门控融合的组合新颖
- 实验:⭐⭐⭐⭐⭐ — DUD-E + LIT-PCBA + 同源排除 + 结合位点预测,全面且严格
- 写作:⭐⭐⭐⭐ — 方法描述清楚,数学符号规范
- 实用性:⭐⭐⭐⭐ — 对药物发现有直接应用价值,代码开源