AAAI 2026 医学图像虚拟筛选蛋白质-配体交互对比学习蛋白质序列 3D结构结合位点预测药物发现

S2Drug: Bridging Protein Sequence and 3D Structure in Contrastive Representation Learning for Virtual Screening¶

会议: AAAI 2026
arXiv: 2511.07006
代码: 有（附录中提供）
领域: 医学图像 / 药物发现 / 虚拟筛选
关键词: 虚拟筛选, 蛋白质-配体交互, 对比学习, 蛋白质序列, 3D结构, 结合位点预测, 药物发现

一句话总结¶

提出 S2Drug，一个两阶段对比学习框架，第一阶段在 ChemBL 大规模数据上用蛋白质序列-配体对比预训练（含双边数据采样策略降噪去冗），第二阶段在 PDBBind 上通过残基级门控模块融合序列与 3D 结构信息并引入结合位点预测辅助任务，在 DUD-E 和 LIT-PCBA 虚拟筛选基准上大幅超越现有方法。

研究背景与动机¶

领域现状：虚拟筛选（VS）是药物发现的核心步骤，目标是从海量化合物库中找到与靶蛋白口袋结合的小分子。现有方法分为分子对接（如 AutoDock Vina，精确但慢）和深度学习方法（如 DrugCLIP/DrugHash，用对比学习对齐蛋白-配体表示）。

现有方法的关键盲区 — 蛋白质序列被忽视： - 几乎所有主流方法都仅依赖 3D 结构信息 - 单构象原子级结构模型对输入扰动敏感，且难以应对口袋构象柔性 - 获取蛋白质 3D 结构（X-ray、Cryo-EM）成本高耗时，限制了大规模训练数据的扩展 - 而蛋白质序列数据广泛可得，且"序列决定结构，结构决定功能"是蛋白质研究的基本原则

直接使用序列的挑战： - 大规模蛋白质-配体数据集（如 ChemBL，745K 条目）存在严重的冗余和噪声 - 蛋白质侧：同源冗余、功能异构体重复 - 配体侧：亲和力测量变异性、频繁命中的非特异性化合物 - 仅用序列而丢弃结构上下文会失去关键的空间交互信息

切入角度：两阶段学习——序列预训练解决数据规模与泛化问题，结构融合微调解决空间精度问题。

方法详解¶

整体框架：两阶段对比学习¶

Stage 1: 序列预训练（ChemBL，大规模）→ Stage 2: 序列-结构融合微调（PDBBind，小规模高质量）

Stage 1: 序列模型预训练¶

双边数据采样策略（Bilateral Data Sampling）¶

从 ChemBL 的 745K 条目中清洗出高质量子集：

蛋白质侧冗余削减： 1. 同源感知降权：MMseqs2 在 40% 序列一致性阈值聚类，大族中蛋白质的采样概率降低：$\Pr(P_n) = |C_m^{hom}|^{-\alpha}$，$\alpha=0.5$ 2. 功能去重：基于 UniProt/GO 注释，每个功能组仅保留配体多样性最大的代表蛋白

配体侧噪声缓解： 1. 亲和力变异过滤：同一蛋白-配体对在不同实验条件下的亲和力值标准差 $\sigma_n > 1.0$ 的去除 2. 频繁命中去除：与超过 20 个蛋白结合的配体视为非特异性化合物移除，PAINS 反应性亚结构也过滤

表示学习¶

序列编码器：ESM2-650M，输入氨基酸序列，Mean Pooling 得到蛋白质嵌入
配体结构编码器：Uni-Mol，输入 3D 构象（原子坐标+类型），Mean Pooling 得到配体嵌入
两个 MLP 投影到共享空间，用对称 InfoNCE 对比损失训练

Stage 2: 序列-结构融合微调¶

残基级门控融合模块¶

对每个口袋残基 $r_i$，从序列编码器和结构编码器分别获得表示 $x_{n,i}^s$ 和 $x_{n,i}^g$，通过自适应门控融合：

\[\beta_{n,i} = \sigma(W_\beta^\top [W_s x_{n,i}^s; W_g x_{n,i}^g] + b_\beta)$$ $$x_{n,i}^f = \beta_{n,i} \cdot W_s x_{n,i}^s + (1-\beta_{n,i}) \cdot W_g x_{n,i}^g\]

门控权重 $\beta$ 是学习得到的，允许模型对每个残基动态选择更有信息量的模态。融合后经两层 Transformer 再 Mean Pooling 得到最终口袋表示。

结合位点预测辅助任务¶

核心思想：口袋是散布在一级序列上、在 3D 空间中聚集形成结合腔的残基集合。预测结合位点帮助模型理解蛋白质 3D 折叠（尤其是口袋区域）。

采样 $K$ 个配体探针，计算其与每个残基的注意力相关性
仅使用序列表示 $x_{n,i}^s$（避免信息泄漏），用 BCE 损失训练

总损失¶

\[\mathcal{L}_{\text{total}} = \mathcal{L}_{\text{fc}} + \lambda \cdot \mathcal{L}_{\text{bsp}}\]

其中 $\mathcal{L}_{\text{fc}}$ 为融合表示的对比损失，$\mathcal{L}_{\text{bsp}}$ 为结合位点预测损失。

实验¶

主实验：虚拟筛选性能¶

DUD-E 数据集（大规模，含 decoy）：

方法	AUROC	BEDROC	EF 0.5%	EF 1%	EF 5%
Glide-SP	76.70	40.70	19.39	16.18	7.23
DrugCLIP	79.45	47.82	37.86	30.76	10.10
DrugHash	83.73	57.16	43.03	37.18	12.07
S2Drug	92.46	79.25	58.37	43.06	18.82

S2Drug 在 AUROC 上超过 DrugHash 8.73 个点、超过 DrugCLIP 13.01 个点。

LIT-PCBA 数据集（更真实的筛选场景）：

方法	AUROC	BEDROC	EF 0.5%	EF 1%
DrugCLIP	56.36	6.78	7.77	5.66
DrugHash	54.58	7.14	9.65	6.14
S2Drug	58.23	8.69	11.44	7.38

同源排除实验（泛化性评估）¶

在不同序列一致性阈值（90%/60%/30%/HMM）下排除训练-测试重叠： - S2Drug 在所有阈值下均大幅优于 DrugCLIP - 即使在 90% 和 60% 阈值下，S2Drug 仍优于 DrugHash/DrugCLIP 在无排除设置下的性能 - 证明双边数据采样有效减少了过拟合和冗余依赖

消融实验¶

变体	DUD-E AUROC	LIT-PCBA AUROC
- BDS（去双边采样）	88.73	56.12
- SSF（去序列-结构融合）	87.92	55.03
- BSP（去结合位点预测）	89.58	56.47
S2Drug	92.46	58.23

移除序列-结构融合 (SSF) 影响最大：AUROC 下降 4.54/3.20
双边数据采样 (BDS) 的贡献也很显著：3.73/2.11
结合位点预测辅助任务 (BSP) 提供约 2.88/1.76 的提升

结合位点预测¶

在 HOLO4K、COACH420、ASD 三个基准上，S2Drug 也展现了有竞争力的结合位点预测性能，验证了辅助任务的有效性。

亮点与洞察¶

"序列决定结构，结构决定功能"原则的实践化：首次系统性将蛋白质序列引入虚拟筛选的对比表示学习
双边数据采样策略精妙：同源降权+功能去重+亲和力过滤+频繁命中去除，四管齐下解决 ChemBL 的数据质量问题
残基级门控融合：允许每个残基动态选择更依赖序列还是结构信息，比简单拼接或加权求和更灵活
辅助任务设计有生物学洞察：结合位点是序列上散布但空间聚集的残基，预测它帮助模型理解 3D 折叠
在严格同源排除下仍显著领先，表明模型真正学到了蛋白质-配体交互的底层规律而非记忆同源模式

局限性¶

两阶段训练较复杂，预训练阶段在 ChemBL 上需 8×A6000 GPU
第二阶段微调数据集 PDBBind 规模有限（~19K 条目），可能限制了融合模块的学习
结合位点预测辅助任务需要真实结合位点标注，对无标注蛋白不适用
LIT-PCBA 上的 AUROC 绝对值仍偏低（58.23），说明更真实的筛选场景仍极具挑战
未讨论计算成本（ESM2-650M + Uni-Mol 的推理延迟对大规模筛选的影响）

评分 ⭐⭐⭐⭐¶

创新性：⭐⭐⭐⭐ — 两阶段学习 + 双边数据采样 + 残基门控融合的组合新颖
实验：⭐⭐⭐⭐⭐ — DUD-E + LIT-PCBA + 同源排除 + 结合位点预测，全面且严格
写作：⭐⭐⭐⭐ — 方法描述清楚，数学符号规范
实用性：⭐⭐⭐⭐ — 对药物发现有直接应用价值，代码开源