ICLR 2026 计算生物蛋白-配体结合分子分词片段化表示层次图网络 SE(3) 等变虚拟筛选

h-MINT: Modeling Pocket-Ligand Binding with Hierarchical Molecular Interaction Network¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=ajywV0kKXk
代码: https://github.com/Atomu2014/hmint
领域: 计算生物学 / 药物发现 / 分子表示学习
关键词: 蛋白-配体结合、分子分词、片段化表示、层次图网络、SE(3) 等变、虚拟筛选

一句话总结¶

本文提出可重叠的分子分词算法 OverlapBPE 与配套的层次分子交互网络 h-MINT，用"片段可共享原子"的多对多映射保留芳香性/手性/电荷等化学语境，在结合亲和力预测、虚拟筛选与高通量筛选上全面超越现有最优。

研究背景与动机¶

领域现状：蛋白-配体结合的精确建模是早期药物发现（亲和力预测、虚拟筛选）乃至酶工程的核心。要刻画 H 键、π-堆叠、π-阳离子等只在特定局部环境下才出现的关键相互作用，就必须有能表达分子化学环境的表示。主流做法把分子建成原子级图，再用 E(n)-等变或方向性消息传递网络处理。

现有痛点：(1) 纯原子级 token 很难学到立体化学、孤对电子、共轭体系等高阶化学语境；(2) 片段化方法（如 Principal Subgraph、预定义官能团、BRICS）虽然把局部上下文打包成粗粒度单元，但它们把分子硬切成不相交的子集，这种 naive 划分会破坏手性、芳香键完整性和离子态——而这些恰恰决定了相互作用是否成立。

核心矛盾：小分子子结构的边界本质上是模糊的、可重叠的（如萘可以看成两个共享 2 个芳香碳的苯环），但几乎所有现有层次分子网络都只支持原子到片段的 1-1 不相交映射，无法表达这种重叠。要保留芳香完整性就得允许片段重叠，可一旦重叠就产生多对多映射，现有架构又接不住。

本文目标：从表示与架构两端同时破局——既要一种能保留完整化学语境、允许片段重叠的分词方法，也要一种能处理由此产生的多对多映射、并在原子与片段两个尺度间双向流通信息的网络。

核心 idea： - 数据驱动 + 允许重叠的分词（OverlapBPE）：在 BPE 频率合并的基础上允许片段共享原子，并把电荷、芳香性、3D 构象（手性）显式写进 token 标识符。 - 支持重叠的层次等变网络（h-MINT）：用双层（atom/fragment）注意力支持多对多映射，把片段级关系展开成原子级几何边，实现跨尺度双向信息流且保持 SE(3) 等变。

方法详解¶

整体框架¶

方法分两块：先用 OverlapBPE 把分子从原子图转成允许重叠的 token 图（自下而上 BPE 合并，芳香环/键/原子作为不可拆的 basic token 保底），并在 token 标识符里编码手性、电荷与芳香态；再把"原子 + 重叠片段 + 全局节点"喂进 h-MINT，通过双层等变注意力在原子与片段两级间双向传递消息，预测亲和力或筛选得分。

flowchart TD
    A[原子图 Ga + 3D 构象] --> B[抽取 basic tokens<br/>环/键/原子不可拆]
    B --> C[频率驱动 BPE 合并<br/>允许片段共享原子]
    C --> D[token 图 Gf<br/>多对多原子-片段映射]
    D --> E[Embed: 原子类型 + ScatterMean 片段类型 + 位置]
    E --> F[KNN token 图 +<br/>token 展开为原子级几何边]
    F --> G[双层等变图注意力<br/>atom↔fragment 双向]
    G --> H[亲和力回归 / 虚拟筛选打分]

关键设计¶

1. OverlapBPE：让片段边界"模糊"以守住化学完整性。 传统片段化把分子切成不相交集合，一刀切就可能拦腰斩断芳香环或丢掉离子态。OverlapBPE 的破解思路是先固定一套 basic token——把训练集里所有单原子、键、环都纳入，并优先用环替换、再用键、最后用原子来覆盖整张图，保证 token 集合完备且最小芳香单元不被破坏；token 图 \(G^f=(V^f, E^f)\) 中"两个 token 共享原子即相连"，这正是允许重叠的关键。随后走自下而上的 BPE：枚举所有相邻 token 对 \(C=\{\mathrm{Merge}(f_i,f_j)\}\)，按训练语料频率选出最高频的 \(f^*\) 加入词表 \(\Phi_{comp}\)，并把语料中所有出现替换为超节点；注意原 token 在其所有相邻候选都被合并前不会从图中移除，这保证了重叠结构在合并中得以保留。最后用频率阈值过滤得到 \(\Phi_{final}=\{f\in\Phi_{basic}\cup\Phi_{comp}\mid \mathrm{freq}(f)>t\}\)。萘被分成两个共享 2 个芳香碳的苯环，就是这套"可重叠"机制的直接产物。

2. 把化学知识写进 token 标识符。 光有重叠还不够，化学语境要能被表示编码。OverlapBPE 在 2D 图上叠加 3D 构象信息进行分词，使每个 token 被赋予唯一的同分异构 SMILES 作为词表标识——例如 L-乳酸与 R-乳酸分别记为 C[C@H](O)C(=O)O 与 C[C@@H](O)C(=O)O，从而把手性原生地刻进词表；芳香完整性由"芳香环作为不可分 basic token + 重叠式渐进合并发现扩展共轭体系"双重保证；电荷与芳香原子则用显式标识符承载，如 [Cl-] 表示带负电的氯、[n+] 表示带正电的芳香氮。相比标准 SMILES 常常在孤立原子上省略这些细节，这套 token 把化学意义上关键的属性全部显式保留下来。

3. 层次图构建：token 级 KNN 关系展开成原子级几何边。 h-MINT 接收 pocket-ligand 对的原子 \((V^a_p,V^a_l)\)、token \((V^f_p,V^f_l)\) 与原子-token 映射 \(T\)，并为每条节点列表都补上 <global> 节点收集全局信息。嵌入层把原子类型、经 ScatterMean 聚合的片段类型、位置编码相加：\(H^0=\mathrm{Embed}(V^a)+\mathrm{ScatterMean}(\mathrm{Embed}(V^f),T_{f2a})+\mathrm{Embed}(\mathrm{Pos}(V^a))\)。在 token 级用 token 间最小原子距离 \(\mathrm{dist}(f_i,f_j)=\min_{a_s\in f_i,a_t\in f_j}\mathrm{dist}(a_s,a_t)\) 建 KNN 图（两个 global token 各自聚合 pocket/ligand 信息并互连以交换配对信息）；再把每条 token 级边 \((f_i,f_j)\) 展开成若干原子级边——对 \(f_i\) 中每个原子只连到 \(f_j\) 中的 \(k\) 个最近原子。这样同时获得邻域内短程相互作用与由 token 边桥接的长程相互作用，跨尺度信息流既灵活又受控。

4. 双层等变注意力：原子-片段双向消息传递。 这是接住多对多映射的核心算子。对一条 token 边及其展开的原子边，先算原子级交叉注意力：打分 \(S_{i,j}[a_s,a_t]=\mathrm{MLP}(Q[a_s],K[a_t],\mathrm{RBF}(D[a_s,a_t]),e_{i,j})\) 融入相对位置 RBF 与区分分子内/分子间的边类型 \(e_{i,j}\)，再对 \(a_t\in\mathrm{knn}(f_j,a_s)\) 做 Softmax 得权重 \(\alpha_{i,j}\)；token 级注意力则把同一条 token 边展开的所有原子边打分取均值 \(S_{i,j}=\frac{1}{|\mathrm{knn}(f_i,f_j)|}\sum M_{i,j}[a_s,a_t]\)，再对 \(f_j\in\mathrm{KNN}(f_i)\) Softmax 得 \(\beta_{i,j}\)。消息按 \(m_i[a_s]=\sum_{f_j}\beta_{i,j}\mathrm{MLP}(\sum_{a_t}\alpha_{i,j}[a_s,a_t]V[a_t])\) 两级加权聚合，最后 \(H^l[a_s]\leftarrow H^{l-1}[a_s]+\mathrm{ScatterMean}(m_i[a_s],T_{f2a})\) 经 ScatterMean 把信息散回多个所属片段——正是这一步天然兼容了一个原子归属多个重叠 token 的多对多结构。配合等变前馈层与等变层归一化，堆叠成一个 SE(3)-等变图 Transformer。

实验关键数据¶

主实验表格¶

PDBBind 亲和力预测（3 次运行均值）

模型	RMSE ↓	Pearson ↑	Spearman ↑
GET (前最优 bi-level)	1.430	0.586	0.575
GET-PS (主对比基线)	1.387	0.601	0.582
Ours (h-MINT)	1.295	0.640	0.625

LBA 亲和力预测

模型	RMSE ↓	Pearson ↑	Spearman ↑
LEFTNet (最优原子级)	1.343	0.610	0.598
GET-PS (最优 bi-level)	1.312	0.631	0.642
Ours	1.276	0.660	0.661

DUD-E 零样本虚拟筛选（仅用 PDBBind 训练）

模型	AUC%	BEDROC%	[email protected]%	EF@1%	EF@5%
DrugCLIP*	81.39	45.96	34.27	29.01	10.18
LigUnity*	81.69	46.01	34.44	29.07	10.26
Ours*	84.45	47.64	35.06	29.91	10.76

LIT-PCBA 上 BEDROC (6.27 vs 4.34) 与 [email protected]%/1% (7.01/5.20 vs 4.11/4.06) 显著领先，体现强早期富集能力。

消融 / 对照实验表格¶

PubChem HTS 手性消融（仅 OverlapBPE + XGBoost，logAUC[0.001,0.1]）

变体	说明	表现
Ours (non-chiral)	词表不保留立体化学	明显更低
Ours (chiral)	词表保留手性	平均排名最佳，超 ChiRo / MolKGNN

GET 三种分词变体对照（GET-Murcko/BRICS/PS）也表明：分词方式直接影响下游精度，而 OverlapBPE 优于全部预定义/PS 方案。

关键发现¶

手性信息确实重要：chiral 词表显著优于 non-chiral，且仅靠 token 化的词袋特征 + XGBoost 就能超越专为手性设计的 ChiRo、MolKGNN，训练+预测在 1 秒内完成。
化学语境保真带来更准预测：LBA 案例中 OverlapBPE 保住 [N+] 正电与苯环完整性，得以建模 π-阳离子相互作用，误差 0.56 vs PS 分词的 0.67。
零样本泛化强：仅用 PDBBind 训练即在 DUD-E/LIT-PCBA 全面领先，说明重叠分词捕捉到了可迁移的归纳偏置。

亮点与洞察¶

"模糊边界"是把握化学的关键直觉：放弃"分子必须被切成不相交块"的执念，允许片段共享原子，是同时守住芳香性与离子态的根本前提——一个反直觉但很本质的设计哲学。
表示与架构协同设计：OverlapBPE 制造的多对多映射，靠 h-MINT 的 ScatterMean 散回机制天然吸收，两者是配套而非各自为政。
轻量也能打：HTS 上不依赖深网，仅 token 词袋 + XGBoost 就超越复杂手性 GNN，说明价值主要来自表示而非模型容量。

局限与展望¶

pocket 端仍用残基作 token，未对蛋白侧也施加 OverlapBPE，蛋白-配体两侧粒度不对称的影响待探。
token 展开成原子级边会增加边数，作者用"每原子只连 k 个最近原子"控制规模，超大复合物/口袋上的可扩展性需进一步验证。
词表由训练语料频率挖掘，对训练集中罕见的新颖骨架/稀有官能团的覆盖与泛化仍是开放问题。
高通量场景下用 XGBoost 绕过 h-MINT，端到端层次模型在大规模筛选中的效率优化尚有空间。

评分¶

新颖性: ⭐⭐⭐⭐⭐ —— "允许片段重叠的分词"是对片段化范式根本假设（不相交划分）的挑战，并配套设计了支持多对多映射的等变层次网络，表示与架构双创新且自洽。
实验充分度: ⭐⭐⭐⭐ —— 覆盖亲和力预测（PDBBind/LBA）、虚拟筛选（DUD-E/LIT-PCBA）、HTS（PubChem）三类任务多个数据集，含手性消融与化学语境案例研究；蛋白侧分词、超大体系扩展性等可再补。
写作质量: ⭐⭐⭐⭐ —— 动机—矛盾—方法逻辑清晰，公式与图示完整，部分细节（位置编码表、附录算法）下放附录略增阅读跳转。
价值: ⭐⭐⭐⭐⭐ —— 直击药物发现中"化学语境保真"的核心痛点，提升明确（亲和力 +2~4%、筛选 +1~3%）且零样本泛化强，对结构基药物设计有实际意义，代码与 checkpoint 已开源。