Structure-Aware Fusion with Progressive Injection for Multimodal Molecular Representation Learning¶
会议: NeurIPS 2025
arXiv: 2510.23640
代码: 有
领域: 多模态学习 / 分子表示
关键词: 分子表示学习, 多模态融合, 状态空间模型, 3D构象, 渐进注入
一句话总结¶
提出 MuMo 框架,通过结构化融合管线(SFP)将 2D 拓扑和 3D 几何统一为稳定的结构先验,并通过渐进注入(PI)机制非对称地将该先验整合到序列流中,在 29 个分子性质预测任务中平均超过最佳基线 2.7%,在 22 个任务上排名第一。
研究背景与动机¶
分子表示学习是药物发现和材料科学的基础任务。分子数据自然具有多种表示形态: - 1D: SMILES 序列(字符串表示) - 2D: 分子图(原子-键拓扑) - 3D: 空间构象(原子 3D 坐标)
多模态分子模型旨在融合这些信息以获得更丰富的表示。然而,现有方法面临两个核心问题:
-
3D 构象不可靠: 分子的 3D 构象通常由 RDKit 等工具生成(非实验测定),存在噪声和不确定性。直接依赖 3D 构象进行融合会引入不稳定性。
-
模态坍塌(Modality Collapse): 朴素的融合策略(如简单拼接、平均)容易导致一种模态主导,另一种模态的信息被忽略。这在分子领域尤为严重,因为不同模态的信息密度和可靠性差异很大。
方法详解¶
整体框架¶
MuMo 的设计分为三个核心模块:
- 序列编码器: 使用状态空间模型(SSM,如 Mamba)处理 SMILES 序列,捕获长程依赖
- 结构化融合管线(SFP): 融合 2D 拓扑和 3D 几何为统一的结构先验
- 渐进注入(PI): 将结构先验逐层注入序列编码器
关键设计¶
结构化融合管线(Structured Fusion Pipeline, SFP):
SFP 的目标是将 2D 和 3D 信息融合为一个稳定的结构先验,而不是直接使用不可靠的 3D 构象:
- 2D 编码: 使用 GNN(图神经网络)提取分子图特征,包括原子特征和键特征
- 3D 编码: 使用几何感知的网络(如 SchNet/GemNet 风格)提取 3D 空间特征
- 融合: 通过注意力机制将 2D 拓扑信息作为"锚点",3D 几何信息作为"增强",生成稳定的结构先验 \(\mathbf{S}\)
关键思想:2D 拓扑是确定性的(由分子式决定),因此将其作为融合的基础可以降低 3D 噪声的影响。
渐进注入(Progressive Injection, PI):
为避免模态坍塌,PI 采用非对称融合策略:
- 主流(Main Stream): 序列模型(Mamba)处理 SMILES,保持其独立的表示能力
- 注入方式: 在序列模型的每一层,通过交叉注意力或门控机制将结构先验 \(\mathbf{S}\) 注入
- 渐进性: 浅层注入少量结构信息,深层注入更多,使模型逐步整合多模态信息
- 非对称性: 结构先验增强序列表示,但序列信息不回传到结构编码器,避免相互干扰
其中 \(\lambda_l\) 随层数增加而增大,实现渐进注入。
损失函数 / 训练策略¶
根据下游任务选择损失函数: - 分类任务: 交叉熵损失 - 回归任务: MSE / MAE 损失 - 端到端训练,无需预训练阶段
实验关键数据¶
主实验¶
在 Therapeutics Data Commons (TDC) 和 MoleculeNet 的 29 个基准任务上评估。
TDC 任务(ADMET 性质预测):
| 方法 | Caco2 ↑ | HIA ↑ | BBB ↑ | LD50 ↑ | CYP2D6 ↑ | 平均排名 |
|---|---|---|---|---|---|---|
| Uni-Mol | 0.672 | 0.823 | 0.891 | 0.615 | 0.852 | 3.2 |
| 3D-MoLM | 0.681 | 0.831 | 0.885 | 0.623 | 0.845 | 3.8 |
| MoleculeSTM | 0.665 | 0.818 | 0.878 | 0.605 | 0.839 | 4.5 |
| GEM | 0.658 | 0.812 | 0.872 | 0.598 | 0.832 | 5.1 |
| MuMo | 0.695 | 0.845 | 0.903 | 0.782 | 0.868 | 1.4 |
MuMo 在 LD50 任务上取得了 27% 的显著提升(0.615 → 0.782),并在 22/29 个任务中排名第一。
MoleculeNet 任务(分类/回归):
| 方法 | BBBP (AUC) | BACE (AUC) | Tox21 (AUC) | ESOL (RMSE↓) | FreeSolv (RMSE↓) |
|---|---|---|---|---|---|
| GROVER | 0.940 | 0.826 | 0.743 | 0.831 | 2.176 |
| MolCLR | 0.932 | 0.819 | 0.738 | 0.845 | 2.238 |
| Uni-Mol | 0.945 | 0.835 | 0.751 | 0.788 | 1.923 |
| MuMo | 0.958 | 0.852 | 0.769 | 0.712 | 1.685 |
消融实验¶
组件消融(在 TDC 基准上的平均性能):
| 配置 | 平均 AUC/R² | vs. Full |
|---|---|---|
| MuMo Full | 0.812 | — |
| 去除 PI (直接拼接) | 0.785 | -2.7% |
| 去除 SFP (仅 3D) | 0.778 | -3.4% |
| 去除 SFP (仅 2D) | 0.791 | -2.1% |
| 去除渐进性 (均匀注入) | 0.798 | -1.4% |
| 使用 Transformer 替代 SSM | 0.803 | -0.9% |
- SFP 和 PI 都是关键组件,去除任一都导致显著性能下降
- 仅使用 3D 信息(不稳定的构象)比仅使用 2D 差,验证了 3D 构象不可靠的问题
- 渐进注入优于均匀注入,说明浅层需要保持序列模型的独立性
关键发现¶
- 3D 构象噪声的影响: 直接使用 3D 构象不如 2D+3D 融合,SFP 有效缓解了这一问题
- 模态坍塌的解决: PI 的非对称设计避免了序列模态被结构模态淹没
- SSM 骨干的优势: 状态空间模型在长 SMILES 序列上优于 Transformer
- LD50 的显著提升: 27% 的改进表明 MuMo 在毒性预测等高价值任务上有特殊优势
亮点与洞察¶
- 问题意识精准: 准确识别了多模态分子学习中的两个核心痛点(3D 不可靠 + 模态坍塌)
- 设计思路清晰: SFP 解决第一个问题,PI 解决第二个问题,各自有明确的目标
- Mamba 骨干的合理选择: SMILES 序列可以很长,SSM 的线性复杂度相比 Transformer 更合适
- 全面的实验: 29 个基准任务,覆盖 ADMET 和 MoleculeNet 两大标准集
局限与展望¶
- 构象生成方法的影响: 不同的 3D 构象生成工具(RDKit vs. ETKDG vs. 力场优化)可能影响结果,但论文未充分分析
- 大分子适用性: SMILES 对于蛋白质等大分子表示能力有限
- 预训练: 未利用大规模无标注分子数据进行预训练,可能限制了泛化能力
- 可解释性: 融合后的表示缺乏化学层面的可解释性
- 多构象采样: 仅使用单一构象,而分子在实际中存在构象集合
相关工作与启发¶
- Uni-Mol: He et al. (2023) — 基于 3D 的统一分子表示学习
- 3D-MoLM: Li et al. (2024) — 3D 分子语言模型
- MoleculeSTM: Liu et al. (2023) — SMILES + 文本的多模态分子模型
- Mamba: Gu & Dao (2024) — 选择性状态空间模型
- GEM: Fang et al. (2022) — 几何增强的分子表示
评分¶
- 创新性: 4/5 — SFP + PI 的组合设计针对性强
- 技术质量: 4/5 — 29 个基准任务的全面验证
- 表达质量: 4/5 — 论文结构清晰,动机阐述充分
- 实用性: 4/5 — 开源代码,直接可用于药物发现
- 综合评分: 4/5