跳转至

Breaking the Modality Barrier: Generative Modeling for Accurate Molecule Retrieval from Mass Spectra

会议: AAAI 2026
arXiv: 2511.06259
代码: 无
领域: 跨模态检索 / 生成式语言模型
关键词: 质谱分析, 分子检索, 跨模态对齐, 生成式检索, 对比学习

一句话总结

提出 GLMR 两阶段框架(对比学习预检索 + 生成式语言模型重排),通过生成与输入质谱对齐的分子结构将跨模态检索转化为单模态检索,在 MassSpecGym 上 Recall@1 提升超 40%。

研究背景与动机

串联质谱(MS/MS)是分子结构鉴定的核心工具,从质谱中检索匹配的分子结构是代谢组学、药物开发等领域的基础步骤。现有方法面临两大瓶颈:

谱库匹配法:传统方法将实验质谱与已知化合物的参考谱进行比对,但受限于谱库覆盖范围有限,无法处理谱库外的化合物。

跨模态表示学习:近年深度学习方法(如 MIST、JESTR)将质谱和分子结构编码到共享潜空间进行检索,但质谱描述的是物理碎裂行为,分子结构描述的是化学结构信息,两者属于本质不同的模态,导致模态不对齐问题严重。当前 SOTA 方法 JESTR 在 MassSpecGym 上 top-1 准确率不到 20%。

核心洞察:与其直接在两个模态间做硬对齐,不如通过生成模型生成一个与输入质谱对齐的分子,将跨模态检索转化为分子-分子的单模态检索。

方法详解

整体框架

GLMR 采用两阶段检索策略:

  • Pre-Retrieval(预检索):通过对比学习训练质谱编码器和分子编码器,从候选库中检索 top-K 候选分子作为上下文先验。
  • Generative Retrieval(生成式检索):将候选分子和输入质谱特征融合后,指导生成式语言模型产生精炼的分子结构,再基于分子相似度对候选集重排。

关键设计

1. 跨模态对比学习(Pre-Retrieval)

分子编码器:采用 ChemFormer(BART 变体,在 ZINC 数据库上预训练),输入 SMILES 序列,使用 [CLS] token 的隐状态作为全局分子嵌入 \(\mathbf{E}^m\)

质谱编码器:使用 Transformer + 多头注意力。与 JESTR/CMSSP 的分桶策略不同,本文将每个质谱表示为 (m/z, intensity) 元组序列,intensity 归一化到 (0,1],最终通过平均池化得到固定大小表示 \(\mathbf{E}^s\)

训练目标:双路 Info-NCE 损失,遵循 CLIP 框架。mol2ms 方向通过对谱峰施加随机强度扰动构建 N 个负样本,ms2mol 方向从同批次其他分子中采样 M 个负样本。温度系数 τ 控制相似度分布的锐度。检索时按余弦相似度排序,选 top-K 候选分子进入下一阶段。

2. 上下文感知的生成式检索(Generative Retrieval)

Cross-Fusion 模块:引入交叉注意力机制融合质谱特征 \(\mathbf{H}^s\) 和 top-K 候选分子特征 \(\mathbf{H}^m_K\)。以质谱为 Query、候选分子为 Key/Value,使模型能选择性地关注信息量最大的候选分子。训练时质谱编码器和分子编码器冻结,仅更新融合模块和解码器。

ChemFormer Decoder:自回归地生成 SMILES 字符串,训练目标为最大化条件似然。

重排机制:将生成的分子编码为 \(\mathbf{E}^m_+\),计算其与每个候选分子嵌入的余弦相似度进行重排,将跨模态检索完全转化为单模态比较。

损失函数 / 训练策略

  • 阶段一:对比学习 300 epochs,冻结分子编码器(ChemFormer 预训练权重),仅更新质谱编码器
  • 阶段二:生成训练 30 epochs,冻结两个编码器,仅更新 Cross-Fusion 模块和 ChemFormer 解码器
  • 预检索候选数 K=40(消融实验发现 K>40 后收益边际递减)

实验关键数据

主实验

表1:MassSpecGym 检索性能

检索库类型 方法 Recall@1 Recall@5 MRR MCES@1↓
Weight-based JESTR 17.62 40.36 29.12 15.82
Weight-based MIST 18.46 40.01 29.30 15.37
Weight-based GLMR 64.17 72.96 67.82 11.14
Formula-based JESTR 11.77 33.26 22.83 11.73
Formula-based GLMR 68.48 78.09 72.47 5.05

GLMR 在 Weight-based 库上 Recall@1 比 JESTR 提升约 46 个百分点

表2:MassRET-20k 零样本迁移

检索库类型 方法 Recall@1 Recall@5 MRR
Weight-based JESTR 16.49 38.45 27.45
Weight-based GLMR 54.04 64.35 58.84
Formula-based JESTR 7.44 23.31 16.28
Formula-based GLMR 51.14 60.06 55.57

消融实验

两阶段贡献消融(Weight-based)

配置 Recall@1 MRR
仅 Pre-retrieval 20.34 32.19
仅 Generative retrieval 41.50 49.71
完整 GLMR 64.17 67.82

单独使用生成式检索已优于预检索,两阶段结合效果最佳。

关键发现

  1. 模态差距可视化:通过 KDE 分析,生成检索后模态差距分布显著左移,验证了生成分子有效桥接了质谱-分子的模态鸿沟。
  2. 生成质量:生成模型在 MCES 上排第二(仅次于 DiffMS),化学结构合理性有保障。
  3. K值敏感性:K>40 后性能趋于饱和。

亮点与洞察

  • 范式突破:将跨模态检索通过生成建模转化为单模态检索,思路可推广到其他跨模态场景。
  • 两阶段互补设计:预检索提供上下文先验,生成式检索利用先验进一步精炼。
  • 新基准 MassRET-20k:12 种离子化加合物、完整碰撞能量元数据,更贴近真实场景。

局限与展望

  1. 生成阶段需对 K=40 个候选编码+融合+解码,推理成本较高。
  2. 生成的 SMILES 可能化学无效,未引入显式化学约束。
  3. 仅在正离子模式下评估,负离子模式泛化性未验证。

相关工作与启发

  • 与 CLIP 类方法(MIST、JESTR)相比,GLMR 创新在于不止做对齐还做生成来弥补对齐能力不足。
  • 生成式检索思路可推广到其他模态差距大的检索任务(如文本→蛋白质)。

评分

  • 新颖性: ★★★★☆ — 生成式检索范式在质谱领域是新颖的
  • 技术深度: ★★★★☆ — 两阶段设计合理,Cross-Fusion 有效
  • 实验: ★★★★★ — 提升幅度巨大(40%+),新基准+消融齐全
  • 写作: ★★★★☆ — 动机清晰,图表专业
  • 实用性: ★★★☆☆ — 推理成本偏高,化学约束缺失