跳转至

Beyond Chemical QA: Evaluating LLM's Chemical Reasoning with Modular Chemical Operations

会议: NeurIPS 2025
arXiv: 2505.21318
代码: https://github.com/IDEA-XL/ChemCoTBench/
领域: LLM推理
关键词: chemical reasoning, Chain-of-Thought, benchmark, molecular operations, SMILES

一句话总结

提出 ChemCoTBench,首个评估 LLM 化学推理能力的 CoT 基准,将复杂化学问题分解为模块化的化学操作(加/删/替换官能团),配合 22,000 条专家标注的 CoT 数据集(ChemCoTDataset),系统性评估了推理型和非推理型 LLM 在分子理解/编辑/优化/反应预测上的能力。

研究背景与动机

领域现状:LLM 在数学和代码推理上表现出色(得益于 CoT),但在化学领域的推理能力未被系统评估。现有化学 benchmark(ChemLLM、MolPuzzle 等)主要测试知识检索和事实回忆,而非逐步推理。

现有痛点:(1) 缺乏结构化、逐步推理的化学任务——现有 benchmark 将推理、知识回忆和数值计算混在一起,无法区分性能来源;(2) 缺乏与实际应用(药物设计、反应工程)对齐的评估;(3) 化学推理几乎没有 CoT 训练数据。

核心矛盾:化学领域需要严格的结构分析和多步推理(如医药设计中的分子优化),但 LLM 的化学推理能力被简单 QA 题低估/误判了。

本文目标 建立一个评估 LLM 化学推理能力的体系化 benchmark,支持从基础(分子理解/编辑)到应用(分子优化/反应预测)的完整评估。

切入角度:将化学问题-solving 类比于数学算术——定义模块化化学操作(加法=添加官能团、减法=删除官能团、替换=替换官能团),让化学推理变得可分步评估。

核心 idea:通过定义模块化化学操作将化学推理形式化为可分步、可验证的工作流,构建首个化学 CoT benchmark + 大规模 CoT 训练数据集。

方法详解

整体框架

ChemCoTBench 包含 4 大任务/22 个子任务/1,495 个测试样本,从基础到应用层层递进:分子理解 -> 分子编辑 -> 分子优化 -> 反应预测。每个任务的推理步骤被定义为模块化化学操作序列。额外提供 ChemCoTDataset(22,000 条带 CoT 标注的训练数据)。

关键设计

  1. 基础任务:分子理解(Molecule-Understanding):

    • 功能:评估 LLM 对 SMILES 分子式的基本理解能力。
    • 核心思路:包含官能团识别与计数、环结构识别、Murcko 骨架提取、环系统识别、SMILES 等价判断。测试 LLM 对分子拓扑结构的感知能力。
    • 设计动机:分子理解是一切化学推理的基础,如果 LLM 无法正确识别 SMILES 中的结构,后续操作必然失败。
  2. 基础任务:分子编辑(Molecule-Editing):

    • 功能:评估 LLM 能否按照自然语言指令执行基本的分子修改操作。
    • 核心思路:定义三种原子操作——添加(Add)、删除(Delete)、替换(Substitute)官能团。类比数学中的加减法,这是化学推理的基本运算。评估两个核心能力:编辑后保持化学有效性+正确执行修改。
    • 设计动机:复杂任务(如分子优化)可以分解为一系列编辑操作,因此编辑能力是化学推理的基本功。
  3. 应用任务:分子优化(Molecule-Optimization):

    • 功能:给定源分子和目标属性,生成优化后的分子。
    • 核心思路:分两个层次——理化性质层面(LogP、溶解度、QED)和靶点层面(DRD2、GSK3-beta、JNK3 结合亲和力)。靶点优化更难,需要理解药物-靶点相互作用。
    • 设计动机:这是药物设计中的核心问题,需要 LLM 不仅解析分子结构,还要推断结构修改如何影响目标属性。
  4. 应用任务:反应预测(Reaction Prediction):

    • 功能:评估 LLM 在正向反应预测、逆合成、反应条件推荐、反应机理理解上的能力。
    • 核心思路:涵盖 4 个子任务——正向预测(预测主产物/副产物)、单步逆合成(已知产物推反应物)、反应条件推荐、反应机理理解(预测下一中间体/选择机理路线)。
    • 设计动机:反应预测是化学的核心任务,从整体产物预测到详细机理洞察,全面测试化学推理能力。
  5. ChemCoTDataset(22K CoT 训练数据):

    • 功能:提供大规模化学推理训练数据。
    • 核心思路:从 Gemini-2.5-pro、DeepSeek-R1、Claude-3.7-sonnet-thinking 蒸馏推理链,由 DeepSeek-R1 生成 CoT 标注,13 名化学 PhD 人工审核。包含 IUPAC 命名辅助理解。
    • 设计动机:化学推理数据的稀缺是 LLM 在化学上表现差的主要原因之一。

损失函数 / 训练策略

Benchmark 不涉及训练。ChemCoTDataset 用于 SFT 微调,验证数据增强效果。

实验关键数据

主实验:基础任务

模型 FG计数(MAE) 环计数(MAE) Murcko(Sim) 环系统(Acc) Add Delete Sub
Gemini-2.5-pro-think 0.11 0.60 0.51 87.5 100 85 81.7
Claude3.7-sonnet-think 0.21 1.60 0.40 80.0 85 80 83.4
DeepSeek-R1 0.27 1.55 0.34 45.0 70 70 68.3
o3-mini 0.13 0.60 0.39 75.0 65 55 80.0
GPT-4o 0.17 1.35 0.21 80.0 80 80 65.0

消融/训练数据效果

配置 说明
原始模型 化学推理能力有限,尤其开源和蒸馏模型
+ ChemCoTDataset 微调 化学推理性能显著提升
数学/代码能力强不等于化学能力强 缺乏化学推理数据是瓶颈

关键发现

  • Gemini-2.5-pro 在化学推理上全面领先:在几乎所有子任务上表现最好,尤其分子编辑 Add 操作达到 100%。
  • 推理模型 vs 非推理模型差异不大:说明化学推理的瓶颈不在推理框架,而在化学知识和 SMILES 理解。
  • 开源/蒸馏推理模型在化学上仍然很弱:如 Llama-Nemo-49B 在分子编辑 Add 上得 0%,说明蒸馏的推理能力不能迁移到化学域。
  • ChemCoTDataset 有效:使用该数据集微调后化学推理性能显著提升,验证了化学推理数据稀缺是核心问题。
  • SMILES 理解是基础瓶颈:环计数的 MAE 普遍在 0.6-1.9,说明 LLM 对 SMILES 的拓扑结构感知仍然很差。

亮点与洞察

  • 模块化化学操作的类比非常巧妙:将化学推理类比为数学算术(加/删/替换=加/减/乘),让化学推理可分步评估和训练。这种思路可以迁移到其他专业领域(如生物信息学、材料科学)。
  • 从质量控制的角度,13 名化学 PhD + LLM 混合审核的流程值得学习。
  • IUPAC 命名辅助 SMILES 理解是一个实用发现:IUPAC 名称包含了官能团和结构信息,作为辅助输入能帮助 LLM 更好理解分子。

局限与展望

  • SMILES 作为分子表示的局限:SMILES 是线性字符串,天然不适合表达 3D 结构信息。未来可以结合分子图或 3D 坐标。
  • 评估以 SMILES 匹配为主:化学中同一分子有多种合理的 SMILES 表示,严格字符串匹配可能低估性能。
  • 缺少多步推理的深度评估:虽然定义了 CoT 操作序列,但评估主要看最终结果,未系统评估中间步骤的正确性。
  • 建议方向:开发结合分子图的多模态化学推理 benchmark。

相关工作与启发

  • vs ChemLLM: ChemLLM 提供 chemistry-specialized 框架但聚焦知识回忆,ChemCoTBench 聚焦推理。
  • vs MolPuzzle: MolPuzzle 做光谱解析的空间推理,ChemCoTBench 覆盖面更广(理解/编辑/优化/反应)。
  • vs MATH/GSM8K 等数学 benchmark: 化学 benchmark 的设计方法论类似(分层次、可验证),但面临 SMILES 理解这个额外挑战。

评分

  • 新颖性: ⭐⭐⭐⭐ 首个化学 CoT benchmark,模块化化学操作概念新颖
  • 实验充分度: ⭐⭐⭐⭐⭐ 覆盖 13+ 模型,4 大任务 22 子任务,专家审核
  • 写作质量: ⭐⭐⭐⭐ 任务设计清晰,但论文篇幅较长
  • 价值: ⭐⭐⭐⭐ 填补了化学推理评估的空白,CoT 数据集实用