Beyond Chemical QA: Evaluating LLM's Chemical Reasoning with Modular Chemical Operations¶
会议: NeurIPS 2025
arXiv: 2505.21318
代码: https://github.com/IDEA-XL/ChemCoTBench/
领域: LLM推理
关键词: chemical reasoning, Chain-of-Thought, benchmark, molecular operations, SMILES
一句话总结¶
提出 ChemCoTBench,首个评估 LLM 化学推理能力的 CoT 基准,将复杂化学问题分解为模块化的化学操作(加/删/替换官能团),配合 22,000 条专家标注的 CoT 数据集(ChemCoTDataset),系统性评估了推理型和非推理型 LLM 在分子理解/编辑/优化/反应预测上的能力。
研究背景与动机¶
领域现状:LLM 在数学和代码推理上表现出色(得益于 CoT),但在化学领域的推理能力未被系统评估。现有化学 benchmark(ChemLLM、MolPuzzle 等)主要测试知识检索和事实回忆,而非逐步推理。
现有痛点:(1) 缺乏结构化、逐步推理的化学任务——现有 benchmark 将推理、知识回忆和数值计算混在一起,无法区分性能来源;(2) 缺乏与实际应用(药物设计、反应工程)对齐的评估;(3) 化学推理几乎没有 CoT 训练数据。
核心矛盾:化学领域需要严格的结构分析和多步推理(如医药设计中的分子优化),但 LLM 的化学推理能力被简单 QA 题低估/误判了。
本文目标 建立一个评估 LLM 化学推理能力的体系化 benchmark,支持从基础(分子理解/编辑)到应用(分子优化/反应预测)的完整评估。
切入角度:将化学问题-solving 类比于数学算术——定义模块化化学操作(加法=添加官能团、减法=删除官能团、替换=替换官能团),让化学推理变得可分步评估。
核心 idea:通过定义模块化化学操作将化学推理形式化为可分步、可验证的工作流,构建首个化学 CoT benchmark + 大规模 CoT 训练数据集。
方法详解¶
整体框架¶
ChemCoTBench 包含 4 大任务/22 个子任务/1,495 个测试样本,从基础到应用层层递进:分子理解 -> 分子编辑 -> 分子优化 -> 反应预测。每个任务的推理步骤被定义为模块化化学操作序列。额外提供 ChemCoTDataset(22,000 条带 CoT 标注的训练数据)。
关键设计¶
-
基础任务:分子理解(Molecule-Understanding):
- 功能:评估 LLM 对 SMILES 分子式的基本理解能力。
- 核心思路:包含官能团识别与计数、环结构识别、Murcko 骨架提取、环系统识别、SMILES 等价判断。测试 LLM 对分子拓扑结构的感知能力。
- 设计动机:分子理解是一切化学推理的基础,如果 LLM 无法正确识别 SMILES 中的结构,后续操作必然失败。
-
基础任务:分子编辑(Molecule-Editing):
- 功能:评估 LLM 能否按照自然语言指令执行基本的分子修改操作。
- 核心思路:定义三种原子操作——添加(Add)、删除(Delete)、替换(Substitute)官能团。类比数学中的加减法,这是化学推理的基本运算。评估两个核心能力:编辑后保持化学有效性+正确执行修改。
- 设计动机:复杂任务(如分子优化)可以分解为一系列编辑操作,因此编辑能力是化学推理的基本功。
-
应用任务:分子优化(Molecule-Optimization):
- 功能:给定源分子和目标属性,生成优化后的分子。
- 核心思路:分两个层次——理化性质层面(LogP、溶解度、QED)和靶点层面(DRD2、GSK3-beta、JNK3 结合亲和力)。靶点优化更难,需要理解药物-靶点相互作用。
- 设计动机:这是药物设计中的核心问题,需要 LLM 不仅解析分子结构,还要推断结构修改如何影响目标属性。
-
应用任务:反应预测(Reaction Prediction):
- 功能:评估 LLM 在正向反应预测、逆合成、反应条件推荐、反应机理理解上的能力。
- 核心思路:涵盖 4 个子任务——正向预测(预测主产物/副产物)、单步逆合成(已知产物推反应物)、反应条件推荐、反应机理理解(预测下一中间体/选择机理路线)。
- 设计动机:反应预测是化学的核心任务,从整体产物预测到详细机理洞察,全面测试化学推理能力。
-
ChemCoTDataset(22K CoT 训练数据):
- 功能:提供大规模化学推理训练数据。
- 核心思路:从 Gemini-2.5-pro、DeepSeek-R1、Claude-3.7-sonnet-thinking 蒸馏推理链,由 DeepSeek-R1 生成 CoT 标注,13 名化学 PhD 人工审核。包含 IUPAC 命名辅助理解。
- 设计动机:化学推理数据的稀缺是 LLM 在化学上表现差的主要原因之一。
损失函数 / 训练策略¶
Benchmark 不涉及训练。ChemCoTDataset 用于 SFT 微调,验证数据增强效果。
实验关键数据¶
主实验:基础任务¶
| 模型 | FG计数(MAE) | 环计数(MAE) | Murcko(Sim) | 环系统(Acc) | Add | Delete | Sub |
|---|---|---|---|---|---|---|---|
| Gemini-2.5-pro-think | 0.11 | 0.60 | 0.51 | 87.5 | 100 | 85 | 81.7 |
| Claude3.7-sonnet-think | 0.21 | 1.60 | 0.40 | 80.0 | 85 | 80 | 83.4 |
| DeepSeek-R1 | 0.27 | 1.55 | 0.34 | 45.0 | 70 | 70 | 68.3 |
| o3-mini | 0.13 | 0.60 | 0.39 | 75.0 | 65 | 55 | 80.0 |
| GPT-4o | 0.17 | 1.35 | 0.21 | 80.0 | 80 | 80 | 65.0 |
消融/训练数据效果¶
| 配置 | 说明 |
|---|---|
| 原始模型 | 化学推理能力有限,尤其开源和蒸馏模型 |
| + ChemCoTDataset 微调 | 化学推理性能显著提升 |
| 数学/代码能力强不等于化学能力强 | 缺乏化学推理数据是瓶颈 |
关键发现¶
- Gemini-2.5-pro 在化学推理上全面领先:在几乎所有子任务上表现最好,尤其分子编辑 Add 操作达到 100%。
- 推理模型 vs 非推理模型差异不大:说明化学推理的瓶颈不在推理框架,而在化学知识和 SMILES 理解。
- 开源/蒸馏推理模型在化学上仍然很弱:如 Llama-Nemo-49B 在分子编辑 Add 上得 0%,说明蒸馏的推理能力不能迁移到化学域。
- ChemCoTDataset 有效:使用该数据集微调后化学推理性能显著提升,验证了化学推理数据稀缺是核心问题。
- SMILES 理解是基础瓶颈:环计数的 MAE 普遍在 0.6-1.9,说明 LLM 对 SMILES 的拓扑结构感知仍然很差。
亮点与洞察¶
- 模块化化学操作的类比非常巧妙:将化学推理类比为数学算术(加/删/替换=加/减/乘),让化学推理可分步评估和训练。这种思路可以迁移到其他专业领域(如生物信息学、材料科学)。
- 从质量控制的角度,13 名化学 PhD + LLM 混合审核的流程值得学习。
- IUPAC 命名辅助 SMILES 理解是一个实用发现:IUPAC 名称包含了官能团和结构信息,作为辅助输入能帮助 LLM 更好理解分子。
局限与展望¶
- SMILES 作为分子表示的局限:SMILES 是线性字符串,天然不适合表达 3D 结构信息。未来可以结合分子图或 3D 坐标。
- 评估以 SMILES 匹配为主:化学中同一分子有多种合理的 SMILES 表示,严格字符串匹配可能低估性能。
- 缺少多步推理的深度评估:虽然定义了 CoT 操作序列,但评估主要看最终结果,未系统评估中间步骤的正确性。
- 建议方向:开发结合分子图的多模态化学推理 benchmark。
相关工作与启发¶
- vs ChemLLM: ChemLLM 提供 chemistry-specialized 框架但聚焦知识回忆,ChemCoTBench 聚焦推理。
- vs MolPuzzle: MolPuzzle 做光谱解析的空间推理,ChemCoTBench 覆盖面更广(理解/编辑/优化/反应)。
- vs MATH/GSM8K 等数学 benchmark: 化学 benchmark 的设计方法论类似(分层次、可验证),但面临 SMILES 理解这个额外挑战。
评分¶
- 新颖性: ⭐⭐⭐⭐ 首个化学 CoT benchmark,模块化化学操作概念新颖
- 实验充分度: ⭐⭐⭐⭐⭐ 覆盖 13+ 模型,4 大任务 22 子任务,专家审核
- 写作质量: ⭐⭐⭐⭐ 任务设计清晰,但论文篇幅较长
- 价值: ⭐⭐⭐⭐ 填补了化学推理评估的空白,CoT 数据集实用