Beyond Chemical QA: Evaluating LLM's Chemical Reasoning with Modular Chemical Operations¶

会议: NeurIPS 2025
arXiv: 2505.21318
代码: https://github.com/IDEA-XL/ChemCoTBench/
领域: LLM推理
关键词: chemical reasoning, Chain-of-Thought, benchmark, molecular operations, SMILES

一句话总结¶

提出 ChemCoTBench，首个评估 LLM 化学推理能力的 CoT 基准，将复杂化学问题分解为模块化的化学操作（加/删/替换官能团），配合 22,000 条专家标注的 CoT 数据集（ChemCoTDataset），系统性评估了推理型和非推理型 LLM 在分子理解/编辑/优化/反应预测上的能力。

研究背景与动机¶

领域现状：LLM 在数学和代码推理上表现出色（得益于 CoT），但在化学领域的推理能力未被系统评估。现有化学 benchmark（ChemLLM、MolPuzzle 等）主要测试知识检索和事实回忆，而非逐步推理。

现有痛点：(1) 缺乏结构化、逐步推理的化学任务——现有 benchmark 将推理、知识回忆和数值计算混在一起，无法区分性能来源；(2) 缺乏与实际应用（药物设计、反应工程）对齐的评估；(3) 化学推理几乎没有 CoT 训练数据。

核心矛盾：化学领域需要严格的结构分析和多步推理（如医药设计中的分子优化），但 LLM 的化学推理能力被简单 QA 题低估/误判了。

本文目标 建立一个评估 LLM 化学推理能力的体系化 benchmark，支持从基础（分子理解/编辑）到应用（分子优化/反应预测）的完整评估。

切入角度：将化学问题-solving 类比于数学算术——定义模块化化学操作（加法=添加官能团、减法=删除官能团、替换=替换官能团），让化学推理变得可分步评估。

核心 idea：通过定义模块化化学操作将化学推理形式化为可分步、可验证的工作流，构建首个化学 CoT benchmark + 大规模 CoT 训练数据集。

方法详解¶

整体框架¶

ChemCoTBench 包含 4 大任务/22 个子任务/1,495 个测试样本，从基础到应用层层递进：分子理解 -> 分子编辑 -> 分子优化 -> 反应预测。每个任务的推理步骤被定义为模块化化学操作序列。额外提供 ChemCoTDataset（22,000 条带 CoT 标注的训练数据）。

关键设计¶

基础任务：分子理解（Molecule-Understanding）:
- 功能：评估 LLM 对 SMILES 分子式的基本理解能力。
- 核心思路：包含官能团识别与计数、环结构识别、Murcko 骨架提取、环系统识别、SMILES 等价判断。测试 LLM 对分子拓扑结构的感知能力。
- 设计动机：分子理解是一切化学推理的基础，如果 LLM 无法正确识别 SMILES 中的结构，后续操作必然失败。
基础任务：分子编辑（Molecule-Editing）:
- 功能：评估 LLM 能否按照自然语言指令执行基本的分子修改操作。
- 核心思路：定义三种原子操作——添加（Add）、删除（Delete）、替换（Substitute）官能团。类比数学中的加减法，这是化学推理的基本运算。评估两个核心能力：编辑后保持化学有效性+正确执行修改。
- 设计动机：复杂任务（如分子优化）可以分解为一系列编辑操作，因此编辑能力是化学推理的基本功。
应用任务：分子优化（Molecule-Optimization）:
- 功能：给定源分子和目标属性，生成优化后的分子。
- 核心思路：分两个层次——理化性质层面（LogP、溶解度、QED）和靶点层面（DRD2、GSK3-beta、JNK3 结合亲和力）。靶点优化更难，需要理解药物-靶点相互作用。
- 设计动机：这是药物设计中的核心问题，需要 LLM 不仅解析分子结构，还要推断结构修改如何影响目标属性。
应用任务：反应预测（Reaction Prediction）:
- 功能：评估 LLM 在正向反应预测、逆合成、反应条件推荐、反应机理理解上的能力。
- 核心思路：涵盖 4 个子任务——正向预测（预测主产物/副产物）、单步逆合成（已知产物推反应物）、反应条件推荐、反应机理理解（预测下一中间体/选择机理路线）。
- 设计动机：反应预测是化学的核心任务，从整体产物预测到详细机理洞察，全面测试化学推理能力。
ChemCoTDataset（22K CoT 训练数据）:
- 功能：提供大规模化学推理训练数据。
- 核心思路：从 Gemini-2.5-pro、DeepSeek-R1、Claude-3.7-sonnet-thinking 蒸馏推理链，由 DeepSeek-R1 生成 CoT 标注，13 名化学 PhD 人工审核。包含 IUPAC 命名辅助理解。
- 设计动机：化学推理数据的稀缺是 LLM 在化学上表现差的主要原因之一。

损失函数 / 训练策略¶

Benchmark 不涉及训练。ChemCoTDataset 用于 SFT 微调，验证数据增强效果。

实验关键数据¶

主实验：基础任务¶

模型	FG计数(MAE)	环计数(MAE)	Murcko(Sim)	环系统(Acc)	Add	Delete	Sub
Gemini-2.5-pro-think	0.11	0.60	0.51	87.5	100	85	81.7
Claude3.7-sonnet-think	0.21	1.60	0.40	80.0	85	80	83.4
DeepSeek-R1	0.27	1.55	0.34	45.0	70	70	68.3
o3-mini	0.13	0.60	0.39	75.0	65	55	80.0
GPT-4o	0.17	1.35	0.21	80.0	80	80	65.0

消融/训练数据效果¶

配置	说明
原始模型	化学推理能力有限，尤其开源和蒸馏模型
+ ChemCoTDataset 微调	化学推理性能显著提升
数学/代码能力强不等于化学能力强	缺乏化学推理数据是瓶颈

关键发现¶

Gemini-2.5-pro 在化学推理上全面领先：在几乎所有子任务上表现最好，尤其分子编辑 Add 操作达到 100%。
推理模型 vs 非推理模型差异不大：说明化学推理的瓶颈不在推理框架，而在化学知识和 SMILES 理解。
开源/蒸馏推理模型在化学上仍然很弱：如 Llama-Nemo-49B 在分子编辑 Add 上得 0%，说明蒸馏的推理能力不能迁移到化学域。
ChemCoTDataset 有效：使用该数据集微调后化学推理性能显著提升，验证了化学推理数据稀缺是核心问题。
SMILES 理解是基础瓶颈：环计数的 MAE 普遍在 0.6-1.9，说明 LLM 对 SMILES 的拓扑结构感知仍然很差。

亮点与洞察¶

模块化化学操作的类比非常巧妙：将化学推理类比为数学算术（加/删/替换=加/减/乘），让化学推理可分步评估和训练。这种思路可以迁移到其他专业领域（如生物信息学、材料科学）。
从质量控制的角度，13 名化学 PhD + LLM 混合审核的流程值得学习。
IUPAC 命名辅助 SMILES 理解是一个实用发现：IUPAC 名称包含了官能团和结构信息，作为辅助输入能帮助 LLM 更好理解分子。

局限与展望¶

SMILES 作为分子表示的局限：SMILES 是线性字符串，天然不适合表达 3D 结构信息。未来可以结合分子图或 3D 坐标。
评估以 SMILES 匹配为主：化学中同一分子有多种合理的 SMILES 表示，严格字符串匹配可能低估性能。
缺少多步推理的深度评估：虽然定义了 CoT 操作序列，但评估主要看最终结果，未系统评估中间步骤的正确性。
建议方向：开发结合分子图的多模态化学推理 benchmark。

评分¶

新颖性: ⭐⭐⭐⭐ 首个化学 CoT benchmark，模块化化学操作概念新颖
实验充分度: ⭐⭐⭐⭐⭐ 覆盖 13+ 模型，4 大任务 22 子任务，专家审核
写作质量: ⭐⭐⭐⭐ 任务设计清晰，但论文篇幅较长
价值: ⭐⭐⭐⭐ 填补了化学推理评估的空白，CoT 数据集实用