CatalystBench: A Comprehensive Multi-Task Benchmark for Advancing Language Models in Catalysis Science¶

会议: ICLR2026
OpenReview: tCFYwPdmT4
代码: 待确认（论文承诺开源 CatalystBench 与 CatalystLLM）
领域: LLM 评测 / 科学大模型 / 催化材料
关键词: 催化科学、多任务 benchmark、领域微调、多头架构、结构-活性关系

一句话总结¶

这篇论文造了第一个面向催化科学的多任务 benchmark——CatalystBench，把理论计算数据和实验文献统一成覆盖"催化剂设计全流程"的 8 个任务，并提出多头全任务微调（MFT）把分类头、回归头、生成头解耦训练，得到的 CatalystLLM 在大多数任务上超过 GPT-4.1 等强基线，相对单任务基线平均提升 12.44%。

研究背景与动机¶

领域现状：催化剂发现是化学工程和可持续能源的基石，但极度依赖经验和知识。近年"AI for Science"浪潮里，LLM 已经在生物工程、材料发现、工艺优化等领域展现潜力，自然有人想把它用到催化剂设计上。

现有痛点：催化领域缺一个能反映真实研发流程的 benchmark。现有化学/材料类 benchmark（ChemBench、MaScQA、SCIBENCH、ChemCoTBench、LLM4Mat-Bench、MatTools 等）要么只考"教科书式"的分子层面知识、要么只测受限的解题能力，几乎没有把实验文献里的合成条件、稳定性、结构-活性趋势这类互补知识纳进来。而对催化来说这恰恰最关键——真实催化剂表面常常严重偏离理论计算假设的理想模型。

核心矛盾：真实催化剂研发是一个多模态、多阶段的工作流，在同一条流程里同时要求"精确数值回归（如吸附能、法拉第效率）+ 类别判断（调控方法分类）+ 开放式机理推理（调控方案理解）"。这三类目标的损失地形（loss landscape）性质差异极大，用同质任务或统一输出格式训练出来的模型，会因为任务异质性产生相互干扰，难以在整个谱系上都保持精度。另一层矛盾是知识源割裂：DFT 计算得到的高保真理论描述符（吸附能、电子性质）和实验文献记录的合成/性能数据，长期分处两个孤岛，没有统一框架把它们串起来。

本文目标：(1) 构造一个把理论数据与实验文献统一成"任务导向 Q&A"、且每个任务对应催化剂设计生命周期某一阶段的 benchmark；(2) 设计一种能同时吃下定性与定量异质任务、又不互相拖累的领域微调方法。

切入角度：作者把催化剂研发抽象成三种基础能力——理解（Understanding）、推理（Reasoning）、解释（Explaining），再围绕这三种能力切出 8 个真实任务。同时观察到任务异质性的本质是"输出空间异质"，于是从架构层面把输出空间解耦入手。

核心 idea：用"统一多任务 benchmark + 多头全任务微调（共享主干 + 解耦的分类/回归/生成头）"来解决催化 LLM 缺评测、且多任务训练相互干扰的问题。

方法详解¶

整体框架¶

CatalystBench 这篇论文有两条主线：一条是造 benchmark，把分散的催化数据组织成覆盖全流程的 8 个任务；另一条是造模型，在这个 benchmark 上提出 MFT 微调策略训练出 CatalystLLM 并验证它。

benchmark 这一侧：作者围绕"理解—推理—解释"三层能力，从 8 个公开理论模拟数据集 + 科学实验文献两个源头收集数据。理论数据（含 SMILES、吸附位点等描述符）通过设计好的 prompt 模板转成"指令 + 输入 + 期望输出"的自然语言任务；实验文献则用 SciQAG 引导 GPT-4o 把大量调控/合成方案文本转成高质量 Q&A 对，再由领域专家标注与过滤。最终形成 8 个任务，按输出形态可归为四类：信息抽取（ME、SE）、文本分类（RMC）、数值回归（FEP、AP、d-CP、FP）、语义生成（RSC）。

模型这一侧：作者选 ChemLLM-7B 作为基座（因为它已在 ChemData 上做过化学领域指令微调，化学底子好），系统比较 4 种微调范式——单任务（ST）、多头单任务（MST）、全任务（FT）、多头全任务（MFT），其中 MFT 是本文方案。MFT 在共享主干上挂三个解耦的输出头，靠输入末尾追加的"任务类型 token"决定走哪个头，从而既共享跨任务特征、又隔离异质输出。

关键设计¶

1. 三层能力 × 8 任务的"全流程"任务体系：让评测覆盖催化剂设计闭环

现有 benchmark 的问题是只测某一个孤立切面，而催化剂研发是从读文献、做实验分析到设计方案的闭环。作者据此把催化能力拆成理解、推理、解释三层，落地成 8 个任务并标注了各自样本量：材料抽取 ME（2480）、合成抽取 SE（6612）、调控方法分类 RMC（2364）、法拉第效率预测 FEP（2148）、吸附能预测 AP（3000）、d 带中心预测 d-CP（3000）、形成能预测 FP（3000）、调控方案理解 RSC（4307）。每个任务都对应设计生命周期里的一个真实阶段，比如"给定调控方法描述判断属于合金/缺陷/原子级分散/表界面调控等哪一类"（RMC），"给定 SMILES 催化剂预测 CO 吸附能 = -1.6033 eV"（AP）。值得注意的是单任务数据量刻意不大，作者解释这是催化领域的真实约束——高保真数据获取昂贵且领域特定，所以他们以任务广度优先、按实验数据量均衡各任务规模，避免任务间数据失衡。

2. 理论模拟 + 实验文献的双源构建与多级质控：把割裂的两个知识孤岛缝起来

这是 CatalystBench 区别于纯理论 benchmark 的核心。理论侧从 8 个公开催化数据集筛出与催化性质相关的描述符特征（如 SMILES 串、化学式 Ti18Pd54、吸附位点 (2 1 0)），用 prompt 模板转成可量化评估理解与推理能力的任务；实验侧用 SciQAG 框架引导 GPT-4o 解读大量调控方案文本、转成 Q&A 对，再让领域专家做标注和过滤，专门考更高阶的"解释"能力（对调控方案的深度理解、对某催化领域宏观趋势的把握）。质控上采用多级流程：自动校验去掉无效/重复条目，专家复审代表性子集；文献来源的 Q&A 还用规则过滤剔除"上下文依赖型"问题，并用多阶段生成提升语义准确性与多样性。这样一来理论的高保真描述符和实验的合成条件/结构-活性趋势被统一进同一个任务导向框架。

3. 多头全任务微调 MFT：用任务 token 路由解耦异质输出空间，消除 loss 地形干扰

这是模型侧的核心创新，直接针对"数值回归 + 类别判断 + 开放生成在同一流程共存"的异质性痛点。MFT 在全任务联合训练（FT）的基础上解耦输出空间：在输入序列末尾追加任务类型 token \(\tau\)，\(\tau\) 决定共享 ChemLLM 主干产生的最后一个非填充 token 的上下文表示 \(h[t_{n-1}]\) 之后激活哪个专用头。具体而言——分类任务把 \(h[t_{n-1}]\) 送进任务专属 MLP 分类头，输出预定义类别上的概率分布；回归任务把同一个 \(h[t_{n-1}]\) 送进按均方误差优化的回归头，输出单个连续值；原生成任务则不改架构、直接走原 lm_head 解码出领域解释文本。训练时主干在所有任务上联合学习，但输出模态被隔离，再用加权复合损失平衡各任务贡献。这样做的好处是：既保留跨域特征学习（化学式与自然语言之间的迁移表示，对催化研究很关键），又把"性质各异的任务损失地形"分开，避免它们互相干扰——这正是 ST/FT 等单头方案做不到的。作者强调，多头架构在别的多任务学习里有人探索过，但在催化科学领域做系统实证验证与消融，这是第一次。

4. 面向异质任务的多维评测协议：每类任务配专属指标，并引入"模型分 + 专家分"双轨

不同输出形态不能用一把尺子量。作者为文本分类与信息抽取任务报告准确率 ACC 和平衡 F1（应对类别不平衡）；为回归任务报告 MAE 和 \(R^2\)；对非事实性的语义 Q&A 任务（RSC）设计了多维协议：先算 STS 句级语义相似度（生成答案 vs 参考答案），再用 gpt-4o 和 deepseek-r1 两个模型沿"合理性、准确性、可用性"三个维度 1–10 打分，最后由领域专家对随机子集做最终判定。这套"STS + LLM 打分 + 专家打分"的三轨设计，恰好暴露了一个关键现象：顶级通用模型答案流畅、逻辑清晰，容易拿高 LLM 分，但在催化这种专业领域容易产生"科学幻觉"——给出错误的性能分析或违反物理化学原理的解释，这类错误只有领域专家能识别。所以专家分才是真正区分领域能力的尺子。

损失函数 / 训练策略¶

微调用 LoRA（rank 8、scale 16.0、dropout 0.1，作用于全部线性模块），优化器 AdamW，学习率 5e-5，配线性衰减 + warmup 调度；用 bf16 混合精度和 Flash Attention-2 提速。MFT 的总损失是各任务损失的加权复合（生成头的语言建模损失 + 分类头交叉熵 + 回归头 MSE），权重设置与不同损失函数的影响在附录 B.6 比较。

实验关键数据¶

主实验¶

事实型答案任务（7 任务 / 12 指标，分类与抽取看 ACC/F1，回归看 \(R^2\)/MAE，下表节选代表性数值）：

模型	RMC ACC↑	FEP \(R^2\)↑	AP \(R^2\)↑	d-CP \(R^2\)↑	FP \(R^2\)↑
gpt-4.1（闭源最强）	0.75	0.56	0.61	0.59	0.65
ChemLLM（领域基座）	0.52	0.45	0.63	0.54	0.64
Darwin1.5（领域模型）	0.50	0.44	0.59	0.54	0.68
CatalystLLM（本文）	0.81	0.73	0.81	0.73	0.80

CatalystLLM 在全部 7 个事实型任务、12 个指标上取得最优，回归任务的提升尤其明显（FEP 的 \(R^2\) 从 ChemLLM 的 0.45 拉到 0.73）。一个诚实的细节：在 ME/SE/RMC 这类抽取/分类任务上，gpt-4.1 等通用大模型表现也很强，SE 任务上 gpt-4.1 的 ACC/F1 甚至高于 CatalystLLM；但在数值回归任务上通用模型与专用模型差距巨大，说明当前通用 LLM 还做不了需要深度科学推理与定量计算的预测。

语义理解任务（RSC，多维评测）：

模型	STS↑	gpt-4o 分↑	deepseek-r1 分↑	专家分 @100↑
gpt-4.1	0.72	0.85	0.88	0.56
deepseek-v3	0.73	0.84	0.86	0.57
CatalystLLM	0.79	0.82	0.86	0.75

CatalystLLM 的 STS 和专家分都是最高，专家分 0.75 显著领先（次高 deepseek-v3 仅 0.57）。有意思的是它的 LLM 打分并非最高——这正印证了通用模型"答得漂亮但可能有专业幻觉"，而专家才能识破。

微调策略对比 / 消融实验¶

配置	相对 ST 基线平均提升	说明
仅多任务训练（MT/FT 侧）	+9.24%	多任务共享特征带来的增益
仅任务专属输出头（MST 侧）	+5.13%	只加头、不做多任务，增益有限
MFT（本文，多头 + 全任务）	+12.44%	两者结合，最佳

消融维度	关键发现
任务组合协同	去掉某类任务后对应任务全部下降；组内协同强（去掉 RMC 后同组 FEP/RSC 明显下滑——"会调控"为"调控多有效/方案多重要"提供上下文知识），组间也有一定协同（去回归任务也影响 RMC/RSC）
输入格式	同等信息量下，结构化完整输入 > 仅非结构化 SMILES 串；单条 SMILES 只能给宏观表示，结构化知识让模型学到内部原子数量与连接方式，从而习得潜在结构-活性关系

关键发现¶

多任务 + 多头缺一不可：单独做多任务（+9.24%）或单独加头（+5.13%）都不如二者结合（+12.44%），说明耦合架构需要多任务训练才能真正发挥，否则解耦输出头价值有限。
回归是通用 LLM 的硬伤：抽取/分类上通用大模型可与专用模型掰手腕，但数值回归差距悬殊——这是催化 LLM 当前最值得攻的方向。
领域微调建的是"知识模型"而非记忆：组间协同现象表明模型不是死记输入-输出模式，而是跨化学式与自然语言模态构建了整体催化知识模型，从而辅助其他任务决策。
专家分与 LLM 分背离：通用模型 LLM 分高、专家分低，暴露专业领域的科学幻觉，提醒"用 LLM 评 LLM"在专业科学场景不可靠。

亮点与洞察¶

"全流程任务化"的 benchmark 设计思路可迁移：把一个领域的真实研发闭环（读文献→实验分析→方案推理）拆成对应阶段的任务，比堆教科书选择题更能逼出模型的真实能力，这套范式对其他科学领域（电池、药物、合金）同样适用。
任务类型 token 路由是个轻巧而通用的 trick：在输入末尾加一个 \(\tau\) token 就能在共享主干上切换分类/回归/生成头，几乎零额外推理成本却把异质损失地形隔开，值得在任何"多模态输出"的领域微调里借鉴。
三轨评测把"评测者幻觉"显式化：用 STS + 双模型打分 + 专家打分并列，直接把"LLM 评分高但专家评分低"的背离摆出来，是对当前 LLM-as-judge 风潮的一个清醒提醒。
诚实暴露通用模型在抽取任务上的优势：作者没有掩盖 gpt-4.1 在 SE 任务上反超自己，反而用它论证"专用模型的价值集中在数值回归"，结论因此更可信。

局限与展望¶

知识范围受限于数据集覆盖：CatalystLLM 的能力被 CatalystBench 的覆盖面框住，对范围外的催化材料预测精度会下降（作者自承）。
模型规模偏小：7B 在效率与能力间折中，更大模型可能有更强推理与学习能力，但本文未验证 scaling 行为。
文献来源偏置：纳入已发表文献会带来来源选择偏差，可能放大某些热门体系、忽视冷门体系。
评测仍部分依赖 GPT-4o 生成与打分：数据构建（SciQAG + GPT-4o）和语义评测都用到闭源模型，存在循环依赖与潜在偏置的风险，专家分能缓解但样本量（@100）有限。
展望：作者计划扩充更多催化体系与任务、增强下游推理，并把模型嵌入"预测→合成→表征"的闭环催化发现框架，让 AI 预测直接指导实验。

评分¶

新颖性: ⭐⭐⭐⭐ 第一个催化科学多任务 benchmark + 首次在催化领域系统验证多头全任务微调，benchmark 立意扎实但 MFT 架构本身借鉴自通用多任务学习。
实验充分度: ⭐⭐⭐⭐ 覆盖 8 任务、12 指标、十余个开源/闭源基线，含策略对比、任务协同、输入格式三组消融与专家评测，较完整；scaling 与更大模型未探。
写作质量: ⭐⭐⭐⭐ 动机—构建—方法—实验脉络清晰，诚实暴露通用模型在抽取任务的优势，少量图表依赖附录。
价值: ⭐⭐⭐⭐ 为催化 AI 提供了稀缺的评测框架与开源专用模型，回归任务的差距分析对后续工作有明确指引。