CatalystBench: A Comprehensive Multi-Task Benchmark for Advancing Language Models in Catalysis Science¶
会议: ICLR2026
OpenReview: tCFYwPdmT4
代码: 待确认(论文承诺开源 CatalystBench 与 CatalystLLM)
领域: LLM 评测 / 科学大模型 / 催化材料
关键词: 催化科学、多任务 benchmark、领域微调、多头架构、结构-活性关系
一句话总结¶
这篇论文造了第一个面向催化科学的多任务 benchmark——CatalystBench,把理论计算数据和实验文献统一成覆盖"催化剂设计全流程"的 8 个任务,并提出多头全任务微调(MFT)把分类头、回归头、生成头解耦训练,得到的 CatalystLLM 在大多数任务上超过 GPT-4.1 等强基线,相对单任务基线平均提升 12.44%。
研究背景与动机¶
领域现状:催化剂发现是化学工程和可持续能源的基石,但极度依赖经验和知识。近年"AI for Science"浪潮里,LLM 已经在生物工程、材料发现、工艺优化等领域展现潜力,自然有人想把它用到催化剂设计上。
现有痛点:催化领域缺一个能反映真实研发流程的 benchmark。现有化学/材料类 benchmark(ChemBench、MaScQA、SCIBENCH、ChemCoTBench、LLM4Mat-Bench、MatTools 等)要么只考"教科书式"的分子层面知识、要么只测受限的解题能力,几乎没有把实验文献里的合成条件、稳定性、结构-活性趋势这类互补知识纳进来。而对催化来说这恰恰最关键——真实催化剂表面常常严重偏离理论计算假设的理想模型。
核心矛盾:真实催化剂研发是一个多模态、多阶段的工作流,在同一条流程里同时要求"精确数值回归(如吸附能、法拉第效率)+ 类别判断(调控方法分类)+ 开放式机理推理(调控方案理解)"。这三类目标的损失地形(loss landscape)性质差异极大,用同质任务或统一输出格式训练出来的模型,会因为任务异质性产生相互干扰,难以在整个谱系上都保持精度。另一层矛盾是知识源割裂:DFT 计算得到的高保真理论描述符(吸附能、电子性质)和实验文献记录的合成/性能数据,长期分处两个孤岛,没有统一框架把它们串起来。
本文目标:(1) 构造一个把理论数据与实验文献统一成"任务导向 Q&A"、且每个任务对应催化剂设计生命周期某一阶段的 benchmark;(2) 设计一种能同时吃下定性与定量异质任务、又不互相拖累的领域微调方法。
切入角度:作者把催化剂研发抽象成三种基础能力——理解(Understanding)、推理(Reasoning)、解释(Explaining),再围绕这三种能力切出 8 个真实任务。同时观察到任务异质性的本质是"输出空间异质",于是从架构层面把输出空间解耦入手。
核心 idea:用"统一多任务 benchmark + 多头全任务微调(共享主干 + 解耦的分类/回归/生成头)"来解决催化 LLM 缺评测、且多任务训练相互干扰的问题。
方法详解¶
整体框架¶
CatalystBench 这篇论文有两条主线:一条是造 benchmark,把分散的催化数据组织成覆盖全流程的 8 个任务;另一条是造模型,在这个 benchmark 上提出 MFT 微调策略训练出 CatalystLLM 并验证它。
benchmark 这一侧:作者围绕"理解—推理—解释"三层能力,从 8 个公开理论模拟数据集 + 科学实验文献两个源头收集数据。理论数据(含 SMILES、吸附位点等描述符)通过设计好的 prompt 模板转成"指令 + 输入 + 期望输出"的自然语言任务;实验文献则用 SciQAG 引导 GPT-4o 把大量调控/合成方案文本转成高质量 Q&A 对,再由领域专家标注与过滤。最终形成 8 个任务,按输出形态可归为四类:信息抽取(ME、SE)、文本分类(RMC)、数值回归(FEP、AP、d-CP、FP)、语义生成(RSC)。
模型这一侧:作者选 ChemLLM-7B 作为基座(因为它已在 ChemData 上做过化学领域指令微调,化学底子好),系统比较 4 种微调范式——单任务(ST)、多头单任务(MST)、全任务(FT)、多头全任务(MFT),其中 MFT 是本文方案。MFT 在共享主干上挂三个解耦的输出头,靠输入末尾追加的"任务类型 token"决定走哪个头,从而既共享跨任务特征、又隔离异质输出。
关键设计¶
1. 三层能力 × 8 任务的"全流程"任务体系:让评测覆盖催化剂设计闭环
现有 benchmark 的问题是只测某一个孤立切面,而催化剂研发是从读文献、做实验分析到设计方案的闭环。作者据此把催化能力拆成理解、推理、解释三层,落地成 8 个任务并标注了各自样本量:材料抽取 ME(2480)、合成抽取 SE(6612)、调控方法分类 RMC(2364)、法拉第效率预测 FEP(2148)、吸附能预测 AP(3000)、d 带中心预测 d-CP(3000)、形成能预测 FP(3000)、调控方案理解 RSC(4307)。每个任务都对应设计生命周期里的一个真实阶段,比如"给定调控方法描述判断属于合金/缺陷/原子级分散/表界面调控等哪一类"(RMC),"给定 SMILES 催化剂预测 CO 吸附能 = -1.6033 eV"(AP)。值得注意的是单任务数据量刻意不大,作者解释这是催化领域的真实约束——高保真数据获取昂贵且领域特定,所以他们以任务广度优先、按实验数据量均衡各任务规模,避免任务间数据失衡。
2. 理论模拟 + 实验文献的双源构建与多级质控:把割裂的两个知识孤岛缝起来
这是 CatalystBench 区别于纯理论 benchmark 的核心。理论侧从 8 个公开催化数据集筛出与催化性质相关的描述符特征(如 SMILES 串、化学式 Ti18Pd54、吸附位点 (2 1 0)),用 prompt 模板转成可量化评估理解与推理能力的任务;实验侧用 SciQAG 框架引导 GPT-4o 解读大量调控方案文本、转成 Q&A 对,再让领域专家做标注和过滤,专门考更高阶的"解释"能力(对调控方案的深度理解、对某催化领域宏观趋势的把握)。质控上采用多级流程:自动校验去掉无效/重复条目,专家复审代表性子集;文献来源的 Q&A 还用规则过滤剔除"上下文依赖型"问题,并用多阶段生成提升语义准确性与多样性。这样一来理论的高保真描述符和实验的合成条件/结构-活性趋势被统一进同一个任务导向框架。
3. 多头全任务微调 MFT:用任务 token 路由解耦异质输出空间,消除 loss 地形干扰
这是模型侧的核心创新,直接针对"数值回归 + 类别判断 + 开放生成在同一流程共存"的异质性痛点。MFT 在全任务联合训练(FT)的基础上解耦输出空间:在输入序列末尾追加任务类型 token \(\tau\),\(\tau\) 决定共享 ChemLLM 主干产生的最后一个非填充 token 的上下文表示 \(h[t_{n-1}]\) 之后激活哪个专用头。具体而言——分类任务把 \(h[t_{n-1}]\) 送进任务专属 MLP 分类头,输出预定义类别上的概率分布;回归任务把同一个 \(h[t_{n-1}]\) 送进按均方误差优化的回归头,输出单个连续值;原生成任务则不改架构、直接走原 lm_head 解码出领域解释文本。训练时主干在所有任务上联合学习,但输出模态被隔离,再用加权复合损失平衡各任务贡献。这样做的好处是:既保留跨域特征学习(化学式与自然语言之间的迁移表示,对催化研究很关键),又把"性质各异的任务损失地形"分开,避免它们互相干扰——这正是 ST/FT 等单头方案做不到的。作者强调,多头架构在别的多任务学习里有人探索过,但在催化科学领域做系统实证验证与消融,这是第一次。
4. 面向异质任务的多维评测协议:每类任务配专属指标,并引入"模型分 + 专家分"双轨
不同输出形态不能用一把尺子量。作者为文本分类与信息抽取任务报告准确率 ACC 和平衡 F1(应对类别不平衡);为回归任务报告 MAE 和 \(R^2\);对非事实性的语义 Q&A 任务(RSC)设计了多维协议:先算 STS 句级语义相似度(生成答案 vs 参考答案),再用 gpt-4o 和 deepseek-r1 两个模型沿"合理性、准确性、可用性"三个维度 1–10 打分,最后由领域专家对随机子集做最终判定。这套"STS + LLM 打分 + 专家打分"的三轨设计,恰好暴露了一个关键现象:顶级通用模型答案流畅、逻辑清晰,容易拿高 LLM 分,但在催化这种专业领域容易产生"科学幻觉"——给出错误的性能分析或违反物理化学原理的解释,这类错误只有领域专家能识别。所以专家分才是真正区分领域能力的尺子。
损失函数 / 训练策略¶
微调用 LoRA(rank 8、scale 16.0、dropout 0.1,作用于全部线性模块),优化器 AdamW,学习率 5e-5,配线性衰减 + warmup 调度;用 bf16 混合精度和 Flash Attention-2 提速。MFT 的总损失是各任务损失的加权复合(生成头的语言建模损失 + 分类头交叉熵 + 回归头 MSE),权重设置与不同损失函数的影响在附录 B.6 比较。
实验关键数据¶
主实验¶
事实型答案任务(7 任务 / 12 指标,分类与抽取看 ACC/F1,回归看 \(R^2\)/MAE,下表节选代表性数值):
| 模型 | RMC ACC↑ | FEP \(R^2\)↑ | AP \(R^2\)↑ | d-CP \(R^2\)↑ | FP \(R^2\)↑ |
|---|---|---|---|---|---|
| gpt-4.1(闭源最强) | 0.75 | 0.56 | 0.61 | 0.59 | 0.65 |
| ChemLLM(领域基座) | 0.52 | 0.45 | 0.63 | 0.54 | 0.64 |
| Darwin1.5(领域模型) | 0.50 | 0.44 | 0.59 | 0.54 | 0.68 |
| CatalystLLM(本文) | 0.81 | 0.73 | 0.81 | 0.73 | 0.80 |
CatalystLLM 在全部 7 个事实型任务、12 个指标上取得最优,回归任务的提升尤其明显(FEP 的 \(R^2\) 从 ChemLLM 的 0.45 拉到 0.73)。一个诚实的细节:在 ME/SE/RMC 这类抽取/分类任务上,gpt-4.1 等通用大模型表现也很强,SE 任务上 gpt-4.1 的 ACC/F1 甚至高于 CatalystLLM;但在数值回归任务上通用模型与专用模型差距巨大,说明当前通用 LLM 还做不了需要深度科学推理与定量计算的预测。
语义理解任务(RSC,多维评测):
| 模型 | STS↑ | gpt-4o 分↑ | deepseek-r1 分↑ | 专家分 @100↑ |
|---|---|---|---|---|
| gpt-4.1 | 0.72 | 0.85 | 0.88 | 0.56 |
| deepseek-v3 | 0.73 | 0.84 | 0.86 | 0.57 |
| CatalystLLM | 0.79 | 0.82 | 0.86 | 0.75 |
CatalystLLM 的 STS 和专家分都是最高,专家分 0.75 显著领先(次高 deepseek-v3 仅 0.57)。有意思的是它的 LLM 打分并非最高——这正印证了通用模型"答得漂亮但可能有专业幻觉",而专家才能识破。
微调策略对比 / 消融实验¶
| 配置 | 相对 ST 基线平均提升 | 说明 |
|---|---|---|
| 仅多任务训练(MT/FT 侧) | +9.24% | 多任务共享特征带来的增益 |
| 仅任务专属输出头(MST 侧) | +5.13% | 只加头、不做多任务,增益有限 |
| MFT(本文,多头 + 全任务) | +12.44% | 两者结合,最佳 |
| 消融维度 | 关键发现 |
|---|---|
| 任务组合协同 | 去掉某类任务后对应任务全部下降;组内协同强(去掉 RMC 后同组 FEP/RSC 明显下滑——"会调控"为"调控多有效/方案多重要"提供上下文知识),组间也有一定协同(去回归任务也影响 RMC/RSC) |
| 输入格式 | 同等信息量下,结构化完整输入 > 仅非结构化 SMILES 串;单条 SMILES 只能给宏观表示,结构化知识让模型学到内部原子数量与连接方式,从而习得潜在结构-活性关系 |
关键发现¶
- 多任务 + 多头缺一不可:单独做多任务(+9.24%)或单独加头(+5.13%)都不如二者结合(+12.44%),说明耦合架构需要多任务训练才能真正发挥,否则解耦输出头价值有限。
- 回归是通用 LLM 的硬伤:抽取/分类上通用大模型可与专用模型掰手腕,但数值回归差距悬殊——这是催化 LLM 当前最值得攻的方向。
- 领域微调建的是"知识模型"而非记忆:组间协同现象表明模型不是死记输入-输出模式,而是跨化学式与自然语言模态构建了整体催化知识模型,从而辅助其他任务决策。
- 专家分与 LLM 分背离:通用模型 LLM 分高、专家分低,暴露专业领域的科学幻觉,提醒"用 LLM 评 LLM"在专业科学场景不可靠。
亮点与洞察¶
- "全流程任务化"的 benchmark 设计思路可迁移:把一个领域的真实研发闭环(读文献→实验分析→方案推理)拆成对应阶段的任务,比堆教科书选择题更能逼出模型的真实能力,这套范式对其他科学领域(电池、药物、合金)同样适用。
- 任务类型 token 路由是个轻巧而通用的 trick:在输入末尾加一个 \(\tau\) token 就能在共享主干上切换分类/回归/生成头,几乎零额外推理成本却把异质损失地形隔开,值得在任何"多模态输出"的领域微调里借鉴。
- 三轨评测把"评测者幻觉"显式化:用 STS + 双模型打分 + 专家打分并列,直接把"LLM 评分高但专家评分低"的背离摆出来,是对当前 LLM-as-judge 风潮的一个清醒提醒。
- 诚实暴露通用模型在抽取任务上的优势:作者没有掩盖 gpt-4.1 在 SE 任务上反超自己,反而用它论证"专用模型的价值集中在数值回归",结论因此更可信。
局限与展望¶
- 知识范围受限于数据集覆盖:CatalystLLM 的能力被 CatalystBench 的覆盖面框住,对范围外的催化材料预测精度会下降(作者自承)。
- 模型规模偏小:7B 在效率与能力间折中,更大模型可能有更强推理与学习能力,但本文未验证 scaling 行为。
- 文献来源偏置:纳入已发表文献会带来来源选择偏差,可能放大某些热门体系、忽视冷门体系。
- 评测仍部分依赖 GPT-4o 生成与打分:数据构建(SciQAG + GPT-4o)和语义评测都用到闭源模型,存在循环依赖与潜在偏置的风险,专家分能缓解但样本量(@100)有限。
- 展望:作者计划扩充更多催化体系与任务、增强下游推理,并把模型嵌入"预测→合成→表征"的闭环催化发现框架,让 AI 预测直接指导实验。
相关工作与启发¶
- vs 知识型化学 benchmark(ChemBench / MaScQA / SCIBENCH):它们用教科书/考试选择题测分子层面知识,CatalystBench 则把实验文献的合成条件与结构-活性趋势纳入,且任务对应催化设计真实阶段——更贴近落地但构建成本更高。
- vs 预测/推理型 benchmark(LLM4Mat-Bench / ChemCoTBench / MatTools):前者各自专注材料性质预测、逐步化学推理或软件库调用,CatalystBench 的差异点是在同一框架里同时考定量回归 + 定性分类 + 开放解释,并配套多维评测。
- vs 领域专用 LLM(ChemLLM / Darwin1.5 / ChemFormer / CrystaLLM):它们多为单任务格式或统一输出风格,回归类任务提升有限;CatalystLLM 用多头架构显式适配混合任务,能并行处理定性与定量任务而不互相干扰,这也是它在回归任务上大幅领先 ChemLLM 的原因。
评分¶
- 新颖性: ⭐⭐⭐⭐ 第一个催化科学多任务 benchmark + 首次在催化领域系统验证多头全任务微调,benchmark 立意扎实但 MFT 架构本身借鉴自通用多任务学习。
- 实验充分度: ⭐⭐⭐⭐ 覆盖 8 任务、12 指标、十余个开源/闭源基线,含策略对比、任务协同、输入格式三组消融与专家评测,较完整;scaling 与更大模型未探。
- 写作质量: ⭐⭐⭐⭐ 动机—构建—方法—实验脉络清晰,诚实暴露通用模型在抽取任务的优势,少量图表依赖附录。
- 价值: ⭐⭐⭐⭐ 为催化 AI 提供了稀缺的评测框架与开源专用模型,回归任务的差距分析对后续工作有明确指引。