跳转至

Learning from the Electronic Structure of Molecules across the Periodic Table

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=PS1YS8Wv4t
代码: 待确认
领域: AI for Science / 量子化学 / 机器学习原子间势
关键词: Hamiltonian prediction, MLIP, electronic structure, equivariant GNN, pretraining, DFT

一句话总结

本文提出 HELM——首个能扩展到 100+ 原子、58 种元素、含弥散函数大基组的"通用"哈密顿量矩阵预测模型,并配套发布迄今最大的分子哈密顿量数据集 OMol CSH 58k,进而把哈密顿量预训练得到的共享表示迁移到能量预测,在低数据场景下实现最高约 2× 的能量预测精度提升。

研究背景与动机

领域现状:机器学习原子间势(MLIP)通过拟合 DFT 算出的力和能量来逼近 Born–Oppenheimer 势能面,其性能随训练数据量持续增长,已有模型(如 Meta 的 UMA)训练在 4.59 亿条能量标签上。但 DFT 计算每个 N 原子体系时,除了产生 1 个能量、O(N) 个力标签外,还会算出一个 O(N²) 规模的哈密顿量矩阵 H,里面编码了激发态、电离能、电子密度、多极矩等远比力/能量丰富的信息——而这些"免费"数据迄今几乎没被用于训练大规模原子性质模型。

现有痛点:一方面,最先进的 MLIP 仍受限于数据,但当前最大模型已经吃掉超过 100 亿核时的 DFT 数据,靠继续堆数据量来提升性能在实践上越来越不可行;另一方面,已有的哈密顿量预测模型(PhiSNet、QHNet、SPHNet 等)只能处理小分子、小基组、少元素,无法扩展到 MLIP 所需的结构尺寸、基组(含 d/f 轨道)和元素多样性。

核心矛盾:哈密顿量矩阵蕴含的电子结构信息既"量大"(O(N²) 而非 O(N))又"质优"(含远超力/能量的物理信息),却卡在两个工程瓶颈上无法利用——模型扩展性(高 lmax 下张量积的 O(lmax⁶) 复杂度、大结构的内存爆炸)和数据缺失(缺乏元素/尺寸多样的大规模哈密顿量数据集)。

本文目标:打通"哈密顿量预测"与"通用 MLIP"之间的鸿沟,提供一条把 H 中轨道相互作用数据整合进原子性质训练管线的可行配方。

核心 idea电子相互作用作为一种丰富且可迁移的数据源——先在哈密顿量矩阵上训练一个可扩展的等变骨干网络,让它学到对原子环境的精细描述子,再把这个共享嵌入空间迁移(冻结/微调)到能量预测任务上,从而在能量标签稀缺时也能高效学习。

方法详解

整体框架

HELM(Hamiltonian-trained Electronic-structure Learning for Molecules)由一个权重共享的特征提取骨干加上两个独立输出头组成:一个哈密顿量头预测矩阵 H,一个能量头从原子结构预测总能量。典型训练流程是先在 H 上训练骨干,再把骨干特征直接复用或微调到能量预测——这正是"哈密顿量预训练"的实现方式。

flowchart LR
    A["分子图<br/>位移向量 r_ij + 原子类型 Z_i"] --> B["等变 GNN 骨干<br/>K 层 SO2 卷积 + gating<br/>节点+有向边嵌入"]
    B --> C["哈密顿量头<br/>z_i, z_ij → H 各子块 irreps"]
    B --> D["能量头<br/>z_i 的 l=0 分量 → 总能量 E"]
    C -.预训练后冻结/微调.-> D

关键设计

1. 节点-边双预测的骨干,并让边单向依赖节点: 与 MLIP 只做逐节点预测不同,学哈密顿量要同时预测节点(同原子内轨道相互作用 Hᵢᵢ)和有向边(原子间轨道相互作用 Hᵢⱼ)。HELM 基于等变消息传递 GNN,把节点/边嵌入初始化为多通道球谐系数(形状 \((l_{max}+1)^2 \times C\)),经 K 层更新。关键的结构性约束是:第 \(k+1\) 层节点嵌入由第 \(k\) 层节点嵌入算出,但第 \(k\)边嵌入只由同层它所连的两个节点算出\(z^{(k+1)}_{ij} = f_{edge}([y^{(k)}_i, y^{(k)}_j], r_{ij})\))。这种边对节点的单向依赖一举两得:训练时天然引入了 H 中库仑电子积分随 \(1/r\) 衰减的物理先验;复用骨干做能量预测时又能直接省掉边更新,省算力。

2. 用 SO(2) 卷积取代全张量积以驯服高 lmax: 处理含 d、f 轨道的大基组需要 lmax 高达 6,而传统全张量积混合球谐系数的复杂度是 \(O(l_{max}^6)\),根本扛不住。HELM 在嵌入更新里改用 Passaro & Zitnick 的 SO(2) 卷积,把复杂度从 \(O(l_{max}^6)\) 降到 \(O(l_{max}^3)\),这是模型能扩展到 100+ 原子、58 元素、含弥散函数大基组(def2-TZVPD)的核心使能技术。哈密顿量头还做了两处适配:对非零阶 irrep 乘以经 sigmoid 的可学习标量做门控非线性,以区分大基组下同主量子数的多个同型轨道壳层;对角块(同原子轨道间相互作用)额外施加宇称约束 \(\delta((-1)^{\ell_1+\ell_2}, (-1)^{\ell_3})\),只计算唯一且非零的节点值。

3. 适配大体系/多元素的损失与参考值预处理: 朴素的逐元素 MAE/MSE 损失在跨尺寸、跨元素的大数据集上失效——重元素越多,H 矩阵元幅值分布越发散;逐分量 MAE 还会对旋转上等价的边产生偏置。而 Li et al. 的"波函数对齐损失"虽好,却要求每次前向后重组 H,在 100+ 原子时成为计算瓶颈。HELM 借鉴能量预测里的"每元素参考值"思路,先把节点标签的 \(l=0\) 分量(大致来自元素特异的局域核电子态)做缩放和中心化以拉平不同元素间的方差,再用与 irrep 朝向无关的 root-MSE+MSE 损失训练,避开了重组 H 的开销。

4. 直接从节点嵌入读出能量的能量头: 虽然总能量原则上可由预测的 H 重新算出,但这需要把 HELM 内部表示重组回 H,且交换关联能还要在网格上数值积分电子密度,对大结构做基于梯度的力预测或直接能量微调都太慢。HELM 因此设计了一个直接映射 \(E = f_E([z_i^{(K)}])\) 的能量头:用单个嵌入更新块,再对 \(l=0\)(标量)分量做线性变换 \(w\),最后对分子内所有节点求和得到 \(E = \sum_{i=1}^{N} w^\top z^{(K+1)}_{i,l=0}\)

实验关键数据

主实验表格

HELM 在两个公开哈密顿量基准上均达到 SOTA(矩阵元误差 Herr,单位 ×10⁻⁶ Eh):

模型 Water Ethanol Malondial. Uracil ∇²DFT-2k ∇²DFT-5k ∇²DFT-10k
SchNOrb 165.4 187.4 191.1 227.8 21500 20700 20700
PhiSNet 17.59 12.15 12.32 10.73 180 330 350
QHNet 10.79 20.91 21.52 20.12 840 730 520
SPHNet 23.18 21.02 20.67 19.36
HELM 9.33 5.79 4.86 3.61 60.33 57.41 59.21

在 ∇²DFT 上 HELM 的矩阵元误差约 60 µEh,比此前最佳模型好约 3–5 倍;用预测 H 重算总能量可在每分子 30 meV 内复现参考值。

消融实验表格

哈密顿量预训练对低数据能量预测的效果(∇²DFT 三个 split,能量 MAE,单位 meV,含 95% 置信区间):

Split 训练法 Train Eerr Test Eerr
2k Direct 97.16 791.02
2k Pretrained-frozen 217.58 324.64
2k Finetuned 76.30 266.23
5k Direct 240.63 592.54
5k Finetuned 116.52 199.50
10k Direct 285.39 506.80
10k Finetuned 176.75 198.40

在更难的 OMol CSH 58k 上,pretrained-frozen 比 direct 模型测试精度提升约 1.8×(OMol common 1k:3631→2119 meV;OMol all 5k:5976→3255 meV)。

关键发现

  • Direct 模型在有限能量标签上迅速过拟合,而预训练(冻结或微调)同时降低过拟合并提升测试精度,且提升幅度在最小的 2k split 上最大。
  • UMAP 可视化显示 pretrained-frozen 嵌入相比 direct 出现大量额外的清晰聚类,且对数据中欠采样的重元素区分更明显——证明从哈密顿量数据中确实学到了更精细的原子环境描述子;在 OMol 上微调会削弱这种精细结构,在 ∇²DFT 上微调则保留它,与各自测试精度趋势一致。
  • 作者估算:要靠单纯堆力/能量数据达到同等提升,需要多出一个数量级以上的 DFT 计算。

亮点与洞察

  • 变废为宝的视角:把 DFT 计算中"顺带产出却被丢弃"的 O(N²) 哈密顿量矩阵当作监督信号,在数据墙逼近时另辟蹊径——这是一个数据效率上的杠杆点。
  • 工程上真正扩展了哈密顿量预测的边界:SO(2) 卷积 + 门控 + 宇称约束 + 参考值预处理这一套组合拳,把哈密顿量预测从"小分子玩具"推进到能与现代 MLIP 比肩的尺寸/元素/基组规模。
  • OMol CSH 58k 数据集本身是贡献:58 种元素(覆盖前 83 号元素除首行过渡金属和镧系)、10–150 原子、def2-TZVPD 大基组、相互作用距离达 15 Å,是迄今结构尺寸、矩阵尺寸、元素数最大的分子哈密顿量数据集,并提供 OMol all 5k / OMol common 1k 两个测试 split。
  • 预训练-表示分析闭环漂亮:不仅给出精度数字,还用 UMAP 把"为什么预训练有用"可视化成嵌入空间的聚类结构,把性能提升归因到更精细的原子环境描述子。

局限与展望

  • 内存仍是天花板:预训练规模受限于内存——边标签数和基组(角动量)随体系增大而增长,作者特意排除了含 g 轨道的首行过渡金属和镧系元素以控制显存。
  • 直接由 H 算能量对扰动极敏感:矩阵元的微小误差会被放大到能量上,因此仍需在高精度能量标签上微调来补足精度。
  • OMol 上微调会损害精细表示:在元素多样性高、重元素能量标签采样不足时,微调反而加剧过拟合、削弱表示结构,提升幅度(约 1.5×)低于冻结(约 1.8×)。
  • 离实用 MLIP 精度尚有距离:当前只是低数据受控实验,要达到可用精度还需在更大比例 OMol25 能量数据上微调,并需要计算创新来支撑更大标签的内存/数据处理、以及融入特征值/对称性损失。

相关工作与启发

  • 等变 GNN 与哈密顿量预测谱系:从 PhiSNet 的全张量积,到 QHNet/SPHNet 利用 CG 系数稀疏性提效,再到用 SO(2) 卷积降复杂度(Li et al., Yu et al.)——HELM 站在这条扩展性优化的主线上,并把它推到通用尺度。
  • 通用 MLIP:MACE、UMA 等在大规模异构数据上预训练单一模型覆盖周期表,HELM 试图为它们补上"电子结构信号"这块拼图。
  • 损失函数方向:波函数对齐损失(Li et al.)、对称性损失(Qian et al.)、以及在 QHNet 上加 flow-matching 把精度压到 5 µEh 以下(Kim et al.)都与本文正交,可叠加使用。
  • 启发:在任何"昂贵仿真顺带产出大量中间量"的科学计算场景(不止量子化学),都值得问一句——那些被丢弃的中间表示能否当作自监督/预训练信号来提升下游数据效率?

评分

  • 新颖性: ⭐⭐⭐⭐ 把被忽视的哈密顿量矩阵作为可迁移预训练信号这一视角新颖,且"哈密顿量预训练"提供了清晰可复用的范式。
  • 实验充分度: ⭐⭐⭐⭐ 覆盖 MD17/QM7 与 ∇²DFT 两个基准、三种训练方案的受控低数据实验、UMAP 表示分析,并配套发布数据集;但离实用 MLIP 精度仍有距离,重元素采样不足。
  • 写作质量: ⭐⭐⭐⭐ 动机—方法—实验逻辑清晰,架构图和损失曲线到位,物理先验(1/r 衰减、宇称约束)解释得当。
  • 价值: ⭐⭐⭐⭐ 在 MLIP 数据墙逼近的当下指出一条用电子结构数据破局的路径,数据集与模型对 AI for Science 社区都有实际价值。