跳转至

Advancing Universal Deep Learning for Electronic-Structure Hamiltonian Prediction of Materials

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=YvmR4vNai2
代码: https://github.com/DavidYin94/NextHAM
领域: AI for Science / 电子结构计算 / 等变图神经网络
关键词: 哈密顿量预测, E(3)-等变, DFT, 自旋轨道耦合, delta-learning, 鬼态

一句话总结

NextHAM 用"第零步哈密顿量"作为带物理先验的输入描述子、配合 E(3)-等变 Transformer 与实空间+倒空间联合训练损失,把跨 60+ 元素的材料电子结构哈密顿量预测做到 DFT 级精度(整体 Gauge MAE 1.417 meV、SOC 块亚 µeV),并发布了含自旋轨道耦合的 17,000 结构基准 Materials-HAM-SOC。

研究背景与动机

领域现状:电子结构计算的核心是求解哈密顿量矩阵,其本征值/本征态给出能带、波函数等关键物性。传统密度泛函理论(DFT)依赖自洽(SC)迭代,每轮都要对大矩阵做 \(O(N^3)\) 对角化,模拟大体系极其昂贵。近年深度学习直接从原子构型回归哈密顿量,绕过 SC 循环,把成本降到接近线性。

现有痛点:深度学习方法学的是一个极其复杂的"原子构型→哈密顿量"映射,难以泛化。为了能训出来,现有工作普遍要"缩范围"——限制支持元素、忽略自旋轨道耦合(SOC)、减少轨道数。这让模型无法覆盖真实材料的多样性。同时,覆盖广、含 SOC、细粒度轨道的开源训练数据本身就稀缺。

核心矛盾:模型要么泛化(覆盖整张元素周期表)要么精确(达到 DFT 级、能正确导出能带),两者难以兼得;而且即便实空间哈密顿量 MAE 很小,倒空间能带也可能因重叠矩阵病态而出现"鬼态"。

本文目标:从方法和数据两端推进"通用"哈密顿量深度学习——既要跨化学/结构多样性泛化,又要精度高到能可靠导出下游物性。

核心 idea: - 物理先验输入:引入无需对角化即可从初始电荷密度构造的"第零步哈密顿量" \(H^{(0)}\) 作为输入描述子,让网络只学残差修正 \(\Delta H\)。 - 等变且表达力强的架构:把 TraceGrad 非线性机制扩展进 E(3)-等变 Transformer,强化边特征建模。 - 实空间+倒空间联合损失:显式在 k 空间解耦能量子空间,消除鬼态、固定规范自由度。

方法详解

整体框架

NextHAM 把任务从"直接预测整个自洽哈密顿量 \(H^{(T)}\)"改写成 delta-learning:预测物理先验 \(H^{(0)}\) 与真值之间的修正项 \(\Delta H = H^{(T)} - H^{(0)}\),最终输出 \(\hat{H} = H^{(0)} + \widehat{\Delta H}\)。整条管线由三部分组成:带物理先验的输入描述子、E(3)-等变 Transformer + TraceGrad 非线性解码、以及实空间与倒空间联合监督的训练目标。

flowchart LR
    A["原子结构 + 位移向量"] --> D["输入描述子"]
    B["初始电荷密度 ρ⁰"] --> H0["第零步哈密顿量 H⁰<br/>(无需对角化)"]
    H0 --> D
    D --> T["E(3)-等变<br/>Transformer<br/>(边特征图注意力)"]
    T --> TG["TraceGrad<br/>非线性 O(3)-不变特征"]
    TG --> DEC["O(3)-等变解码<br/>+ Wigner-Eckart"]
    DEC --> dH["修正项 ΔH"]
    dH --> SUM["Ĥ = H⁰ + ΔH"]
    SUM --> L["实空间 + 倒空间<br/>联合损失"]

关键设计

1. 第零步哈密顿量 \(H^{(0)}\) 作物理先验输入:把"从零重建"降级为"补残差"。 不同于已有方法用随机初始化、缺乏物理含义且稀疏的原子/边嵌入,本文从初始电荷密度 \(\rho^{(0)}(\mathbf{r})\)(孤立中性原子电荷密度之和)构造 \(H^{(0)}\)。它编码了电子-离子相互作用(赝势)强度与电子-电子相互作用的初步估计,把不同元素的特征嵌入到统一表示空间,因此能向化学复杂甚至训练未见的元素泛化。关键是 \(H^{(0)}\) 无需矩阵对角化,成本随非零元个数走(小体系约 \(O(N^2)\)、大体系趋于 \(O(N)\)),与图神经网络消息传递同阶,不会拖累渐进复杂度。其 on-site 子矩阵天然作节点初始描述子、off-site 子矩阵作边描述子。受 delta-learning 启发只回归 \(\Delta H = H^{(T)} - H^{(0)}\),回归目标的维度与数值范围都大幅收窄——实测把 ↑↑ 实部块的回归量程压了 96%。

2. E(3)-等变 Transformer + TraceGrad:边级目标专门强化、等变约束下保非线性表达力。 哈密顿量本质是定义在原子对上的"边级"量,而 Equiformer 之类等变 Transformer 原本为节点级原子性质(如力场)设计。本文据此重写注意力机制:显式跨层维护并更新边特征(而非临时从节点特征生成);受哈密顿量矩阵元随原子间距衰减的物理规律启发,引入距离嵌入参与注意力权重计算;并把节点间注意力权重以乘性方式直接作用于边特征更新、再经等变变换精炼。为在严格 E(3)-对称下保留强非线性,作者把 TraceGrad 扩进 Transformer:更新后的等变边特征 \(f'^{(edge)}_{ab}\) 送入 TraceGrad 产生 O(3)-不变特征 \(z^{(edge)}_{ab}\),由不变迹量 \(T = \mathrm{tr}(\Delta H \cdot \Delta H^{\dagger})\) 监督,再通过 \(o^{(edge)}_{ab} = f'^{(edge)}_{ab} + \frac{\partial z^{(edge)}_{ab}}{\partial f'^{(edge)}_{ab}}\) 把学到的非线性回注等变特征。最后由 Wigner–Eckart 转换器回归 \(\Delta H\)。此外用集成学习按原子间距区间训练多个子模型分而治之,但每个子模型输入仍是整个体系以提取全局信息。

3. 实空间 + 倒空间联合损失:消除鬼态并锁定规范自由度。 多数方法只回归实空间哈密顿量,但重叠矩阵 \(S\) 条件数大会把微小误差放大到本征值/本征态——敏感度被因子 \(\frac{\kappa(S(\mathbf{k}))}{\|S(\mathbf{k})\|_2}\) 放大,使能带出现非物理跳变(鬼态)。本文在实空间联合监督哈密顿量与迹量: $\(\mathrm{loss}^{(R)} = \mathbb{E}_R\big[\lambda_R((1-\lambda_C)\cdot \mathrm{loss}_H(R) + \gamma\cdot \mathrm{loss}_T(R))\big]\)$ 并在倒空间把谱划分为主导物性的低能子空间 \(P\) 与高能补空间 \(Q\),对二者加差异化权重并加一项显式 PQ 惩罚来抑制跨子空间虚假耦合: $\(\mathrm{loss}^{(k)} = \mathbb{E}_k[\lambda_P \mathrm{loss}_P(k) + \lambda_Q \mathrm{loss}_Q(k) + \lambda_{PQ}\mathrm{loss}_{PQ}(k)]\)$ 总损失 \(\mathrm{loss}_{all} = \mathrm{loss}^{(R)} + \mathrm{loss}^{(k)}\)。同时整套损失通过解析确定最优规范参数 \(\mu\) 解决哈密顿量的规范模糊性(加任意 \(\mu S\) 不改下游物性),保证回归目标唯一且物理一致。

实验关键数据

主实验:Materials-HAM-SOC 测试集 Gauge MAE(meV)

区块 Gauge MAE(0, H^T) 实部/虚部 Gauge MAE(H⁰, H^T) 实部/虚部 Gauge MAE(H⁰+ΔH, H^T) 实部/虚部
↑↑ 149.145 / 0.293 5.213 / <0.001 2.834 / <0.001
↑↓ 0.301 / 0.299 <0.001 / <0.001 <0.001 / <0.001
↓↑ 0.301 / 0.299 <0.001 / <0.001 <0.001 / <0.001
↓↓ 149.145 / 0.293 5.213 / <0.001 2.834 / <0.001
Overall 74.914 1.417
  • 引入 \(H^{(0)}\) 把 ↑↑ 实部块的回归范围相比从零回归降低 96%;自旋翻转块(↑↓/↓↑)与自旋守恒块虚部均达亚 µeV 级。

消融与对比(Appendix L/M)

组件 作用
\(H^{(0)}\) 物理输入 误差显著上升
去 delta-learning(直接回归 H^T) 误差上升
去 TraceGrad 非线性 表达力下降
去集成策略 精度下降
去 k 空间损失 能带出现鬼态
vs DeepH-E3 / 原始 TraceGrad NextHAM 显著领先

关键发现

  • 鬼态实证:仅用实空间损失时 \(H(R)\) 的 MAE 只有 0.53 meV,能带却在个别 k 点突变出现鬼态;加 k 空间损失后 \(H(R)\) MAE 仍约 0.49 meV、但 k 空间 loss 降低 >50%,能带几乎与 DFT 重合,光电导率也明显更准。
  • OOD 泛化:训练集不含 Ne,测试含 Ne 结构时 R 空间 MAE 仅 0.1 meV,说明 \(H^{(0)}\) 描述子让模型能外推到未见元素。
  • 元素级分析显示大多数元素预测误差 < 1.5 meV,覆盖元素周期表前六行。

亮点与洞察

  • 把物理过程"截断"成先验\(H^{(0)}\) 是 DFT 自洽迭代的第零步产物,零对角化成本却携带元素级电子结构信息——用"半步物理计算"换深度学习的泛化与精度,是非常巧的归纳偏置。
  • 抓住了"小 MAE ≠ 好能带"这一被忽视的痛点:明确指出重叠矩阵病态导致的误差放大与鬼态,并用 k 空间子空间解耦 + PQ 惩罚直接对症,而非一味压实空间 MAE。
  • 方法 + 数据双贡献:补齐了含 SOC、细粒度轨道(最高 4s2p2d1f)、跨 60+ 元素的开源基准 Materials-HAM-SOC,对社区价值高。

局限与展望

  • OOD 仅以单个 Ne 结构作 case study 演示,作者自陈需要更系统的元素级 OOD 定量评测。
  • 集成多个距离区间子模型增加了训练/推理开销,可扩展性与单模型方案的权衡未充分讨论。
  • 深度学习可解释性有限(伦理声明亦提及),物理知识如何被表征仍是黑箱。
  • 数据基于 ABACUS/PYATB 特定赝势与基组生成,跨 DFT 软件/基组的迁移性待验证。

相关工作与启发

  • 哈密顿量预测谱系:DeepH 系列、DeepH-E3、TraceGrad、WANet(规范自由度)等是直接前驱;本文在等变性(Equiformer/NequIP/MACE 的 E(3) 等变路线)与表达力(TraceGrad)之间做了融合扩展。
  • delta-learning:借鉴势能面拟合中"只学修正项"的思路迁移到矩阵回归,对其他"有廉价物理先验 + 昂贵真值"的科学任务(如力场、密度泛函)有借鉴意义。
  • 启发:当深度学习指标(MAE)与真正关心的下游物理量脱节时,应把下游物理(此处的能带/k 空间)直接写进损失,而不是只优化代理指标。

评分

  • 新颖性: ⭐⭐⭐⭐ — \(H^{(0)}\) 物理先验输入 + k 空间鬼态抑制损失是有洞察力的组合创新,虽各组件多源自已有方法。
  • 实验充分度: ⭐⭐⭐⭐ — 主实验/元素级分析/消融/OOD/能带与光电导 case study 较完整,但 OOD 偏弱。
  • 写作质量: ⭐⭐⭐⭐ — 动机—痛点—方法逻辑清晰,图 1/图 2 把范式对比与框架讲得透彻。
  • 价值: ⭐⭐⭐⭐⭐ — DFT 级精度 + 大幅加速 + 含 SOC 的大规模开源基准,对材料电子结构计算社区实用价值很高。