跳转至

Scaling Laws and Symmetry, Evidence from Neural Force Fields

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=qyjaVda7t2
代码: https://github.com/nnkhang19/scaling-laws-and-symmetry
领域: 神经网络力场 / 标度律 / 几何深度学习
关键词: 标度律, 等变性, 对称性, 原子间势, 计算最优

一句话总结

这篇论文在「神经网络原子间势(NNIP)」这个几何任务上做了一套系统的标度律实验,发现幂律指数是架构相关的——架构编码的旋转/置换对称性越强、张量阶越高,随数据/参数/算力增长的标度指数就越大,因此性能差距会随规模扩大而非缩小,从而对「规模够大就该抛弃等变性、让模型自己学对称」的流行观点给出了反证。

研究背景与动机

领域现状:神经标度律(neural scaling law)在语言、视觉等领域已被广泛验证——验证误差随训练数据量 \(D\)、模型参数量 \(N\)、算力 \(C\) 呈幂律下降。一个被理论与经验共同支持的主流信念是:对同一个任务,不同(足够表达)架构的标度行为是一致的,架构选择只会把损失乘上一个跨尺度恒定的常数因子,并不会改变幂律的斜率(指数)。这一信念又被 Sutton 的「苦涩的教训」强化:显式编码归纳偏置(如对称性)短期有用,长期会被「规模 + 让模型自己学」打败。

现有痛点:在分子力场这类几何任务上,等变网络(equivariant network)虽然以泛化好、对分布外鲁棒著称,但它依赖张量积、球谐函数、高阶消息传递等专用算子,计算昂贵、GPU 利用率低,被认为「难以扩展」。与此同时,蛋白质折叠、构象生成、NNIP 等领域不断出现「非等变网络配合数据增强也能打平等变网络」的证据,把舆论推向「干脆放弃等变、只扩简单的非等变模型」。

核心矛盾:上述「架构只改常数因子、不改指数」的论断几乎全部来自语言/视觉,从未在对称性是任务内禀结构的几何任务上被严格检验过。如果对称性真的改变了任务的内在难度,那它改变的就不该只是常数因子,而是幂律的指数本身——这正是被忽略的关键。

本文目标:在统一、公平的实验条件下,测量若干主流可扩展 NNIP 架构(对称性编码程度各异)在 \(C\)\(D\)\(N\) 三个轴上的标度指数,回答两个子问题:(1) 不同对称性强度的架构,幂律指数是否不同?(2) 若不同,随规模增长性能差距是扩大还是缩小?

切入角度:把 NNIP 任务当成一个干净的「对称性可控变量」实验台——同一数据集、同一硬件、同一拟合协议,只改架构编码对称性的程度(从无约束到低阶到高阶),看指数怎么变。

核心 idea:对称性不是「可被规模替代的可选项」,而是会改变任务内禀难度、从而改变标度指数的根本归纳偏置;规模越大越该显式编码它,而不是留给模型自己去发现。

方法详解

整体框架

本文不是提出新模型,而是一项实证标度律研究,整体可分为四步:先搭一个「对称性递进的架构梯队」作为唯一自变量,再在统一协议下分别拟合三类幂律(算力前沿、参数×数据的求和幂律、计算最优分配),最后用一个「对称损失 vs 等变架构」的对照实验回答「能否用损失项廉价替代等变结构」。任务本身是:把原子点云 \(X=\{(z_i,x_i)\}\)(原子序数 + 三维坐标)映射到势能(标量,平移旋转不变)和原子受力(向量,平移不变、旋转等变),直接预测受力以获得训练期的稠密信号;损失为逐原子能量 MAE 加受力 MSE:

\[L(\phi_\theta, X) = \frac{\lambda_e}{n}\big\|e_\theta(X)-e(X)\big\|_1 + \frac{\lambda_f}{n}\sum_{i=1}^{n}\big\|f_{\theta,i}(X)-f_i(X)\big\|_2,\quad \lambda_e=\lambda_f.\]
%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["原子点云 X<br/>OpenMol 34M 样本"] --> B["对称性递进架构梯队<br/>MPNN→GemNet-OC→EGNN→eSEN"]
    B --> C["双口径算力度量<br/>FLOPs C=3κND + GPU-hours"]
    C --> D["三套幂律拟合<br/>前沿 / 求和幂律 / 计算最优分配"]
    D --> E["对称损失 vs 等变架构对照"]
    D --> F["架构相关指数<br/>对称性越强指数越大"]
    E --> F

关键设计

1. 对称性递进的架构梯队:把「对称性强度」做成唯一自变量

要证明「指数随对称性变化」,就必须有一把能连续调节对称性、其余尽量可比的「梯队」。作者放弃了在该任务上训练不稳定的 vanilla Transformer,统一用消息传递架构,按 Joshi 等人的分类挑了四个覆盖不同体阶(body order \(\nu\),即一条消息由几个节点的状态决定,对应 \(S_n\) 置换表示)和张量阶(tensor order \(\ell\),处理的几何张量嵌入的阶数,对应 \(SO(3)\) 旋转表示)的代表:① unconstrained MPNN——直接处理相对位置向量、无任何对称约束(\(\ell=0\));② GemNet-OC——用原子间距和角度等不变量(\(\ell=0\)),但因为引入二面角信息、一条二跳消息同时依赖四个节点,被归为四体,且能从边不变特征逼近等变函数;③ EGNN(多向量通道扩展版 MC-EGNN)——用笛卡尔向量(\(\ell=1\));④ eSEN——用高阶球张量不可约表示(\(\ell\ge2\),最高到 4),靠帧对齐(frame alignment)稀疏化张量积、省掉 Clebsch–Gordan 系数从而更可扩展。这条梯队让「对称性表达力」成为近乎唯一的变量,后续所有指数差异才能归因到对称性。

2. 双口径算力度量 + 可比训练协议:让等变网络的「GPU 不友好」无所遁形

理论 FLOPs 是硬件无关的,但等变网络的专用算子常常 GPU 利用率低,单看 FLOPs 会低估其实际代价。作者因此同时用两套算力口径拟合:理论 FLOPs \(C\approx 3\kappa N D\)(其中 \(\kappa\) 是每架构每 token 单次前向的 FLOPs 常数,经验拟合得 MPNN \(\kappa\approx2.33\)、EGNN \(\approx28.09\)、GemNet-OC \(\approx35.18\)、eSEN \(\approx74.36\),等变架构 \(\kappa\) 明显更大),以及墙钟训练时间(GPU-hours),所有模型跑在同一硬件上。为让标度律稳健、避免学习率调度带来的混淆,他们采用 scheduler-free 的 AdamW 类优化器——不必调衰减步、单次运行内即可捕捉训练动态、还能直接对训练时间求标度律;并用最大更新参数化(\(\mu\)P)把 \(\approx\)1M 参数下调好的最优学习率按 \(\eta(w)=\eta^*\cdot w_{base}/w\) 迁移到各宽度,固定深度与批大小、只把宽度扩到单卡显存上限。正是这套协议,才让「FLOPs 上 eSEN 指数最高」与「GPU-hours 上同样最高」两个结论都站得住。

3. 三套相互印证的幂律拟合:从前沿、求和到计算最优分配

作者没有只测一条曲线,而是拟合三类幂律并验证它们彼此自洽。其一是算力前沿幂律:对每个算力预算取跨运行的最低验证损失得到 Pareto 前沿,拟合 \(L(C)=L_\infty+F_c C^{-\gamma_c}\)\(L(H)=L_\infty+F_h H^{-\gamma_h}\)(力场任务无明确理论基线,故取 \(L_\infty\approx0\))。其二是参数×数据求和幂律:对三元组 \((N,D,L)\) 拟合 \(L(N,D)=L_\infty+A N^{-\alpha}+B D^{-\beta}\),分别得到数据指数 \(\beta\) 和参数指数 \(\alpha\)。其三是计算最优分配:在 \(3\kappa ND=C\) 约束下最小化 \(L(N,D)\),解得 \(N^*(C)\propto C^{a}\)\(D^*(C)\propto C^{b}\),其中 \(a=\tfrac{\beta}{\alpha+\beta}\)\(b=\tfrac{\alpha}{\alpha+\beta}\),并回代出 \(\gamma_c=\tfrac{\alpha\beta}{\alpha+\beta}\)。两条独立路径(前沿直接拟合 vs 由 \(\alpha,\beta\) 推导)算出的 \(\gamma_c\) 高度吻合(见主实验表),这种交叉印证让「架构相关指数」不是某一种拟合方式的伪影。

4. 对称损失 vs 等变架构的对照:廉价替代行不行

一个自然的便宜方案是:不改架构,只在无约束模型上加一个惩罚对称性偏差的损失项 \(L_{sym}=\tfrac{1}{M}\sum_{i=1}^{M} L\big(\phi_\theta(\rho_{in}(g_i)x),\,\rho_{out}(g_i)y\big)\)\(g_i\) 从 Haar 测度采样,本文 \(M=5\)\(\lambda=1\),平移部分用质心居中处理、只对旋转群加约束),看能否换来等变架构的标度收益。作者用同样的拟合协议对照后发现:对称损失只是轻微提高数据指数 \(\beta\)\(0.31\to0.40\))、同时降低参数指数 \(\alpha\)\(0.28\to0.25\)),两者方向相反,导致随算力的 \(\gamma_c\) 基本不变\(\approx0.14\));而且该采样式正则等价于数据增强,训练 FLOPs 变为 \((M{+}1)\) 倍,把计算最优前沿向右平移 \(\Delta\approx\gamma\log(M{+}1)\)。结论很直接:靠损失项强加的近似对称性,换不来等变架构那种指数级的标度优势——对称性必须长在结构里。

损失函数 / 训练策略

训练目标即上文能量 MAE + 受力 MSE 的加权和(\(\lambda_e=\lambda_f\));数据用 OpenMol 中性分子子集(34M 训练样本、27K 验证、\(D\approx9.2\times10^8\) tokens),主实验遵循 LLM 式单轮(single-epoch)训练,每个样本恰好见一次以贴合既有标度律方法论、避免重复数据的混淆。优化用 scheduler-free AdamW,丢弃前 1%–10% 步后拟合中间 checkpoint 的验证损失。

实验关键数据

主实验

四类架构在算力(FLOPs \(\gamma_c\)、GPU-hours \(\gamma_h\))、数据(\(\beta\))、参数(\(\alpha\))四个轴上的标度指数(指数越大越好),随对称性增强单调上升:

架构 对称性 \(\gamma_c\) (FLOPs) \(\gamma_h\) (GPU-h) \(\beta\) (数据) \(\alpha\) (参数)
Unconstrained MPNN 无约束, \(\ell=0\) 0.14 0.21 0.31 0.28
EGNN (MC-EGNN) 笛卡尔向量, \(\ell=1\) 0.17 0.27 0.39 0.39
GemNet-OC 不变量, 四体 0.25 0.33 0.50 0.52
eSEN 高阶球张量, \(\ell\ge2\) 0.40 0.45 0.75 0.82

两套独立拟合路径得到的算力指数高度一致,印证幂律自洽:

架构 \(\gamma_c\)(前沿直接拟合 eq.4) \(\gamma_c\)(由 \(\alpha,\beta\) 推导 eq.7)
MPNN 0.142 0.146
MC-EGNN 0.173 0.195
GemNet-OC 0.255 0.256
eSEN 0.403 0.392

消融实验

配置 关键指标 说明
eSEN \(\ell_{max}=2\) \(\gamma_c=0.35\) 架构内调低张量阶
eSEN \(\ell_{max}=4\) \(\gamma_c=0.40\) 同架构内提高张量阶,指数也升
无约束 + 对称损失 \(\beta:0.31\to0.40,\ \alpha:0.28\to0.25,\ \gamma_c\approx0.14\) 数据/参数指数反向变化,算力指数不变
计算最优分配 \(a\approx b\approx0.5\) \(N\)\(D\) 应等比例放大(呼应 Chinchilla)
1% 数据 × 100 epoch 增强后 \(\gamma_c\approx0.14,\ F_c\approx0.96\) 多轮 + 数据增强可恢复单轮幂律

关键发现

  • 架构相关指数是核心结论:对称性表达力越强,三个轴的标度指数都越大,意味着性能差距随规模扩大——这与「架构只改常数因子」的主流信念相反。
  • 高阶表示的收益随规模增长是新发现:不仅跨架构成立,在 eSEN 内部\(\ell_{max}\) 从 2 提到 4,算力指数从 0.35 升到 0.40,说明「越大越该用高阶表示」。
  • 计算最优分配与架构无关:所有架构都满足 \(a\approx b\approx0.5\),即参数与数据应等比例放大,与 Chinchilla 在语言上的结论一致。
  • 对称损失换不来等变结构:它让 \(\beta\)\(\alpha\) 反向移动而 \(\gamma_c\) 不变,且额外耗 \((M{+}1)\) 倍算力,对计算最优标度可能是「不必要」的。
  • 多轮训练的幂律稳健性:即便只用 1% 数据重复 100 轮,规模一上来过拟合可忽略;非等变模型需靠数据增强稳住曲线并恢复同一幂律,而等变网络与「增强后非等变」的差距随算力持续拉大

亮点与洞察

  • 把「对称性」做成可控变量去测指数:以往标度律研究多在固定架构内测指数,本文用一条「对称性递进梯队 + 统一协议」把架构对称性变成自变量,干净地分离出「指数随对称性变」这一信号——这套实验设计本身就可迁移到其他「任务内禀结构是否改变标度律」的问题。
  • 双口径算力度量戳破 FLOPs 幻觉:同时报告 GPU-hours,使「等变网络 GPU 不友好」不再能成为反驳其标度优势的借口——即便算上墙钟时间,eSEN 的指数依旧最高。
  • 指数 vs 常数因子的概念校正:作者强调对称性改变的是幂律的斜率而非截距,且这一效应「之大」暗示对称性的作用不止是降低数据维度(输入输出自由度 \(\approx3n\),而旋转群仅三维),为后续理论留了一个明确缺口。

局限与展望

  • 作者承认的局限:(1) 分析局限于单轮、学术规模设置,扩到多轮训练、更大模型、更多样的数据/架构是自然下一步;(2) 对称损失只试了一种简单形式,其他(若可扩展)定义可能给出不同标度;(3) 完全没覆盖架构无关的等变方法(帧平均、canonicalization);(4) 未系统评估去噪预训练对等变/非等变模型的影响。
  • 自己发现的局限:跨架构的 \(\alpha\)\(\beta\) 比较依赖 \(L_\infty\approx0\) 的假设(力场任务无理论基线),不同架构间的绝对指数比较需谨慎;GemNet-OC 学习曲线高方差、需指数滑动平均平滑,拟合稳健性弱于其余三者。
  • 改进思路:发展能解释「为何三维旋转群却带来如此大指数变化」的理论;把这套梯队实验扩到含去噪预训练的工业级规模,验证结论在 foundation-model 体量下是否依旧。

相关工作与启发

  • vs Brehmer et al. (2025):他们报告非等变模型有更大的参数指数 \(\alpha\)、并认为足够算力下非等变可追平等变;本文相反,等变模型 \(\alpha\) 更大(但作者指出两者任务不完全可比)——核心分歧在于「等变性随规模是收益递减还是递增」。
  • vs Kaplan / Hoffmann(语言标度律):本文沿用其拟合协议与计算最优框架,并复现「\(N\)\(D\) 应等比例放大」的 Chinchilla 结论;区别在于本文证明在几何任务上架构会改变指数,打破了语言/视觉里「架构只改常数因子」的经验。
  • vs Batzner et al. (2022):此前几何域的架构相关标度只在数据维度上被观察到;本文给出 \(C\)\(D\)\(N\) 三轴 + FLOPs/GPU-hours 双口径的完整可比图景。

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 用干净实验正面挑战「规模可替代对称性」的主流叙事,并给出「指数随对称性变化」这一反直觉结论。
  • 实验充分度: ⭐⭐⭐⭐⭐ 四架构 × 三轴 × 双算力口径 + 对称损失/多轮/高阶消融,两套拟合交叉印证。
  • 写作质量: ⭐⭐⭐⭐ 逻辑清晰、图表密集,但符号与拟合细节较多,需对标度律有背景才好读。
  • 价值: ⭐⭐⭐⭐⭐ 为几何任务/科学 AI 的大规模建模提供了「该显式编码对称性」的实证依据与扩参配方。