Scaling Laws of Global Weather Models¶

会议: ICML 2026
arXiv: 2602.22962
代码: https://github.com/spcl/scaling-laws-weather-model
领域: 地球科学 / 天气预报 / Scaling Laws
关键词: 天气预报模型, 缩放定律, 计算最优, 宽度优先, ERA5

一句话总结¶

本文在统一的训练/评测协议下，对 5 个主流数据驱动天气模型（Aurora、AIFS、Pangu、GraphCast、SFNO）做了首个跨模型的缩放定律分析，发现天气模型偏爱"加宽而非加深"、计算预算应优先投给更多训练数据而非更大模型，且不同气象变量的缩放行为差异巨大——这些规律与 NLP/视觉的缩放定律截然不同。

研究背景与动机¶

领域现状：数据驱动的神经网络天气预报（GraphCast、Pangu、Aurora 等）正在快速逼近甚至超越传统数值天气预报（NWP）。随着高分辨率再分析数据（如 ERA5）与大规模训练基础设施的普及，这些模型即将进入"靠堆规模往上冲"的阶段。

现有痛点：NLP 和视觉领域早已有成熟的缩放定律（Kaplan、Chinchilla）指导"该把算力投给参数还是数据"，但天气预报领域几乎没有系统性的跨模型缩放研究。现有的少数工作只针对单一模型、单一配置，无法回答"不同架构的缩放效率谁更高、规律是否通用"。

核心矛盾：直接把语言/视觉的缩放定律套到天气模型上并不安全。大气是一个有可预报性物理上限的混沌系统；天气模型要同时预测上百个物理性质各异、难度不同的相关变量（温度、风速、气压等）；而且 GNN、Transformer、傅里叶算子这几类架构对空间分辨率的依赖方式根本不同，缩放行为很可能各走各路。

本文目标：在完全统一的实验条件下，刻画验证损失 \(\mathcal{L}\) 如何随模型规模 \(N\)、数据量 \(D\)、算力预算 \(C\) 以及模型形状（宽 vs 深）变化，并回答"固定算力下该怎么分配资源"。

切入角度：作者不发明新模型，而是把 5 个代表性模型放进同一个"风洞"里——同样的 ERA5 数据、同样的分辨率、统一的验证损失函数——逐一变动 \(N/D/C\)/形状，用 log-log 线性回归拟合幂律系数，从而把架构差异从外部噪声中剥离出来。

核心 idea：用"统一标准化的跨模型缩放实验"来揭示天气预报独有的缩放规律，把缩放定律从"单模型经验"上升为"领域级设计指南"。

方法详解¶

整体框架¶

本文本质是一项大规模实证研究而非新方法，整体可以理解为一条"标准化风洞 → 多维扫描 → 幂律拟合 → 提炼规律"的分析流水线。输入是 ERA5 再分析数据与 5 个待测模型，输出是一组缩放定律系数和 4 条可操作的设计结论。

具体地：所有模型都在 ERA5（1979–2020 训练、2021 验证、\(0.25^\circ\times0.25^\circ\) 全球网格、6 小时间隔）上做 6 小时预报；通过取各模型输入/目标变量的最大公共集、统一学习率调度、统一权重初始化等手段把"非架构因素"压到最小；再分别沿 \(N\)（参数量）、\(D\)（累计训练样本量，按 scaling 文献惯例指"已处理的样本总量"而非固定数据集大小）、\(C\)（算力）和模型形状四个轴扫描，每个配置拟合验证损失对各因素的幂律：

\[\mathcal{L}(D)=\alpha D^{-\beta},\quad \mathcal{L}(N)=\gamma N^{-\delta},\quad \mathcal{L}(C)=\lambda C^{-\epsilon}\]

其中 \(\beta,\delta\) 越大表示随数据/参数增长损失下降越快、长期潜力越好。整个实验耗费超过 43 万 GPU 小时。下面四个"关键设计"其实是这条流水线上的四个核心分析维度与对应发现。

关键设计¶

1. 统一标准化评测协议：把架构差异从噪声里剥出来

跨模型比较最大的陷阱是各模型默认的训练损失、变量加权、数据加载方式都不一样，直接比损失等于在比"苹果和橘子"。本文的方法学基石是强制对齐：所有模型用同一个验证损失 \(\mathcal{L}\)——对预测与真值的平方差 \((\hat{x}-x)^2\) 在空间网格与大气变量上做加权平均，每个变量按自身标准差归一化，每个网格按归一化面积加权（处理地球球面几何），高空变量再额外按气压层加权（与 GraphCast 一致，越高气压层越重要）。同时统一分辨率、统一学习率调度、统一初始化。这样后续观察到的任何性能差异，才能可信地归因于架构本身，而不是优化技巧或数据分布漂移。作者还试了 Maximal Update Parameterization（\(\mu\)P）来稳定跨尺度训练，但发现 \(\mu\)P 对 AIFS 无效，说明这套对齐协议是逐模型调出来的而非照搬。

2. 数据/参数双幂律拟合：用 \(\beta\) 而非 \(\alpha\) 判断长期潜力

针对 \(D\)，本文固定参数量、变动数据量拟合 \(\mathcal{L}(D)=\alpha D^{-\beta}\)。关键洞察是：截距 \(\alpha\) 不能直接比，因为模型的损失排名会随 \(D\) 改变——例如 GraphCast 在 \(D=30\) TB 时损失最低，但到 \(D=100\) TB 时被 Aurora 反超；真正稳健的长期指标是斜率 \(\beta\)。结果 Aurora 的 \(\beta\approx0.51\) 显著高于其余模型（\(0.30\)–\(0.46\)），意味着它从更多数据里榨取信息的效率最高（数据增 10 倍验证损失最多降 3.2 倍）。针对 \(N\)，固定数据量拟合 \(\mathcal{L}(N)=\gamma N^{-\delta}\)，五个模型都呈稳定幂律，GraphCast 在同等或更小 \(N\) 下损失最低、参数效率最佳。一个有意思的发现是 Pangu 存在"阈值效应"：15 TB 时 \(\delta\) 偏低（加参数没用），到 30 TB 时 \(\delta\) 上升，说明参数缩放被数据量卡脖子——只有数据够多，加参数才划算。

3. 宽度优于深度：天气预报靠表征容量而非深层非线性

这是与 NLP 缩放定律最尖锐的分歧。Kaplan 等发现语言模型在固定 \(N\) 时性能几乎不依赖形状（宽深可换），但本文在固定参数预算下对每个模型各取一宽一窄两种配置（参数量大致相同、形状不同）对比，发现所有模型的宽配置都一致优于窄配置。更极端的是，GraphCast 和 SFNO 在深度为 1 时依然表现良好。作者用几何深度学习（线性图模型可媲美深层模型）和神经算子理论（单层谱/注意力即可逼近复杂全局优化步骤）来解释：6 小时短程天气动力学可能用近似线性的模型就能逼近，深层非线性堆叠是冗余的。结论是设计天气模型时，固定参数预算下应优先加宽——更大的表征容量比更多的非线性变换更值钱。

4. 计算最优分配：固定算力时把资源投给数据而非参数

固定算力 \(C\) 时，把验证损失对 \(D\) 拟合成抛物线（Chinchilla 式做法），抛物线最低点给出 \(N\) 与 \(D\) 的最优配比，形式化为 \(N_{\text{opt}}\propto C^{a}\)、\(D_{\text{opt}}\propto C^{b}\)。一个微妙之处是 NLP 的约束 \(a+b=1\) 在天气模型里并不普遍成立：GraphCast/AIFS 的骨干跑在与输入分辨率无关的隐图上，违反了 \(C\approx 6ND\) 的标准假设（本文固定分辨率，故 \(C\sim N\cdot B\)）；而 Transformer 类的 patch 机制把有效 \(D\) 缩了 \(p^2\) 倍，得到 \(C\approx 6ND/p^2\)，此时 \(a+b=1\) 才保持。尽管各模型最优配比不同，抛物线行为普遍存在，且趋势一致指向：随算力增长，优先延长训练（喂更多数据）比增大模型更能降低预报误差——宁可用小模型训久一点，也别用大模型训不充分。

一个完整示例¶

不适用。本文是缩放定律的实证分析，核心是跨模型扫描与幂律拟合，没有需要"走一遍流程"的单样本推理过程，故省略。

实验关键数据¶

主实验¶

五个模型在 ERA5 上统一评测，数据缩放系数 \(\beta\)（越大越好）与硬件利用率对比如下：

模型	参数量	骨干	\(\beta\uparrow\)（数据缩放）	备注
Aurora	1.3B	Swin Transformer	0.51	数据缩放效率最佳
AIFS	255M	Graph Transformer	0.46	球面图、降低经纬畸变
Pangu	276M	Swin Transformer	0.43	参数缩放有数据量阈值效应
GraphCast	36.7M	GNN	0.36	参数效率最佳但硬件利用率低
SFNO	433M	球面傅里叶算子	0.34	深度=1 仍表现良好

硬件利用率分析¶

缩放定律通常把算力当静态资源、忽略 wall-clock，但本文实测发现"验证损失缩放好"不等于"算力用得好"：

模型	Tflop/s	GPU 峰值 (Tflop/s)	GPU 利用率 (%)
Aurora	368	989 (32-bit)	37.2
AIFS	33.7	1979 (16-bit)	1.70
GraphCast	10.15	989 (32-bit)	1.03
Pangu	3.25	989 (32-bit)	0.33
SFNO	0.215	989 (32-bit)	0.022

关键发现¶

数据缩放冠军 ≠ 参数缩放冠军：Aurora 数据缩放最强（\(\beta\approx0.51\)），但参数效率冠军是 GraphCast（同等 \(N\) 损失最低）；两者优势互补、不可兼得。
理论效率 ≠ 实际效率：GraphCast 参数效率最优，但其 GNN 消息传递受内存带宽限制，H100 上单精度利用率仅 1.03%，而 Aurora 达 37.2%——约 36 倍差距，说明工程实现对实际部署效率至关重要。
变量异质性：不同气象变量缩放行为差异显著。10m 风速 u 分量（10U）上 Aurora RMSE 全程最低，但 2m 温度（2T）上 GraphCast 反超所有模型。因此"全变量加权损失"只是模型性能的粗略指标，必须看变量级缩放。

亮点与洞察¶

"风洞式"统一协议是这篇论文最大的方法学贡献：跨模型缩放比较历来因损失函数/加权不一致而难以可信，本文用统一验证损失 + 统一训练配置把架构因素单独拎出来，这套思路可迁移到任何"多模型横评"的领域。
用斜率 \(\beta\) 而非截距 \(\alpha\) 判断长期潜力：很巧妙地点破了"在某个数据量下谁损失低"是会翻盘的，真正该看的是缩放速度——这对资源有限、只能在小规模上做实验再外推的团队尤其有价值。
"宽优于深"颠覆了 NLP 直觉：在固定参数预算下加宽比加深更划算，甚至深度=1 都能打，这个结论可以直接改变下一代天气模型的架构设计取向。
把硬件利用率纳入缩放讨论：指出经典缩放定律把算力当静态资源、忽略 wall-clock 是一个盲点——36 倍的利用率差距说明"缩放曲线漂亮"和"训练跑得快"是两回事。

局限与展望¶

算力/显存约束限制了扫描范围：最大可探索宽度仅 512、Aurora 最小宽度受单注意力头大小（64）限制，导致部分模型（Aurora、GraphCast）的计算最优抛物线只看得到左半边（尚未收敛），右半边需要更小宽度才能补全，外推存在不确定性。
只覆盖 6 小时短程预报："深度=1 即可"的结论很可能只对 6 小时这种近线性的短程动力学成立，更长 lead time 或自回归滚动预报是否仍偏爱宽浅结构尚未验证。
\(\mu\)P 等跨尺度稳定技术未普适：作者发现 \(\mu\)P 对 AIFS 无效，说明这套缩放结论部分依赖逐模型手调的超参，可复现性需谨慎。
改进方向：可引入变量级的混合建模或变量自适应调参，以及把 wall-clock/利用率正式纳入计算最优框架，让缩放定律更贴近真实部署。

评分¶

新颖性: ⭐⭐⭐⭐ 首个跨模型天气缩放分析，"宽优于深"是反直觉的领域级发现。
实验充分度: ⭐⭐⭐⭐⭐ 5 模型 × 多维扫描、43 万 GPU 小时、统一协议，覆盖面扎实。
写作质量: ⭐⭐⭐⭐ 逻辑清晰、图表丰富，但部分抛物线只有半边、结论外推需谨慎。
价值: ⭐⭐⭐⭐⭐ 直接为下一代天气模型的架构与资源分配提供可操作指南。