Zero-Shot Performance Prediction for Probabilistic Scaling Laws¶
会议: NeurIPS 2025
arXiv: 2510.16743
代码: 论文称将公开(暂未确认链接)
领域: 多语言翻译
关键词: scaling laws, learning curves, Gaussian processes, zero-shot prediction, hierarchical modeling, active learning, multi-task learning
一句话总结¶
将 NLP 学习曲线预测建模为多任务学习问题,利用潜变量多输出高斯过程(MaGP)捕捉数据集中的双层层次结构和任务间相关性,实现学习曲线的零样本预测,并通过蒙特卡洛模拟推导概率化的 Scaling Laws。
研究背景与动机¶
问题背景¶
推导 Scaling Laws 需要训练大量不同配置的模型,计算成本极高。如果能从少量已有学习曲线零样本预测未训练配置的学习曲线,就能大幅降低成本。
现有方法的局限¶
参数化拟合方法(power law、指数函数等):需要对每条曲线独立拟合,无法在任务间迁移
贝叶斯神经网络 (BNN):需要较多配置(Klein et al. 最小用了 256 个配置),在小数据集(30 条曲线以下)效果差
传统 GP 方法:假设数据内部结构扁平,未利用层次结构
已有 Scaling Law 研究:计算密集型的经验研究,缺乏不确定性量化
核心假说¶
NLP 学习曲线数据集具有双层层次结构(bi-level hierarchy),且该层次结构是可交换的(exchangeable)。利用这种结构 + 任务间相关性可以做零样本预测。
方法详解¶
整体框架¶
研究流程:数据建模(双层层次结构)→ MaGP 模型训练 → 零样本预测缺失曲线 → 蒙特卡洛模拟 → 概率 Scaling Law
层次结构的定义¶
三个实验场景对应不同的层次定义:
| 数据集 | 任务 \(t\)(第一层) | 数据实例 \(d\)(第二层) | 模型大小 |
|---|---|---|---|
| nanoGPT | embedding 参数数 | 层数 | \(n_i\) 由两者决定 |
| 双语翻译 | 源语言 | 目标语言 | 固定模型 |
| 多语翻译 | 源语言 | 目标语言 + 模型大小 | 不同大小 M2M100 |
关键设计:MaGP 模型¶
采用 Ma et al. (2023) 提出的潜变量多输出高斯过程:
生成过程:
各组件含义: - \(g(\mathbf{x})\):共享均值函数 — 编码所有任务的共同先验信息 - \(k_g\):共享均值的协方差核 - \(l_t^d(\mathbf{x})\):第 \(t\) 个任务的第 \(d\) 个学习曲线,以 \(g(\mathbf{x})\) 为均值 - \(k_l\):曲线级别的协方差核 - \(\mathbf{h}_t \sim \mathcal{N}(\mathbf{0}, \mathbf{I})\):潜变量 — 捕捉任务间的相关性 - \(\epsilon_t\):观测噪声
预测分布(通过变分推断):
后验为多元高斯,直接给出均值和不确定性。
概率化 Scaling Law¶
标准 Scaling Law 在 log-log 域为线性:
概率估计流程(\(R\) 次蒙特卡洛): 1. 用 \(N\) 条已知曲线训练 MaGP 2. 零样本预测 \(M\) 条缺失曲线 3. 在已知 + 预测曲线上拟合 compute-efficient frontier 4. 重复 \(R\) 次,对 \(\beta_0, \beta_1\) 取平均:
主动学习策略¶
从初始训练集出发,每次选择最不确定的曲线查询:
选择 mvar 最大的曲线进行查询,重新训练模型后更新预测。
实验关键数据¶
主实验:nanoGPT 零样本预测¶
| 方法 | 划分 | MSE ↓ | MAE ↓ | MNLPD ↓ |
|---|---|---|---|---|
| MaGP | Quad | 0.03±0.01 | 0.12±0.02 | 2.58±2.56 |
| DHGP | Quad | 0.07±0.00 | 0.20±0.01 | 3.25±0.24 |
| BNN (LC) | Quad | 10.69±0.43 | 2.82±0.03 | 596.05±23.79 |
| BNN (orig) | Quad | 13.96±0.75 | 3.06±0.05 | 778.95±41.90 |
| MaGP | Tri | 0.02±0.01 | 0.10±0.02 | 0.87±0.29 |
| DHGP | Tri | 0.07±0.00 | 0.19±0.00 | 1.85±0.63 |
| MaGP | T1 | 0.04±0.05 | 0.12±0.08 | 0.80±1.54 |
| DHGP | T1 | 0.08±0.00 | 0.18±0.00 | 0.87±0.09 |
MaGP 在所有划分和指标上一致优于 baseline。BNN 方法由于训练数据太少(仅 29 条曲线 × 11 点)表现极差。
Scaling Law 预测¶
| 训练-测试划分 | 预测 Scaling Law | AbC ↓ | 计算成本 (PetaFLOPs) |
|---|---|---|---|
| Quad | \((-0.043\pm0.002)c + (2.957\pm0.074)\) | 0.521±0.069 | \(1.28 \times 10^5\) |
| Tri | \((-0.052\pm0.005)c + (3.352\pm0.202)\) | 0.160±0.172 | \(2.06 \times 10^5\) |
| T1 | \((-0.059\pm0.006)c + (3.636\pm0.245)\) | 0.111±0.222 | \(5.15 \times 10^5\) |
Ground truth: \(-0.056c + 3.51\)。
发现: - Tri 和 T1 划分的 Scaling Law 预测非常接近 ground truth - 训练数据越多 → AbC 越低(更准确),但不确定性也可能增加 - Quad 划分最省计算但偏差最大
消融实验:层次可交换性验证¶
| 方法 | 划分 | MSE ↓ | MAE ↓ |
|---|---|---|---|
| MaGP (交换) | Quad | 0.04±0.04 | 0.11±0.07 |
| DHGP (交换) | Quad | 0.11±0.00 | 0.26±0.01 |
| MaGP (交换) | T1 | 0.01±0.02 | 0.08±0.04 |
| DHGP (交换) | T1 | 0.16±0.02 | 0.34±0.02 |
交换层次后 MaGP 依然优于 baseline,甚至在 T1 上表现更好——层次结构可交换假说得到验证。
主动学习查询策略对比¶
四种策略在 AbC 上的表现: - Active Learning:最稳定、最低不确定性,AbC 在所有查询次数上都保持最低或接近最低 - Largest First:AbC 接近 Active Learning 但成本更高、不确定性更大 - Smallest First:初期 AbC 偏高 - Random:不确定性最大
双语翻译零样本预测¶
在双语翻译(mBART50 + Transformer)数据集上: - MaGP 在 BLEU 和 ChrF 指标上均取得最低 RMSE - 朴素基线(源/目标语言曲线平均)变异性很大 - DHGP 改善了朴素基线但不确定性仍高 - 证实了双层层次结构建模的优势
关键发现¶
- 在极小数据集(最多 30 条曲线、每条 11 个点)上,MaGP 显著优于 BNN 和 DHGP
- 层次可交换性成立:不同的层次定义给出相似的预测性能
- 主动学习策略能有效减少不确定性,提供最可靠的 Scaling Law 预测
- 概率化 Scaling Law 提供了点估计 + 不确定性,比传统确定性拟合更有信息量
亮点与洞察¶
- 问题建模角度新颖:把 Scaling Law 推导重新框架为多任务学习 + 零样本预测问题,而非传统的参数化拟合
- 层次结构假说有力:在三个不同的 NLP 数据集上一致验证了双层层次结构的有效性
- 概率化 Scaling Law 是重要贡献:传统方法只给点估计,MaGP + MC 模拟给出分布,对决策更有价值
- 主动学习策略:提供了"如何选择下一个要训练的模型"的原则性方法,有实际部署价值
- 极小数据有效:仅 29 条学习曲线 × 11 点就能做出有意义的预测,这对资源受限的研究者非常重要
- 模型选择直觉:MaGP 用潜变量捕捉任务相关性,DHGP 靠层次发现聚类——当任务间有强相关时 MaGP 胜出
局限与展望¶
- 数据集规模有限:最大仅 30 条曲线,未在真正大规模(如 Chinchilla 规模)场景验证
- 仅限 NLP:虽然框架通用,但只在 NLP 任务上测试
- nanoGPT 是小模型:与产业界关心的大模型(70B+)之间有 gap
- 层次定义需要先验知识:用户需要判断哪些因素构成层次,不同领域可能不直观
- 计算复杂度:GP 的 \(O(n^3)\) 复杂度在曲线数或点数增大时可能成为瓶颈
- 改进方向:
- 在更大规模模型(Llama-70B 级别)上验证
- 自动发现层次结构(而非手动指定)
- 结合 Chinchilla optimal 理论做更精细的 Scaling Law 预测
- 扩展到 CV、Speech 等其他领域
相关工作与启发¶
- 与 Hoffmann et al. (2022, Chinchilla) 的关系:Chinchilla 通过穷举训练推导 Scaling Law,本文用零样本预测大幅降低成本
- 与 Klein et al. (2016, BNN) 的对比:BNN 需 256+ 配置,本文仅需 <30 条曲线
- 与 Hägele et al. 提出的替代训练技术互补:前者从训练端降低成本,本文从预测端降低成本
- Hensman et al. (2013, DHGP):层次 GP 用于基因表达数据,本文首次将类似思想引入 NLP 学习曲线
- Ma et al. (2023, MaGP):提供了底层模型,本文的贡献在于将其应用于 Scaling Law 推导场景 + 发现 NLP 数据集的层次特性
启发:在做 Scaling Law 研究时,不必训练所有配置——通过对已训练模型之间的相关性建模,可以用远少于传统方法的计算资源推导出接近真实的 Scaling Laws。
评分¶
- 新颖性: ⭐⭐⭐⭐ — 层次 GP 做 Scaling Law 预测是好的组合创新;MaGP 模型本身非本文贡献但应用场景新颖
- 实验充分度: ⭐⭐⭐⭐ — 三个数据集、多种 baseline、可交换性验证、主动学习策略,很全面;但数据集规模偏小
- 写作质量: ⭐⭐⭐⭐ — 结构严谨,三个假说逐步验证的叙事清晰;公式较多但解释充分
- 价值: ⭐⭐⭐⭐ — 概念验证阶段,距离实际替代传统 Scaling Law 研究还需更大规模验证,但方向有价值