Active Budget Allocation for Efficient Scaling Law Estimation via Surrogate-Guided Pruning¶
会议: ICML2026
arXiv: 2605.17234
代码: 无明确仓库(论文称将公开代码)
领域: 优化 / Scaling Law / 预算分配
关键词: scaling law、Successive Halving、学习曲线、Gaussian Process、预算分配
一句话总结¶
本文把 scaling law 实验中的训练预算分配建模为多轮资源选择问题,用 Successive Halving 结合学习曲线 surrogate 预测未来潜力,在 synthetic 和 nanoGPT 学习曲线上以最高 98.7% 的训练成本节省近似完整 scaling law。
研究背景与动机¶
领域现状:Scaling law 用经验学习曲线描述 loss 与 compute、模型规模、数据规模之间的关系,是规划大模型训练预算、模型尺寸和数据需求的重要工具。经典做法往往需要训练许多不同规模模型,并观察其 loss-compute frontier。
现有痛点:完整 scaling law 研究极其昂贵。为了得到可靠 frontier,研究者可能要训练几十到上百个模型到较长 compute 区间,但其中很多模型最终不会贡献到最优前沿。传统 uniform allocation 把预算平均给所有模型,浪费在过小、过早 plateau 或过大但短期表现差的模型上。
核心矛盾:小模型早期 loss 下降快,容易在短预算下显得更好;大模型短期 loss 可能不占优,但后期潜力更高。若只按当前 loss 剪枝,会过早淘汰未来能贡献 scaling frontier 的模型;若不剪枝,则算力成本不可承受。
本文目标:作者希望在固定总 FLOPs 预算下,主动决定哪些模型继续训练、哪些模型停止,使最终获得的一组 learning curves 足以拟合准确 scaling law,同时大幅降低相对“全模型完整训练”的成本。
切入角度:超参数优化中的 Successive Halving 已经能在多配置间分配资源,但它只看已观测 loss。论文进一步让 surrogate model 预测每条 learning curve 的未来 continuation,用“未来可能达到的最低 loss”而不是“当前 loss”决定保留哪些模型。
核心 idea:用学习曲线 surrogate 修正 Successive Halving 的短视剪枝,让预算流向对 loss-compute frontier 更有潜力的模型。
方法详解¶
本文把 scaling law 数据采集过程拆成若干轮。每轮给当前候选模型分配同样的新增 compute,训练得到部分 learning curve;然后根据这些曲线选择一部分模型进入下一轮。与普通 SH 的区别在于,SH LMC/SH DE 不只看当前曲线终点,而是先预测如果这个模型继续训练到后续预算,它可能达到什么 loss,再按预测潜力剪枝。
整体框架¶
输入是初始模型集合 \(\mathcal M_0\)、总预算 \(B\)、剪枝系数 \(\eta\)。第 \(r\) 轮中,每个仍保留的模型获得预算 \(C_r=\lfloor B/(|\mathcal M_r|\lceil\log_\eta |\mathcal M_0|\rceil)\rfloor\)。模型训练到当前累计预算后形成 learning curve \(L_m(C)\)。
若不使用 surrogate,Top_k 直接按已观测曲线的最低 loss 选择下一轮模型。若使用 surrogate,则先用 LMC GP 或 Deep Ensemble 预测每条曲线延伸到最后一轮预算时的未来 loss,并把观测曲线和预测 continuation 合并用于选择。最终输出只保存真实训练得到的曲线,不把 surrogate continuation 当作已观测数据;这些曲线再用于拟合 compute-loss scaling law。
关键设计¶
-
把 scaling law 采样转成预算受限的 proxy optimization:
- 功能:避免直接求解“哪组曲线最能拟合 scaling law”这个没有金标准且难优化的问题。
- 核心思路:作者先优化一个 proxy:在总预算内找到能达到最低 validation loss 的模型集合。这个过程自然产生一组被不同程度训练过的 learning curves,再用它们拟合 scaling law。
- 设计动机:Scaling law 的真实目标需要知道完整训练后的 ground-truth frontier,但这正是昂贵之处。proxy 目标可直接从当前训练 loss 得到,便于用 SH 类算法近似。
-
LMC Gaussian Process 学习跨曲线相关性:
- 功能:根据多个模型早期学习曲线预测某个模型后续训练的 loss trend。
- 核心思路:LMC surrogate 把曲线外推建模为 multi-input multi-output GP,kernel 由 exponential decay、white noise 和 bias 子核组合,并通过 co-regionalisation 矩阵捕捉不同模型曲线之间的相关性。小模型何时 plateau、大模型曲线何时转优,都可为其他曲线提供外推信号。
- 设计动机:普通 SH 容易被早期 loss 误导。LMC 利用曲线形状先验和跨模型相关性,让较大模型即便当前 loss 不最低,也可能因为预测未来更优而被保留。
-
Deep Ensemble surrogate 与 scaling law extrapolation:
- 功能:比较非参数 GP 与参数化 curve family 对 budget allocation 的帮助,并利用 surrogate 预测扩展 compute range。
- 核心思路:Deep Ensemble 用两层 MLP 条件化 power law、exponential、Morgan-Mercer-Flodin 等函数的系数,预测学习曲线形状。后续 synthetic 实验还在 SH LMC 后用 GP mean/UCB/LCB 外推 learning curves,减少 scaling law 与 ground truth 的 AbC 差距。
- 设计动机:不同数据集的曲线噪声和形状不同,单一 surrogate 未必最优;同时 scaling law 常需要超出已训练 compute 区间,surrogate 的不确定性边界可以给出决策区间。
损失函数 / 训练策略¶
LMC GP 用 L-BFGS 和 20 个随机重启优化,Deep Ensemble 使用 5 个随机初始化的两层 perceptron,训练 1000 次迭代。实验默认每条曲线抽取 20 个观测点训练 surrogate。Scaling law 拟合采用 \(L^{SL}(C)=(C/\alpha)^{-\gamma}\),并在指定 compute 区间上用 Area between Curves (AbC) 衡量拟合曲线与 ground truth scaling law 的距离。
实验关键数据¶
主实验¶
Synthetic learning curves 上,SH LMC 相对普通 SH 有稳定提升,而 uniform allocation 明显更差。
| 模型数 \(M_0\) | 预算 \(B\) (petaFLOPs) | SH mean loss | SH LMC mean rel. improv. | UA mean rel. degradation | 结论 |
|---|---|---|---|---|---|
| 5 | \(10^2\) | 6.40±9.07 | 5.15% (max 20.30%) | -10.17% | 少量模型时 surrogate 改善明显 |
| 5 | \(10^4\) | 3.84±2.03 | 5.47% (max 16.70%) | -7.59% | 高预算仍有收益 |
| 10 | \(10^3\) | 3.86±0.38 | 2.38% (max 6.11%) | -14.06% | SH 已强,但 LMC 继续改进 |
| 20 | \(10^4\) | 3.18±0.09 | 1.50% (max 6.53%) | -16.40% | 模型多时相对收益变小但稳定为正 |
Real-world nanoGPT 学习曲线实验中,SH LMC 也优于 SH 和多数 DE surrogate,并且所有策略都优于 UA。
| \(M_0\) | 预算 \(B\) | SH mean loss | SH LMC rel. improv. | 最强 DE rel. improv. | UA rel. degradation |
|---|---|---|---|---|---|
| 5 | \(10^4\) | 3.17±0.06 | 2.58% | 2.32% (DE EXP) | -5.09% |
| 5 | \(10^5\) | 2.97±0.03 | 2.36% | 2.40% (DE PL) | -0.74% |
| 10 | \(10^5\) | 3.00±0.02 | 2.82% | 2.14% (DE MMF) | -0.81% |
| 20 | \(10^4\) | 3.30±0.02 | 2.84% | 2.02% (DE PL) | -11.46% |
| 20 | \(10^5\) | 3.03±0.01 | 2.24% | 1.44% (DE EXP) | -2.96% |
Scaling law 拟合层面,SH 和 SH LMC 都能在远低于完整训练成本的预算下得到接近 ground truth 的 law。
| 设置 | 方法 | AbC vs Full Data SL | Loss regret | 相对完整曲线成本节省 |
|---|---|---|---|---|
| \(M_0=5,B=10^4\) | SH | 0.09±0.05 | 0.43±0.09 | 94.00% |
| \(M_0=5,B=10^4\) | SH LMC | 0.11±0.07 | 0.41±0.10 | 94.00% |
| \(M_0=10,B=10^4\) | SH | 0.07±0.02 | 0.56±0.07 | 97.50% |
| \(M_0=10,B=10^4\) | SH LMC | 0.09±0.04 | 0.51±0.06 | 97.50% |
| \(M_0=20,B=10^4\) | SH | 0.12±0.04 | 0.67±0.03 | 98.70% |
| \(M_0=20,B=10^4\) | SH LMC | 0.11±0.07 | 0.59±0.05 | 98.70% |
消融实验¶
论文的关键分析是 surrogate extrapolation 能否弥补已训练 compute range 的不足。
| 预算 \(B\) | AbC SH LMC | AbC GP Mean | AbC UCB | AbC LCB | 说明 |
|---|---|---|---|---|---|
| \(10^3\) | 5.84 | 0.51±0.27 | 0.62±0.27 | 0.49±0.16 | 低预算下直接曲线偏离大,GP 外推显著修正 |
| \(10^4\) | 3.88 | 0.36±0.42 | 0.48±0.13 | 0.45±0.19 | 预算增加后不确定性下降 |
| \(10^5\) | 2.17 | 0.00±0.00 | 0.53±0.31 | 0.38±0.16 | GP mean 几乎恢复 ground truth |
| 分析维度 | 观察 | 启示 |
|---|---|---|
| synthetic clean curves | SH LMC 改善最大可达 5.47% mean / 20.30% max | 曲线规律强时 GP 能很好利用跨曲线相关性 |
| noisy curves | SH LMC 在 white/Brownian/OU 噪声下平均 minimum loss 仍低于 SH | surrogate 对短期噪声有一定鲁棒性 |
| nanoGPT real curves | 相对收益约 2%-3%,小于 synthetic | 真实曲线更接近、更嘈杂,需要更精细预测 |
| UA baseline | 多数设置下明显退化 | 简单平均预算不是 scaling law 采样的好策略 |
关键发现¶
- 普通 SH 已经比 uniform allocation 好很多,但会偏向早期下降快的小模型。加入 surrogate 后,较大但后期潜力高的模型更可能被保留。
- SH LMC 的收益在 synthetic 数据上更明显,在 nanoGPT 上更温和但稳定。考虑到大模型训练成本,即使 2%-3% 的 loss 改善或错误剪枝减少也有实际价值。
- Scaling law 的准确性并不只取决于最低 loss。表 3 中 SH 和 SH LMC 的 AbC 有时接近,说明两者都能形成可用前沿;LMC 更突出的优势是降低 regret 和提供外推/不确定性。
- 成本节省是核心价值。相对训练所有选中模型完整 learning curves,方法可节省 75.61% 到 98.70% 的 compute。
亮点与洞察¶
- 论文把 scaling law 数据采集这件事从“经验上多训几个模型”转成了明确的 resource allocation 问题。这对大模型实验规划很有现实意义。
- 使用 learning-curve surrogate 修正 SH 的短视性很自然。早期小模型好不代表最终 frontier 好,外推模型正好补足这一缺陷。
- 作者没有把 surrogate 预测曲线直接混入最终训练数据,而是只用于剪枝决策,最终 scaling law 仍基于真实训练曲线。这一点让方法比纯外推更稳健。
- GP UCB/LCB 用于 scaling law 区间估计很有启发。实际训练预算决策往往不只要一个点估计,还要知道乐观/悲观曲线范围。
局限与展望¶
- 真实实验只覆盖 nanoGPT 单一模型族,最大到 1.5B 参数。更大规模、不同架构族、不同数据集上的有效性仍需验证。
- Surrogate 训练依赖早期 learning curve 足够有预测性。若存在 late bloomer 模型、训练 regime 切换或数据 curriculum,早期曲线可能误导外推。
- SH LMC 不总是在 AbC 上显著优于 SH,说明最低 loss proxy 与 scaling law 拟合目标仍不完全一致。
- 方法需要预先定义候选模型集合和 compute range。若候选空间本身覆盖不合理,再好的预算分配也难以恢复正确 frontier。
- GP/LMC 与 DE surrogate 的超参和实现复杂度高于普通 SH,真实使用时需要可靠工程工具支持。
相关工作与启发¶
- vs Uniform Allocation: UA 简单公平但浪费预算;本文用多轮剪枝把训练集中到更可能贡献 frontier 的模型。
- vs Successive Halving / Hyperband: 传统 SH 只按当前表现剪枝,本文让 surrogate 预测未来 learning curve,减少过早淘汰大模型的风险。
- vs Freeze-Thaw BO: Freeze-Thaw 等 sequential 方法一次选一个配置,不适合 scaling law 需要并行训练多条曲线的场景;本文强调并行资源分配。
- vs LC-PFN / 单曲线外推: 单曲线方法不利用跨模型曲线相关性,LMC 通过 co-regionalisation 捕捉不同规模模型之间的共同趋势。
评分¶
- 新颖性: ⭐⭐⭐⭐☆ 把 SH、学习曲线 surrogate 和 scaling law 数据采集结合得很实用,问题定义清楚。
- 实验充分度: ⭐⭐⭐⭐☆ 有 synthetic、噪声、nanoGPT 和 scaling law AbC 分析;更大模型族仍缺。
- 写作质量: ⭐⭐⭐⭐☆ 方法逻辑完整,表格丰富;符号和附录较多,阅读成本略高。
- 价值: ⭐⭐⭐⭐⭐ 对预算受限的大模型 scaling law 实验非常有价值,可直接影响训练规划。