跳转至

Pretraining Scaling Laws for Generative Evaluations of Language Models

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=Ym33xJYINV
代码: 待确认
领域: LLM 预训练 / Scaling Laws
关键词: 缩放定律, 生成式评测, pass@k, 计算最优, Pythia

一句话总结

本文为「生成式评测」(数学解题等可验证二值奖励、按 pass@k 打分的任务)提出并系统对比了三套预训练缩放定律——分别以预训练算力参数量+训练 token黄金参考解的对数似然为自变量去拟合并外推 pass@k;揭示了采样次数 \(k\) 是一个能调控缩放行为与可预测性的新杠杆,发现「黄金参考似然」定律的参数在近 5 个数量级上异常稳定,并从理论上证明算力定律就是参数+token 定律的「计算最优包络」。

研究背景与动机

领域现状:神经缩放定律(Kaplan、Hoffmann/Chinchilla 等)已经把「算力/参数/数据 → 性能」的可预测映射做成了前沿大模型研发的基础设施。但绝大多数工作只刻画了两类指标的缩放:预训练 loss(交叉熵)和判别式下游评测(多选题、QA 这类离散正确率)。

现有痛点:我们真正在意的很多能力是生成式的——写证明、自动形式化数学、做软件工程。生成式评测和判别式评测有本质区别:性能是从模型开放式采样里算出来的,于是凭空多出一堆新维度(采样温度、采样算法、每题尝试几次、用什么指标打分)。这类任务的缩放规律几乎没人系统刻画过(作者举例 Gadre 等人研究的 46 个任务里一个生成式都没有)。

核心矛盾:判别式正确率是「正确/错误选项的离散函数」,而生成式常用的 pass@k 是「从模型生成分布里导出的连续概率」——两者数学性质不同,已有的 loss/判别式缩放定律不能直接照搬。更关键的是,生成式评测引入了一个判别式任务里根本不存在的超参数 \(k\)(每题尝试次数),它会不会改变缩放定律本身?

本文目标:在一个聚焦设定下回答三个子问题——(1) 怎么用预训练资源去拟合 pass@k 随规模的变化;(2) 怎么用便宜模型去外推预测最贵模型的 pass@k;(3) \(k\) 在其中扮演什么角色。设定为:可验证二值奖励的基准、每题多次尝试、用 pass@k 打分(GSM8K、MATH)。

切入角度:作者借鉴 GPT-4 技术报告(OpenAI 2024)「负对数 pass 率随算力呈幂律」的观察,把它扩展成一个可被严格回测(backtesting)的框架,并刻意把 \(k\) 单独拎出来当主变量——因为 \(k\) 是放大推理时算力最简单有效的杠杆。

核心 idea:不止提一套定律,而是同时比较三套不同自变量的缩放定律,并把 \(k\) 显式参数化进所有定律参数里,从而揭示「哪套定律最稳、\(k\) 怎么改变缩放、为什么算力定律和参数+token 定律会等价」。

方法详解

整体框架

这篇工作的「方法」本质是一套测量—拟合—外推—证明的分析框架,而不是一个可训练的模型。整体流程是:取 Pythia 家族 8 个规模(14M–12B 参数、最多 300B token)的密集中间 checkpoint,在 GSM8K / MATH 各 128 题上做温度 \(\tau=1.0\) 采样,用无偏估计器算出每个 checkpoint 的 \(\text{pass}_B@k\);然后把 \(-\log(\text{pass}_B@k)\) 分别对三种自变量做幂律回归,得到三套缩放定律;再用「回测」(backtesting,类交叉验证)评估每套定律能不能用便宜 checkpoint 外推出最贵模型(Pythia-12B / 300B token,约 \(2.16\times10^{22}\) FLOP)的 pass@k;最后从理论上把算力定律和参数+token 定律连起来。

pass@k 用 Chen et al. (2021) 的无偏、低方差估计器:对第 \(i\) 题抽 \(n_i>k\) 个样本、数出 \(s_i\) 个成功,再对所有大小为 \(k\) 的子集平均,

\[\text{pass}_i@k \;\overset{\text{def}}{=}\; 1 - \frac{\binom{n_i-s_i}{k}}{\binom{n_i}{k}}, \qquad \text{pass}_B@k \;\overset{\text{def}}{=}\; \frac{1}{|B|}\sum_{i\in B}\text{pass}_i@k\]

之所以只选 Pythia,是因为它是作者所知唯一同时满足「参数 \(N\) 和 token \(D\) 双向密集采样 + 跨多个数量级算力 + 公开每个 checkpoint 的 token 预算」的公开模型族,这些是拟合 5 参数定律的硬条件。算力近似为 \(C\approx 6ND\)

关键设计

1. 把采样次数 \(k\) 当成缩放的控制杠杆

判别式评测里没有 \(k\) 这回事,而生成式评测里「每题尝试几次」直接改变性能定义。本文的关键洞察是:不该把 \(k\) 当成事后固定的常数,而要把它显式塞进缩放定律的每个参数里,写成 \(E_0(k),\,C_0(k),\,\alpha(k)\) 这样的 \(k\) 的函数。这样 \(k\) 就从「评测细节」升格为「能调控缩放行为与可预测性的旋钮」。实测规律很干净:随 \(k\) 增大,不可约误差 \(E_0(k)\) 大致随 \(k\) 指数衰减、在 \(k\approx 100\) 时基本归零(对应「一题在多次尝试下仍解不出的概率随尝试数指数下降」),于是定律退化成没有不可约误差的纯幂律;同时幂律指数 \(\alpha(k)\) 平滑变陡(GSM8K 上从 \(k=1\)\(\approx0.12\) 升到 \(k=10^4\)\(\approx0.38\)),算力前因子 \(C_0(k)\) 单调上升约 4 个数量级。直观结论:更大的采样预算会消掉性能平台、并让 pass@k 随算力涨得更陡。

2. 三套不同自变量的并行缩放定律

作者不押注单一定律,而是用三种不同的「资源代理量」各拟合一套,正面比较谁拟合更紧、谁外推更准:

  • 算力定律(自变量 \(C\)):\(-\log(\text{pass}_B@k)(C,k) = E_0(k) + C_0(k)\,C^{-\alpha(k)}\),最简洁,直接对应「花了多少算力」。
  • 参数+token 定律(自变量 \(N,D\)):\(-\log(\text{pass}_B@k)(N,D,k) = E_0(k) + N_0(k)\,N^{-\beta(k)} + D_0(k)\,D^{-\gamma(k)}\),把算力拆成参数和数据两项。它在全量范围内拟合更紧(残差散点更小),但在最大算力那个 checkpoint 上相对误差反而偏大,说明「拟合便宜模型更好」未必等于「外推前沿更准」。
  • 黄金参考似然定律(自变量 = 黄金参考解的平均对数似然):先算 \(\text{GoldProb}_B \overset{\text{def}}{=} \frac{1}{|B|}\sum_{i\in B} p_\theta(\text{Gold Reference}_i \mid \text{Problem}_i)\),再拟合 \(-\log(\text{pass}_B@k) = \xi_0(k) + K_0(k)\cdot\big[-\log \text{GoldProb}_B\big]^{\kappa(k)}\)。它用一个「模型给标准答案打多高概率」的可直接计算量来预测「模型自己采样能不能解出」,拟合比算力定律更紧、更像纯幂律。

三套定律在最终预测精度上大致相当,差异是细节级(算力定律在小 \(k\) 略差、黄金参考定律在大 \(k\) 略差)——这本身就是个有用结论:你可以挑最方便/最稳的那套用。

3. 黄金参考似然定律的参数超稳定性

这是全文最反直觉、也最有实用价值的发现。判断一套缩放定律好不好用,关键看「用便宜模型拟合出的参数,会不会随着纳入更贵的模型而剧烈漂移」。作者用回测量化这点:固定目标为 Pythia-12B/300B token,对一串算力上限 \(C_{\max}\le C_{\text{target}}\),每次只用 \(C\le C_{\max}\) 的 checkpoint 拟合、外推到目标、量相对误差。结果是:算力定律和参数+token 定律的参数,只有在拟合用到了「距目标 \(\sim1.5\)\(2.5\) 个数量级以内」的 checkpoint 时才稳定下来;而黄金参考似然定律的参数 \(\xi_0(k),K_0(k),\kappa(k)\) 在比目标便宜近 5 个数量级时就已经收敛到全量拟合值,且对所有 \(k\) 都成立。换句话说,前两套定律要「快到终点」才靠谱,黄金参考定律「很早就锁定了」,是远程外推的鲁棒信号。作者也坦言不完全清楚为什么——下一 token 采样是个分支过程、有效解路径可能指数多,为何「标准答案这一条特定路径的似然」会和 pass 率强相关,仍待理论解释。

4. 算力定律是参数+token 定律的「计算最优包络」

算力定律和参数+token 定律预测精度几乎一样,作者追问背后是否有更深的联系,结论是:算力定律就是参数+token 定律在固定算力预算下取最优分配后的包络。固定基准 \(B\)\(k\)、给定预算 \(C\approx cND\),在所有满足 \(ND=C/c\)\((N,D)\) 上最小化参数+token 定律的右端,代入最小值点恰好得到算力定律,且指数映射为

\[\alpha(k) = \Big(\tfrac{1}{\beta(k)} + \tfrac{1}{\gamma(k)}\Big)^{-1}, \qquad E_0(k)=E_0(k)\]

即算力指数是参数指数和 token 指数的「调和式」组合(\(\beta=\gamma\)\(N^\*,D^\*\) 都按 \(C^{1/2}\) 涨)。偏离最优分配 \((N^\*,D^\*)\) 会带来一个无量纲的错配惩罚 \(\Phi(r)\ge1\)\(r\) 为错配比,是 Gadre 等人「过训练倍数」\(M\) 的倒数),把它折算成「有效算力倍数」\(\big(\text{有效算力}/\text{真实算力}\big)=\Phi(r;\beta,\gamma)^{-1/\alpha(k)}\)。小偏离无伤大雅(\(\Phi=1+\tfrac{\beta\gamma}{2}(\log r)^2+\dots\)),但长期偏离最优脊线会让有效算力损失数个数量级;若按固定比例缩放 \(N,D\) 而不随 \(C\) 重新优化,有效斜率退化到 \(\alpha_{\text{path}}=\tfrac{\min\{\beta,\gamma\}}{2}\)。这把他们的过训练缩放定律扩展到了生成式评测与 \(k\ge1\) 的 pass@k。

损失函数 / 训练策略

本文不训练模型,没有损失函数。「拟合」指的是对各定律的 5 个(或 3 个)参数做曲线回归;「预测」由回测协议定义:用 \(C\le C_{\max}\) 的 checkpoint 拟合、外推到目标算力 \(C_{\text{target}}\)、量绝对相对误差

\[\text{RelativeError}(k, C_{\max}) = \frac{\big|-\log(\text{pass}_B@k_{\text{target}}) - \hat E_0(k) - \hat C_0(k)\cdot C_{\text{target}}^{-\hat\alpha(k)}\big|}{-\log(\text{pass}_B@k_{\text{target}})}\]

并把结果作为算力比 \(C_{\max}/C_{\text{target}}\) 的函数报告。

实验关键数据

主实验

设定:Pythia 家族 8 个规模、跨约 5 个数量级算力,GSM8K / MATH 各 128 题,\(\tau=1.0\) 温度采样,目标模型 Pythia-12B/300B token(\(\approx2.16\times10^{22}\) FLOP)。

维度 算力定律 参数+token 定律 黄金参考似然定律
自变量 \(C\) \(N,D\) \(-\log\text{GoldProb}_B\)
范围内拟合紧度 一般 最紧(残差最小) 紧、最接近纯幂律
参数稳定所需算力范围 距目标 \(\sim\)1.5–2.5 个数量级 \(\sim\)1.5–2.5 个数量级 \(\sim\)5 个数量级(远更稳)
预测误差(小 \(k\) 略高 略低 略低
预测误差(大 \(k\) 持平 持平 略高

消融 / 分析:\(k\) 对 GSM8K 算力定律参数的影响

\(k\) 不可约误差 \(E_0(k)\) 算力指数 \(\alpha(k)\) 说明
1 \(\approx2.0\) \(\approx0.121\) 有明显性能平台
100 \(\approx0\) 居中 \(E_0\) 已基本归零
10000 \(\approx0\) \(\approx0.375\) 退化为更陡的纯幂律

MATH vs GSM8K(基准依赖性)

现象 GSM8K MATH 解读
高采样下 \(E_0(k)\) \(k\approx100\) 时归零 \(k=10^4\)\(\approx0.45\) \(E_0\) 反映基准难度,MATH 明显更难
\(k\) 下算力指数 \(\alpha(k)\) \(\approx0.38\) \(\approx0.58\) 越难的基准「天花板余量」越大,幂律越陡
回测稳定性 \(\gamma(k)\) 仅约 1 个数量级稳 部分参数在 MATH 上反而更不稳,成因未明

关键发现

  • \(k\) 是真正的缩放控制变量:增大 \(k\) 同时消掉不可约误差、陡化幂律、改变可预测性——这是判别式评测里不存在的自由度。
  • 稳定性 ≠ 拟合紧度也 ≠ 预测精度:参数+token 定律拟合最紧,但外推不比算力定律好;黄金参考定律预测精度只是「相当」,真正赢在参数早早收敛,适合远程预报。
  • 不可约误差就是基准难度的量化:同一套方法,GSM8K 的 \(E_0\) 快速归零、MATH 的 \(E_0\) 高位不降,直接把「MATH 更难」变成可读数的数字。
  • 算力定律没有独立性:它只是参数+token 定律的最优分配「影子」,偏离最优脊线会按 \(\Phi(r)^{-1/\alpha}\) 浪费有效算力。

亮点与洞察

  • 把评测超参 \(k\) 提升为缩放定律的一等公民:以往把 \(k\) 当固定细节,本文把所有定律参数都写成 \(k\) 的函数,发现 \(k\) 能平滑地把「带平台的饱和曲线」变成「无平台的纯幂律」,这是看待生成式评测的一个新视角。
  • 用「标准答案似然」预报「采样能否解出」\(\text{GoldProb}_B\) 是个不用采样、forward 一遍就能算的量,却成了最稳的远程预测信号——这对「想省下昂贵生成式采样、提前预报前沿模型能力」非常实用。
  • 理论把两套经验定律统一\(\alpha=(1/\beta+1/\gamma)^{-1}\) 的调和式映射 + 无量纲错配惩罚 \(\Phi(r)\),把「Chinchilla 式参数-数据分配」和「算力幂律」「过训练倍数」三件事串成一条逻辑链,可直接迁移到指导 \(N,D\) 分配。

局限与展望

  • 只在单一模型族(Pythia)上验证:作者明说这是为了满足「密集 checkpoint + 公开 token 预算 + 跨多数量级」的硬约束而做的必要妥协,但结论能否推广到 Llama/Qwen 等族未验证。
  • 只覆盖 pass@k 一种指标:其他生成式指标(如部分得分、过程奖励)与任务(代码、形式化证明)是否服从同样规律仍未知。
  • 采样维度被刻意冻结:为隔离 \(k\),温度固定 \(\tau=1.0\)、解码算法固定,温度/top-p 等如何与缩放交互留作未来工作。
  • 黄金参考似然为何这么稳缺乏理论:作者承认不清楚「特定参考路径似然」与 pass 率强相关的机制,也不知它在重度优化压力下是否仍鲁棒——这恰是最值得追的后续。

相关工作与启发

  • vs Kaplan / Hoffmann(Chinchilla)经典缩放定律:他们刻画预训练 loss 随 \(N,D,C\) 的缩放;本文把对象换成生成式 pass@k,并证明算力定律是参数+token 定律的计算最优包络——既继承了 Chinchilla 的最优分配思想,又揭示了 \(k\) 这一新维度。
  • vs 判别式下游缩放定律(Schaeffer、Gadre、Bhagia 等):他们研究多选/QA 这类离散正确率;本文强调 pass@k 是「从生成分布导出的连续概率」,性质不同,需要单独的定律框架。
  • vs Gadre et al. 过训练缩放定律:本文的错配比 \(r(C)\) 是其过训练倍数 \(M\) 的倒数,把过训练分析从 loss 扩展到了 \(k\ge1\) 的生成式 pass@k。
  • vs GPT-4 技术报告 / Hu et al.:直接受其「负对数 pass 率随算力呈幂律」启发,但把单点观察做成了可严格回测、跨三种自变量比较、并带理论证明的完整框架。

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 首次系统刻画生成式评测 pass@k 的缩放定律,并把 \(k\) 提升为缩放控制变量、给出三定律统一的理论。
  • 实验充分度: ⭐⭐⭐⭐ 跨 5 个数量级、双基准、严格回测,扎实;但仅限单一模型族 Pythia 与单一指标 pass@k。
  • 写作质量: ⭐⭐⭐⭐⭐ 三定律对照清晰,理论与实证衔接自然,结论提炼到位。
  • 价值: ⭐⭐⭐⭐⭐ 「用标准答案似然远程预报生成式能力」与计算最优包络理论对实际预训练决策都很有指导性。