Pretraining Scaling Laws for Generative Evaluations of Language Models¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=Ym33xJYINV
代码: 待确认
领域: LLM 预训练 / Scaling Laws
关键词: 缩放定律, 生成式评测, pass@k, 计算最优, Pythia

一句话总结¶

本文为「生成式评测」（数学解题等可验证二值奖励、按 pass@k 打分的任务）提出并系统对比了三套预训练缩放定律——分别以预训练算力、参数量+训练 token、黄金参考解的对数似然为自变量去拟合并外推 pass@k；揭示了采样次数 \(k\) 是一个能调控缩放行为与可预测性的新杠杆，发现「黄金参考似然」定律的参数在近 5 个数量级上异常稳定，并从理论上证明算力定律就是参数+token 定律的「计算最优包络」。

研究背景与动机¶

领域现状：神经缩放定律（Kaplan、Hoffmann/Chinchilla 等）已经把「算力/参数/数据 → 性能」的可预测映射做成了前沿大模型研发的基础设施。但绝大多数工作只刻画了两类指标的缩放：预训练 loss（交叉熵）和判别式下游评测（多选题、QA 这类离散正确率）。

现有痛点：我们真正在意的很多能力是生成式的——写证明、自动形式化数学、做软件工程。生成式评测和判别式评测有本质区别：性能是从模型开放式采样里算出来的，于是凭空多出一堆新维度（采样温度、采样算法、每题尝试几次、用什么指标打分）。这类任务的缩放规律几乎没人系统刻画过（作者举例 Gadre 等人研究的 46 个任务里一个生成式都没有）。

核心矛盾：判别式正确率是「正确/错误选项的离散函数」，而生成式常用的 pass@k 是「从模型生成分布里导出的连续概率」——两者数学性质不同，已有的 loss/判别式缩放定律不能直接照搬。更关键的是，生成式评测引入了一个判别式任务里根本不存在的超参数 \(k\)（每题尝试次数），它会不会改变缩放定律本身？

本文目标：在一个聚焦设定下回答三个子问题——(1) 怎么用预训练资源去拟合 pass@k 随规模的变化；(2) 怎么用便宜模型去外推预测最贵模型的 pass@k；(3) \(k\) 在其中扮演什么角色。设定为：可验证二值奖励的基准、每题多次尝试、用 pass@k 打分（GSM8K、MATH）。

切入角度：作者借鉴 GPT-4 技术报告（OpenAI 2024）「负对数 pass 率随算力呈幂律」的观察，把它扩展成一个可被严格回测（backtesting）的框架，并刻意把 \(k\) 单独拎出来当主变量——因为 \(k\) 是放大推理时算力最简单有效的杠杆。

核心 idea：不止提一套定律，而是同时比较三套不同自变量的缩放定律，并把 \(k\) 显式参数化进所有定律参数里，从而揭示「哪套定律最稳、\(k\) 怎么改变缩放、为什么算力定律和参数+token 定律会等价」。

方法详解¶

整体框架¶

这篇工作的「方法」本质是一套测量—拟合—外推—证明的分析框架，而不是一个可训练的模型。整体流程是：取 Pythia 家族 8 个规模（14M–12B 参数、最多 300B token）的密集中间 checkpoint，在 GSM8K / MATH 各 128 题上做温度 \(\tau=1.0\) 采样，用无偏估计器算出每个 checkpoint 的 \(\text{pass}_B@k\)；然后把 \(-\log(\text{pass}_B@k)\) 分别对三种自变量做幂律回归，得到三套缩放定律；再用「回测」（backtesting，类交叉验证）评估每套定律能不能用便宜 checkpoint 外推出最贵模型（Pythia-12B / 300B token，约 \(2.16\times10^{22}\) FLOP）的 pass@k；最后从理论上把算力定律和参数+token 定律连起来。

pass@k 用 Chen et al. (2021) 的无偏、低方差估计器：对第 \(i\) 题抽 \(n_i>k\) 个样本、数出 \(s_i\) 个成功，再对所有大小为 \(k\) 的子集平均，

\[\text{pass}_i@k \;\overset{\text{def}}{=}\; 1 - \frac{\binom{n_i-s_i}{k}}{\binom{n_i}{k}}, \qquad \text{pass}_B@k \;\overset{\text{def}}{=}\; \frac{1}{|B|}\sum_{i\in B}\text{pass}_i@k\]

之所以只选 Pythia，是因为它是作者所知唯一同时满足「参数 \(N\) 和 token \(D\) 双向密集采样 + 跨多个数量级算力 + 公开每个 checkpoint 的 token 预算」的公开模型族，这些是拟合 5 参数定律的硬条件。算力近似为 \(C\approx 6ND\)。

关键设计¶

1. 把采样次数 \(k\) 当成缩放的控制杠杆

判别式评测里没有 \(k\) 这回事，而生成式评测里「每题尝试几次」直接改变性能定义。本文的关键洞察是：不该把 \(k\) 当成事后固定的常数，而要把它显式塞进缩放定律的每个参数里，写成 \(E_0(k),\,C_0(k),\,\alpha(k)\) 这样的 \(k\) 的函数。这样 \(k\) 就从「评测细节」升格为「能调控缩放行为与可预测性的旋钮」。实测规律很干净：随 \(k\) 增大，不可约误差 \(E_0(k)\) 大致随 \(k\) 指数衰减、在 \(k\approx 100\) 时基本归零（对应「一题在多次尝试下仍解不出的概率随尝试数指数下降」），于是定律退化成没有不可约误差的纯幂律；同时幂律指数 \(\alpha(k)\) 平滑变陡（GSM8K 上从 \(k=1\) 的 \(\approx0.12\) 升到 \(k=10^4\) 的 \(\approx0.38\)），算力前因子 \(C_0(k)\) 单调上升约 4 个数量级。直观结论：更大的采样预算会消掉性能平台、并让 pass@k 随算力涨得更陡。

2. 三套不同自变量的并行缩放定律

作者不押注单一定律，而是用三种不同的「资源代理量」各拟合一套，正面比较谁拟合更紧、谁外推更准：

算力定律（自变量 \(C\)）：\(-\log(\text{pass}_B@k)(C,k) = E_0(k) + C_0(k)\,C^{-\alpha(k)}\)，最简洁，直接对应「花了多少算力」。
参数+token 定律（自变量 \(N,D\)）：\(-\log(\text{pass}_B@k)(N,D,k) = E_0(k) + N_0(k)\,N^{-\beta(k)} + D_0(k)\,D^{-\gamma(k)}\)，把算力拆成参数和数据两项。它在全量范围内拟合更紧（残差散点更小），但在最大算力那个 checkpoint 上相对误差反而偏大，说明「拟合便宜模型更好」未必等于「外推前沿更准」。
黄金参考似然定律（自变量 = 黄金参考解的平均对数似然）：先算 \(\text{GoldProb}_B \overset{\text{def}}{=} \frac{1}{|B|}\sum_{i\in B} p_\theta(\text{Gold Reference}_i \mid \text{Problem}_i)\)，再拟合 \(-\log(\text{pass}_B@k) = \xi_0(k) + K_0(k)\cdot\big[-\log \text{GoldProb}_B\big]^{\kappa(k)}\)。它用一个「模型给标准答案打多高概率」的可直接计算量来预测「模型自己采样能不能解出」，拟合比算力定律更紧、更像纯幂律。

三套定律在最终预测精度上大致相当，差异是细节级（算力定律在小 \(k\) 略差、黄金参考定律在大 \(k\) 略差）——这本身就是个有用结论：你可以挑最方便/最稳的那套用。

3. 黄金参考似然定律的参数超稳定性

这是全文最反直觉、也最有实用价值的发现。判断一套缩放定律好不好用，关键看「用便宜模型拟合出的参数，会不会随着纳入更贵的模型而剧烈漂移」。作者用回测量化这点：固定目标为 Pythia-12B/300B token，对一串算力上限 \(C_{\max}\le C_{\text{target}}\)，每次只用 \(C\le C_{\max}\) 的 checkpoint 拟合、外推到目标、量相对误差。结果是：算力定律和参数+token 定律的参数，只有在拟合用到了「距目标 \(\sim1.5\)–\(2.5\) 个数量级以内」的 checkpoint 时才稳定下来；而黄金参考似然定律的参数 \(\xi_0(k),K_0(k),\kappa(k)\) 在比目标便宜近 5 个数量级时就已经收敛到全量拟合值，且对所有 \(k\) 都成立。换句话说，前两套定律要「快到终点」才靠谱，黄金参考定律「很早就锁定了」，是远程外推的鲁棒信号。作者也坦言不完全清楚为什么——下一 token 采样是个分支过程、有效解路径可能指数多，为何「标准答案这一条特定路径的似然」会和 pass 率强相关，仍待理论解释。

4. 算力定律是参数+token 定律的「计算最优包络」

算力定律和参数+token 定律预测精度几乎一样，作者追问背后是否有更深的联系，结论是：算力定律就是参数+token 定律在固定算力预算下取最优分配后的包络。固定基准 \(B\) 和 \(k\)、给定预算 \(C\approx cND\)，在所有满足 \(ND=C/c\) 的 \((N,D)\) 上最小化参数+token 定律的右端，代入最小值点恰好得到算力定律，且指数映射为

\[\alpha(k) = \Big(\tfrac{1}{\beta(k)} + \tfrac{1}{\gamma(k)}\Big)^{-1}, \qquad E_0(k)=E_0(k)\]

即算力指数是参数指数和 token 指数的「调和式」组合（\(\beta=\gamma\) 时 \(N^\*,D^\*\) 都按 \(C^{1/2}\) 涨）。偏离最优分配 \((N^\*,D^\*)\) 会带来一个无量纲的错配惩罚 \(\Phi(r)\ge1\)（\(r\) 为错配比，是 Gadre 等人「过训练倍数」\(M\) 的倒数），把它折算成「有效算力倍数」\(\big(\text{有效算力}/\text{真实算力}\big)=\Phi(r;\beta,\gamma)^{-1/\alpha(k)}\)。小偏离无伤大雅（\(\Phi=1+\tfrac{\beta\gamma}{2}(\log r)^2+\dots\)），但长期偏离最优脊线会让有效算力损失数个数量级；若按固定比例缩放 \(N,D\) 而不随 \(C\) 重新优化，有效斜率退化到 \(\alpha_{\text{path}}=\tfrac{\min\{\beta,\gamma\}}{2}\)。这把他们的过训练缩放定律扩展到了生成式评测与 \(k\ge1\) 的 pass@k。

损失函数 / 训练策略¶

本文不训练模型，没有损失函数。「拟合」指的是对各定律的 5 个（或 3 个）参数做曲线回归；「预测」由回测协议定义：用 \(C\le C_{\max}\) 的 checkpoint 拟合、外推到目标算力 \(C_{\text{target}}\)、量绝对相对误差

\[\text{RelativeError}(k, C_{\max}) = \frac{\big|-\log(\text{pass}_B@k_{\text{target}}) - \hat E_0(k) - \hat C_0(k)\cdot C_{\text{target}}^{-\hat\alpha(k)}\big|}{-\log(\text{pass}_B@k_{\text{target}})}\]

并把结果作为算力比 \(C_{\max}/C_{\text{target}}\) 的函数报告。

实验关键数据¶

主实验¶

设定：Pythia 家族 8 个规模、跨约 5 个数量级算力，GSM8K / MATH 各 128 题，\(\tau=1.0\) 温度采样，目标模型 Pythia-12B/300B token（\(\approx2.16\times10^{22}\) FLOP）。

维度	算力定律	参数+token 定律	黄金参考似然定律
自变量	\(C\)	\(N,D\)	\(-\log\text{GoldProb}_B\)
范围内拟合紧度	一般	最紧（残差最小）	紧、最接近纯幂律
参数稳定所需算力范围	距目标 \(\sim\)1.5–2.5 个数量级	\(\sim\)1.5–2.5 个数量级	\(\sim\)5 个数量级（远更稳）
预测误差（小 \(k\)）	略高	略低	略低
预测误差（大 \(k\)）	持平	持平	略高

消融 / 分析：\(k\) 对 GSM8K 算力定律参数的影响¶

\(k\)	不可约误差 \(E_0(k)\)	算力指数 \(\alpha(k)\)	说明
1	\(\approx2.0\)	\(\approx0.121\)	有明显性能平台
100	\(\approx0\)	居中	\(E_0\) 已基本归零
10000	\(\approx0\)	\(\approx0.375\)	退化为更陡的纯幂律

MATH vs GSM8K（基准依赖性）¶

现象	GSM8K	MATH	解读
高采样下 \(E_0(k)\)	\(k\approx100\) 时归零	\(k=10^4\) 仍 \(\approx0.45\)	\(E_0\) 反映基准难度，MATH 明显更难
高 \(k\) 下算力指数 \(\alpha(k)\)	\(\approx0.38\)	\(\approx0.58\)	越难的基准「天花板余量」越大，幂律越陡
回测稳定性	—	\(\gamma(k)\) 仅约 1 个数量级稳	部分参数在 MATH 上反而更不稳，成因未明

关键发现¶

\(k\) 是真正的缩放控制变量：增大 \(k\) 同时消掉不可约误差、陡化幂律、改变可预测性——这是判别式评测里不存在的自由度。
稳定性 ≠ 拟合紧度也 ≠ 预测精度：参数+token 定律拟合最紧，但外推不比算力定律好；黄金参考定律预测精度只是「相当」，真正赢在参数早早收敛，适合远程预报。
不可约误差就是基准难度的量化：同一套方法，GSM8K 的 \(E_0\) 快速归零、MATH 的 \(E_0\) 高位不降，直接把「MATH 更难」变成可读数的数字。
算力定律没有独立性：它只是参数+token 定律的最优分配「影子」，偏离最优脊线会按 \(\Phi(r)^{-1/\alpha}\) 浪费有效算力。

亮点与洞察¶

把评测超参 \(k\) 提升为缩放定律的一等公民：以往把 \(k\) 当固定细节，本文把所有定律参数都写成 \(k\) 的函数，发现 \(k\) 能平滑地把「带平台的饱和曲线」变成「无平台的纯幂律」，这是看待生成式评测的一个新视角。
用「标准答案似然」预报「采样能否解出」：\(\text{GoldProb}_B\) 是个不用采样、forward 一遍就能算的量，却成了最稳的远程预测信号——这对「想省下昂贵生成式采样、提前预报前沿模型能力」非常实用。
理论把两套经验定律统一：\(\alpha=(1/\beta+1/\gamma)^{-1}\) 的调和式映射 + 无量纲错配惩罚 \(\Phi(r)\)，把「Chinchilla 式参数-数据分配」和「算力幂律」「过训练倍数」三件事串成一条逻辑链，可直接迁移到指导 \(N,D\) 分配。

局限与展望¶

只在单一模型族（Pythia）上验证：作者明说这是为了满足「密集 checkpoint + 公开 token 预算 + 跨多数量级」的硬约束而做的必要妥协，但结论能否推广到 Llama/Qwen 等族未验证。
只覆盖 pass@k 一种指标：其他生成式指标（如部分得分、过程奖励）与任务（代码、形式化证明）是否服从同样规律仍未知。
采样维度被刻意冻结：为隔离 \(k\)，温度固定 \(\tau=1.0\)、解码算法固定，温度/top-p 等如何与缩放交互留作未来工作。
黄金参考似然为何这么稳缺乏理论：作者承认不清楚「特定参考路径似然」与 pass 率强相关的机制，也不知它在重度优化压力下是否仍鲁棒——这恰是最值得追的后续。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次系统刻画生成式评测 pass@k 的缩放定律，并把 \(k\) 提升为缩放控制变量、给出三定律统一的理论。
实验充分度: ⭐⭐⭐⭐ 跨 5 个数量级、双基准、严格回测，扎实；但仅限单一模型族 Pythia 与单一指标 pass@k。
写作质量: ⭐⭐⭐⭐⭐ 三定律对照清晰，理论与实证衔接自然，结论提炼到位。
价值: ⭐⭐⭐⭐⭐ 「用标准答案似然远程预报生成式能力」与计算最优包络理论对实际预训练决策都很有指导性。