Can Small Training Runs Reliably Guide Data Curation? Rethinking Proxy-Model Practice¶

会议: ICLR2026
OpenReview: 2FZC0c06jP
代码: 待确认
领域: LLM预训练 / 数据筛选
关键词: 代理模型、数据配方消融、学习率、超参敏感性、可迁移性

一句话总结¶

这篇论文指出前沿团队普遍依赖的"用小代理模型、固定超参比较数据配方"的做法存在致命缺陷——数据集排名会被学习率的微小变化翻转，作者提出用极小学习率（$10^{-5}\sim10^{-6}$）训练代理模型作为简单补丁，并在 23 个数据配方上把代理（GPT2-125M）到目标模型（Pythia-1B）的排名 Spearman 相关性从 $<0.75$ 提升到 $>0.95$。

研究背景与动机¶

领域现状：高质量数据已经成为现代大模型进步的首要驱动力，但"什么样的数据配方更好"几乎没有理论或直觉可依，实践中只能靠真实训练来评估。直接为每个候选配方训练一个全尺寸模型成本高到不可承受，于是业界普遍采用"代理模型"（proxy model）——用一个小很多的模型在各候选数据集上分别训练，按它们的验证损失给数据集排名，再把胜出的配方推荐给真正的大模型训练团队。这套做法支撑了大量知名开源数据集和模型（DCLM、RefinedWeb、LLaMA 等）的数据决策。

现有痛点：为了"公平比较"，几乎所有数据中心化研究和 benchmark 都在所有候选配方上用同一套固定超参训练代理模型。但作者发现，这种固定配置协议存在一个微妙却致命的问题：数据集的排名结论会随训练超参（尤其是学习率）的轻微调整而翻转。论文用 DCLM 与其更激进去重的变体 DCLM-dedup-GS 做对照：在较低学习率下 DCLM 在验证损失和下游基准上都更优，但学习率稍稍调高，结论就反过来了。

核心矛盾：根本原因在于最优训练配置本身是数据依赖的——数据分布与训练超参强耦合，每个数据配方天然需要它自己的最优配置。固定超参协议不仅会让结论过拟合到那个特定设置，更严重的是它和真实的大模型开发流水线脱节：数据团队用固定超参选配方，而模型训练团队拿到数据后会针对该数据集专门调超参（GPT-3 按梯度噪声尺度定 batch size，学习率和优化器也都按数据调）。两个环节用的评价标准根本不一致。

本文目标：(1) 重新定义"高质量数据集"的评价目标，使其与真实开发流程对齐；(2) 在不大幅增加成本的前提下，给现有代理模型实践打一个能直接落地的补丁，让小规模实验的结论能可靠迁移到调过超参的大模型。

切入角度：作者从一个被忽视的事实出发——数据配方的真正价值应该是它在自己最优超参下能达到的性能，而不是在某个预设、可能次优的超参下的性能。沿着这个目标，作者用一步梯度更新的泰勒展开分析出"为什么学习率会翻转排名"，进而推断出"把学习率压到足够小"能消除这种翻转。

核心 idea：把数据配方消融的目标改为"在各自调优超参下最优"，并用极小学习率训练代理模型这一简单补丁来逼近这个目标——小学习率让排名只由数据与验证集的分布相似度（一阶梯度对齐）决定，从而在不同超参和不同模型尺度间保持稳定。

方法详解¶

整体框架¶

论文不是提出一个新模型或新算法，而是重新定义评价目标 + 给现有协议打补丁，整条逻辑是一条诊断—归因—修复的链条。

第一步，重定义目标。作者把数据配方消融形式化为：在候选数据集 $\mathcal{D}=\{D_1,\dots,D_n\}$ 中，找出在各自最优超参下验证损失最小的那个： $$D_{i^*} := \arg\min_{i\in[n]} \min_{\lambda\in\Lambda} \ell_{\text{val}}(\theta(D_i;\lambda))$$ 其中 $\theta(D;\lambda)$ 表示在数据集 $D$、超参配置 $\lambda$ 下训练得到的模型，$\Lambda$ 是受算力预算约束的可行超参空间。关键变化是内层多了一个 $\min_\lambda$——每个数据集都按它自己的最优超参评价，而不是所有数据集共用一套固定 $\lambda_0$。

第二步，诊断脆弱性。在这个新目标下，代理模型要成功必须满足：小规模选出的最优配方，在 (i) 模型放大到目标尺寸、(ii) 训练团队调优超参之后仍然最优。但当前固定超参做法连第一关都过不了——作者实验证明，仅仅学习率的微小变化就能翻转排名，并用一步梯度更新分析解释了为什么。

第三步，给出补丁。基于诊断，作者提出用极小学习率训练代理模型并按此时的验证损失给数据集排名，配套给出随机特征模型的理论证明和"极小"学习率的实用取值法则。

关键设计¶

1. 数据依赖的最优超参目标：把"公平比较"换成"各自最优"

针对"固定超参协议和真实流程脱节"这个痛点，作者把评价目标从 $\min_i \ell_{\text{val}}(\theta(D_i;\lambda_0))$（共用固定 $\lambda_0$）改写成 $\min_i \min_\lambda \ell_{\text{val}}(\theta(D_i;\lambda))$（每个数据集各自调优）。这一改动看似只是多了个内层最小化，但它纠正了整个领域的评价范式：数据配方的价值应当用它的最优可达性能来衡量。作者强调这不是吹毛求疵——数据与超参的强交互在文献里早有记录，GPT-3、PaLM、Falcon 等真实流水线都在按数据调超参，只有数据中心化研究的 benchmark 还停留在固定超参。新目标让小规模实验的"成功"有了一个和生产环境一致的定义。

2. 代理模型的超参脆弱性诊断：高阶效应的诅咒

针对"为什么固定超参会出错"，作者通过对多个关键超参（batch size、weight decay、token/参数比）做扫描，发现数据集排名对学习率最敏感，于是聚焦学习率分析。直观解释来自一步梯度更新后验证损失变化的泰勒展开： $$\Delta\ell_{\text{val}}(\theta) \approx -\eta\,\nabla\ell_{\text{val}}(\theta)\cdot\nabla\ell(\theta) + \frac{\eta^2}{2}\,\nabla\ell(\theta)^T H_{\ell_{\text{val}}}(\theta)\,\nabla\ell(\theta)$$ 当学习率 $\eta$ 很小时，排名主要由一阶梯度对齐项 $\nabla\ell_{\text{val}}\cdot\nabla\ell_i$ 决定，它度量训练集与验证集在网络视角下的分布相似度；但当 $\eta$ 增大到中等水平，含 Hessian $H_{\ell_{\text{val}}}$ 的二阶曲率项变得显著，两个一阶对齐更好的数据集会因为二阶项的差异而被反超，导致排名翻转。这就是作者所谓"高阶效应的诅咒"——固定超参实验的结论会过拟合到那个特定学习率，放大到更大模型、做更广超参扫描时几乎必然进一步乱序。

3. 极小学习率补丁：用一阶对齐锁住排名

针对脆弱性的根因，作者的修复直接而优雅：把代理模型的学习率压到极小，按此时的验证损失排名。背后有两个经验发现支撑。发现 I（同模型内）：对同一架构，极小学习率下的损失与该数据集经充分超参调优后的最优损失强相关，形式化为对大多数数据集对 $\text{sign}(\Delta\ell_{\text{val}}(\theta_{\text{proxy}},\eta_0)) = \text{sign}(\Delta\ell_{\text{val-opt}}(\theta_{\text{proxy}}))$；直觉是 $\eta\to 0$ 时更新被一阶对齐项主导，而验证损失在无穷小学习率下相当于刻画了训练-验证分布的不可约差距，其排名与充分调优后的最优损失排名一致。发现 II（跨尺度）：当代理和目标模型都用极小学习率时，数据集排名在不同模型尺度间几乎完美保持，因为极小学习率抑制了会扰乱比较的高阶交互，而一阶对齐的相对排名本身在不同架构间是稳定的。两个发现合起来就得到了核心条件 $\text{sign}(\Delta\ell_{\text{val}}(\theta_{\text{proxy}},\eta_0)) = \text{sign}(\Delta\ell_{\text{val-opt}}(\theta_{\text{tgt}}))$——小代理在极小学习率下的排名等于大模型调优后的排名。

4. 随机特征模型上的理论保证与"极小"的取值法则

为了让补丁不只是经验观察，作者在随机特征模型上给出形式化证明（选它是因为它是少数能在不同学习率和尺度下近似刻画训练动态、且与 NTK 紧密相关的简单模型）。定理 1（非正式）：给定两个候选分布 $D_A, D_B$，若随机特征模型宽度超过某阈值，则用足够小的学习率在两数据集上训练后，$\ell_{\text{val}}(\theta(D_A;\eta))$ 与 $\ell_{\text{val}}(\theta(D_B;\eta))$ 的相对排序，以高概率等于无穷宽极限下两者验证损失的排序。证明思路是把 SGD 下验证损失的变化分解为捕捉数据真实质量差距的确定性漂移项和来自随机更新的方差项；当模型足够宽、学习率足够小，漂移主导方差，于是观测到的损失差符号以高概率匹配无穷宽最优的差距符号——这正是"小学习率压制高阶效应"的数学化。无穷宽极限等价于核回归，给出函数类内的最优验证损失，因此调优后的大目标模型和极小学习率代理模型都收敛到同一组由无穷宽最优决定的数据集排名。

至于"多小才算极小"，理论上 $\eta_{\text{tiny}}$ 需远小于 $1/\lambda_{\max}$（$\lambda_{\max}$ 是验证损失 Hessian 的最大特征值）；实用上作者给出简单经验法则：取比标准学习率小 1–2 个数量级即可，对 LLM 预训练通常落在 $10^{-5}\sim10^{-6}$，这个范围既保证了可迁移性，又安全地高于数值精度出问题的下界。

实验关键数据¶

主实验¶

作者在 GPT2、Pythia、OPT 三个模型家族（70M–1B）、23 个数据配方上评估代理到目标模型的排名可迁移性。验证集用 The Pile 各域损失，下游用 HellaSwag、Winogrande、OpenBookQA、ARC-Easy、CommonsenseQA 五个基准；目标模型对每个数据配方做数据集专属超参调优，token/参数比按 Chinchilla 设为 20。整个项目跑了超过 20,000 次模型训练。

设置	代理→目标 Spearman 相关性	说明
标准学习率（GPT2-Small $3\times10^{-4}$）	$<0.75$（多域近 0 或负）	固定超参做法，排名严重不一致
极小学习率（$<1\times10^{-4}$）	$>0.92$（三个架构都）	学习率降到阈值以下后大幅改善
GPT2-125M → Pythia-1B（$\eta=10^{-5}$）	$>0.95$（253 个数据集对）	接近完美迁移

23 个数据配方覆盖四个数据筛选维度：(1) 域组成（从 Pile 造 10 个混比变体）；(2) 现有语料对比（C4 / DCLM-baseline / RefinedWeb）；(3) 打分式过滤（RedPajama-V2 头中尾 6 种混比）；(4) 去重（4 个不同去重严格度的 DCLM 变体）。

消融 / 分析实验¶

配置	关键指标	说明
标准学习率、k 较小	Top-k 决策后悔 $>0.25$ 验证损失退化	选 top-k 配方上大模型时离最优差很多
极小学习率、k 较小	Top-k gap 趋近 0	可靠地选出在大模型上最优的数据集
DCLM vs DCLM-dedup-GS（低 LR）	DCLM 更优	损失和下游都赢
DCLM vs DCLM-dedup-GS（略高 LR）	排名翻转	仅微调学习率结论就反转

关键发现¶

数据集排名对学习率远比对 batch size、weight decay、token/参数比敏感，所以补丁聚焦学习率。
标准学习率代理在多个 Pile 域上出现"灾难性失败"——相关性近零甚至为负，说明固定超参做法的不可靠是系统性的，不是个例。
极小学习率的有效区间（$10^{-5}\sim10^{-6}$）对不同模型尺度一致有效，且远高于数值不稳定阈值，落地无需额外调试。
作者特意点名 AI2 的 DataDecide benchmark：它对所有数据集用固定训练配置，结论可能过拟合到该配置，因此作者自建了对每个配方都调超参的评测协议。

亮点与洞察¶

把"公平"重新定义清楚：业界默认"所有数据集用同一超参才公平"，作者一针见血地指出这恰恰和真实流程脱节，真正公平是"各自调到最优再比"——这个视角转换是整篇论文最有价值的"啊哈"点。
诊断与修复同源：从一步梯度更新的泰勒展开同时解释了"为什么排名会翻转"（二阶曲率项作祟）和"怎么修"（压小学习率让一阶项主导），诊断和补丁出自同一套分析，逻辑闭环漂亮。
补丁极其廉价可落地：不需要昂贵的超参扫描，只要把代理学习率调小 1–2 个数量级，是真正的 drop-in patch，数据团队明天就能用。
理论锚点清晰：用随机特征模型的无穷宽极限把"极小学习率代理"和"调优大模型"锚定到同一组排名上，给经验发现提供了可证明的支撑，这种"漂移项主导方差项"的分解思路可迁移到其他研究代理可靠性的问题。

局限与展望¶

仅限单 epoch 预训练：作者明确本工作只覆盖单 epoch、无重复采样的 LLM 预训练；多 epoch 和课程学习下如何子采样、如何处理跨 epoch 的重复模式仍是未解难题。
补丁是权宜之计而非终解：问题根源是数据与训练配置的强耦合，作者承认长远应当联合优化数据和超参（可借助基于梯度的超参优化、算法 unrolling），极小学习率只是过渡阶段的补丁。
理论限于随机特征模型：定理在随机特征 / NTK 框架下成立，对真实深层网络只是"有原则的指导"而非严格保证，泰勒展开也只是一步分析。
目标模型规模到 1B 为止：受算力所限（每个配方都要调超参，已跑 2 万次训练），最大目标模型 1B，能否外推到更大前沿规模仍需验证。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 揭示了被整个领域默认的"固定超参公平比较"假设的系统性缺陷，视角转换有真正的原创性
实验充分度: ⭐⭐⭐⭐⭐ 三个模型家族、70M–1B、23 个配方、四个数据筛选维度、2 万次训练，证据扎实
写作质量: ⭐⭐⭐⭐ 诊断—归因—修复逻辑清晰，理论与经验互证；部分关键图表细节需查附录
价值: ⭐⭐⭐⭐⭐ 给前沿数据团队一个廉价可落地的补丁，直接影响数据配方决策的可靠性

设置	代理→目标 Spearman 相关性	说明
标准学习率（GPT2-Small \(3\times10^{-4}\)）	\(<0.75\)（多域近 0 或负）	固定超参做法，排名严重不一致
极小学习率（\(<1\times10^{-4}\)）	\(>0.92\)（三个架构都）	学习率降到阈值以下后大幅改善
GPT2-125M → Pythia-1B（\(\eta=10^{-5}\)）	\(>0.95\)（253 个数据集对）	接近完美迁移

配置	关键指标	说明
标准学习率、k 较小	Top-k 决策后悔 \(>0.25\) 验证损失退化	选 top-k 配方上大模型时离最优差很多
极小学习率、k 较小	Top-k gap 趋近 0	可靠地选出在大模型上最优的数据集
DCLM vs DCLM-dedup-GS（低 LR）	DCLM 更优	损失和下游都赢
DCLM vs DCLM-dedup-GS（略高 LR）	排名翻转	仅微调学习率结论就反转