跳转至

Explaining Data Mixing Scaling Laws

会议: ICML2026
arXiv: 2606.08167
代码: https://github.com/meiqwq/Explaining-Data-Mixing-Scaling-Laws
领域: LLM预训练 / 数据配比 / 缩放定律
关键词: 数据混合, 缩放定律, 容量竞争, 量化模型, 双层优化

一句话总结

这篇论文给"多领域数据配比缩放定律"补上了一直缺失的理论解释:把单领域缩放定律的两套经典理论(量化模型、投影线性回归模型)扩展到多领域,提出"共享头部、不相交尾部"的分布假设,识别出支配各领域 loss 的两个机制——容量竞争(有限模型容量被各领域的专用技能争夺,把所有领域 loss 全局耦合)和数据量噪声(越难学的领域 loss 降得越慢,使最优配比向难学领域倾斜),由此得到的模型不仅拟合误差更低、用的参数更少,还能跨尺度外推、用小模型拟合的参数预测大模型上的最优配比。

研究背景与动机

领域现状:大模型在多领域数据上训练,"数据配比"(每个领域占多少比例)极大影响性能。最近一条主流路线是离线地用经验缩放定律去预测 loss 形貌(把某领域测试 loss 写成配比权重的函数 \(f_i(h,N,D)\)),拟合后再据此求最优配比;另一条是在线地训练中动态调权。

现有痛点:离线经验定律虽实用,但纯粹是曲线拟合出来的黑箱——拟合本身耗算力,且不清楚它们能否外推到更大尺度/不同数据集,也说不清这些函数形式为什么长这样。在线方法则有训练开销、理论不透明。一个根本事实是:领域 loss 不只取决于该领域自身权重,还取决于其它领域的权重,存在非平凡的领域间交互,但为什么会有这种交互、它服从什么规律,一直没有第一性原理的解释。

核心矛盾:单领域缩放定律(Kaplan、Chinchilla)已有两套理论解释(量化模型、线性回归模型),但它们都是单领域的;多领域的数据混合定律却只有经验拟合、没有理论。缺的不是"又一个拟合函数",而是"领域交互的机理"。

本文目标:建一个统一理论框架解释数据混合的底层机理,进而(i)更准地拟合 loss 形貌、(ii)更可靠地预测最优配比、(iii)跨尺度外推、(iv)用更少参数。

切入角度 / 核心 idea:把单领域的量化模型(Michaud:技能按幂律分布、模型按频率学前 \(N\) 个)和投影线性回归模型(Lin/Bordelon:用谱衰减刻画训练动态)扩展到多领域,并引入一个自然的结构假设——不同领域在基础技能上重叠、在专用技能上分化——从而把领域交互归因为两个可解释的机制。

方法详解

整体框架

框架分两层递进。第一层 Extended Quantization Model(扩展量化模型):把训练看成一个"容量分配"问题——模型总容量 \(N\) 有限,各领域的专用技能争抢容量,权重 \(h\) 决定每个领域分到多少容量、进而决定其 loss;这一层揭示了容量竞争这个领域耦合来源,但有个致命缺陷(最优配比平凡地等于目标分布)。第二层 Extended Linear Regression Model(扩展线性回归模型):在前者基础上把一遍 SGD 的训练动态加进来,多出一个数据量噪声项,正是这一项打破了对称、让最优训练配比偏离目标分布、向"难学领域"倾斜,从而和真实观测吻合。两层共享同一个"共享头部、不相交尾部"的分布假设:扩展量化模型的"技能"对应扩展线性模型里协方差矩阵的"特征向量",技能的频率/损失对应特征值,二者在数学上一一对应。最后,loss 预测被写成一个凸规划,求最优配比被写成双层优化并用 Online Mirror Descent 求解。

关键设计

1. "共享头部、不相交尾部"结构假设:让多领域可解析

要把单领域理论搬到多领域,第一步得说清"不同领域的知识如何重叠"。作者提出:每个领域内部技能按幂律分布 \(p_i(k_i)=(\alpha_i-1)k_i^{-\alpha_i}\);不同领域在头部(高频、基础技能,如基本语法、逻辑、算术)大量重叠,在尾部(稀有、专用技能)越来越独立、近似正交。在谱视角下这对应:所有领域的协方差矩阵共享一组正交特征向量,前 \(H\) 个(头部)所有领域都有非零方差,\(k>H\) 的尾部每个领域只在自己独有的特征向量上有方差 \(\lambda_k^{(i)}=k^{-\alpha_i}\)、在别人的方向上为零。这个理想化假设的价值在于:它让混合协方差 \(\mathbf{H}(h)=\sum_j h_j \mathbf{H}_j\) 在尾部解耦——领域 \(i\) 的尾部特征值在混合后就是 \(h_i k^{-\alpha_i}\)(自身方差按比例缩放)。作者还用合成压力测试证明:即便尾部实际重叠到 40%,拟合 MRE 依然稳定,说明这个近似很稳健。

2. Extended Quantization Model:把领域耦合归因为"容量竞争"

有了上述假设,作者把训练形式化为容量分配:模型为每个领域选一个覆盖阈值 \(x_i\ge H\)(学到 \(k_i\le x_i\) 的高频技能、丢掉尾部),未学技能每个贡献常数误差 \(c_i\),于是领域训练 loss 为 \(c_i x_i^{-b_i}\)\(b_i=\alpha_i-1\))。最优阈值由下式给出: $\(\min_{x}\ \sum_{i=1}^{K} h_i c_i x_i^{-b_i}\quad \text{s.t.}\ \sum_{i=1}^{K}(x_i-H)\le N-H,\ x_i\ge H.\)$ 约束 \(\sum(x_i-H)\le N-H\) 把所有领域绑进同一场对有限容量的争夺——这就是领域交互的来源。当各 \(b_i\) 相近时可用拉格朗日法得到近似闭式解,其中领域 \(i\) 的 loss 取决于一个"总需求"分母 \(\sum_k (b_k c_k h_k)^{1/(b_k+1)}\),即领域 \(i\) 的 loss 不只由自己的权重决定,还被所有竞争领域的权重和复杂度全局耦合。但这层有个硬伤:把"求最优训练配比"写成双层优化时,内层和外层都在最小化同一组 loss 的加权和,于是平凡地解出 \(h^*\equiv w\)(最优训练配比等于目标分布)——这与"最优配比常明显偏离目标"的实测矛盾,逼出了第二层。

3. Extended Linear Regression Model:用"数据量噪声项"打破对称、向难学领域倾斜

为修正上述矛盾,作者把一遍 SGD 的随机性引入:每个被学的技能,其 loss 还取决于"被看到的次数",而看到的次数正比于该领域采样量 \(D h_i\)。由此得到核心结论(定理 4.1): $\(L_i(h,N,D)\approx c_i\, x_i^{*}(h,N)^{-b_i} + A_i (D h_i)^{-a_i} + E_i.\)$ 第一项是容量竞争(耦合全局),第二项是只依赖 \(h_i\) 的数据量噪声项。正是这个噪声项打破了第一层的对称:在为目标 \(w\) 求最优 \(h^*\) 时,\(A_i(Dh_i)^{-a_i}\)\(h^*\) 偏离 \(w\),并把权重推向"更难学"的领域(\(A_i\) 更大、\(\alpha_i\) 更小的领域)。直觉是:难学领域 loss 随权重增加下降得慢,需要多分一点数据才能压下噪声,于是最优配比自然向它们倾斜——这恰好解释了实践中"最优训练配比偏离目标分布"的现象。同样,尾部重叠对噪声项的扰动也较小(重叠技能的总观测量对配比变化更稳),所以重叠带来的 loss 波动整体可忽略。

损失函数 / 训练策略

给定拟合好的参数,对任意配比 \(h\) 的 loss 预测通过求解凸规划(式 1)得到数值估计;求最优配比则是双层优化(外层对 \(w\) 最小化、内层解容量分配 \(x^*(h)\)),作者给出梯度刻画(命题 4.2)并用 Online Mirror Descent 高效求解。参数拟合上,简单定律(幂律/指数)用 scipy curve_fit,复杂定律和本文模型用 Basin-Hopping + L-BFGS(内层每次解凸规划式 1、以 MSE 为目标),随机初始化多次。

实验关键数据

围绕三个目标验证:拟合精度、最优配比预测、跨尺度外推。

主实验:拟合精度(64 个 1B 模型,K=17 个 Pile 领域,25B tokens)

方法 MRE (%) ↓ MAE ↓ #Param
Additive (Shukor 2026) 2.209 0.052 \(K(2K+1)\)
Exponential (Ye 2025) 6.990 0.059 \(K(K+2)\)
BiMix (Ge 2025) 2.963 0.144 \(2K\)
RegMix (Liu 2025a) 6.480 0.136 \(K^2\)
Ours 式(1) 扩展量化 2.064 0.051 \(3K\)
Ours 式(3) 扩展线性 1.533 0.034 \(5K\)

本文两个模型拿到最低和次低 MRE(1.533% / 2.064%),且都明显优于最强经验基线 Additive(2.209%),同时参数量从 \(K(2K+1)\)\(K{=}17\) 时约 595)降到 \(5K\)/\(3K\)(85/51),即更准且参数少一个量级

分析:两个模型的递进(消融式对比)

模型 loss 形式 能否解释 \(h^*\neq w\) MRE(%)
扩展量化(式 1) \(c_i x_i^{*-b_i}+E_i\) 否(平凡解 \(h^*\equiv w\) 2.064
扩展线性(式 3) \(+\,A_i(Dh_i)^{-a_i}\) 噪声项 是(噪声打破对称) 1.533

加入数据量噪声项后,既把 MRE 从 2.064% 降到 1.533%,又从机理上修复了"最优配比平凡等于目标分布"的矛盾——量化了"噪声项"这一设计的双重贡献。

关键发现

  • 噪声项是关键:去掉它(退回扩展量化模型)不仅拟合变差,还会得出与实测矛盾的 \(h^*\equiv w\);它正是"最优配比向难学领域倾斜"的理论根源。
  • 跨尺度外推成立:4 领域从 200M/8B 外推到 700M/16B、7 领域从 122M/10B 外推到 1B/30B,仅用小尺度代理 loss 拟合参数,预测出的配比在大尺度上取得最低(或持平)测试 loss;尤其在 1B/30B 上,它匹配了一个见过目标尺度 loss 的超强 Additive 基线,而本文只用了小尺度数据。
  • 最优配比预测全面领先:在 4 域 200M、7 域 122M/310M、17 域 Pile 等设置下,本文预测的配比训出的模型测试 loss 始终最低,且自由参数更少。

亮点与洞察

  • 给黑箱缩放定律装上"机理":第一次把数据混合定律的两类领域交互拆成"容量竞争"和"数据量噪声"两个可解释机制,回答了"为什么领域 loss 这样耦合"。
  • 两层递进讲得漂亮:先用扩展量化模型暴露 \(h^*\equiv w\) 的矛盾,再用扩展线性模型的噪声项一举修复——这种"先立一个不够、再点出缺什么"的叙事让噪声项的必要性极其清晰。
  • 少参数 + 可外推 = 实用:理论驱动让自由参数从 \(O(K^2)\) 降到 \(O(K)\),又能用小模型参数预测大模型最优配比,直接降低了配比搜索的算力成本,这对预训练实践很有价值。
  • 可迁移的思路:把"技能 = 特征向量、频率 = 特征值"的对应关系,可能用于解释其它多分布/多任务学习里的此消彼长。

局限与展望

  • 理想化假设:尾部严格不相交、头部误差可忽略在真实数据上不成立;虽然合成压力测试显示重叠到 40% 仍稳,但真实语料的重叠结构更复杂,假设偏离的影响边界仍需更系统的刻画。
  • 线性回归代理与真实 LLM 的差距:理论建立在投影线性回归 + 一遍 SGD 上,而真实预训练是非线性、多 epoch;定理 4.1 标注为 informal,常数 \(a_i,A_i,E_i\) 的可辨识性与实际 Transformer 的吻合度仍是开放问题。
  • 从 loss 到下游性能:框架预测的是领域测试 loss,但 loss 最优不必然等于下游任务最优,作者也在引言里点出"如何把预测的 domain loss 映射到下游表现"尚不明确。
  • 实验主要在 ≤1B/≤30B 规模,外推到真正前沿规模(数十亿—万亿参数/token)是否仍成立,尚待验证。

相关工作与启发

  • vs Additive / Exponential / BiMix(经验数据混合定律):它们直接拟合函数形式(如 \(E_i+(\sum C_{ij}h_j^{\gamma_{ij}})^{-1}\)\(c_i+k_i\exp(\sum t_{ij}h_j)\)),是黑箱且参数多;本文从第一性原理推出形式,更准、参数更少、可外推。
  • vs RegMix / 代理模型选配比:RegMix 用 LightGBM 在小代理模型上学配比,参数 \(O(K^2)\)、不可解释;本文给出闭式机理且自由参数 \(O(K)\)
  • vs 单领域缩放定律理论(量化模型 / 线性回归模型):本文是它们在多领域上的直接扩展,把"技能频率/谱衰减"推广为"共享头部 + 不相交尾部"。
  • vs 在线动态调权(ODM / Skill-it / Aioli / ADO / PiKE):在线法训练中调权、有额外开销且理论不透明;本文是离线、可外推、有理论解释的互补路线。

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 首次给数据混合缩放定律提供统一理论解释,"容量竞争 + 数据量噪声"两机制有洞察。
  • 实验充分度: ⭐⭐⭐⭐ 拟合/最优配比/跨尺度外推三类实验齐全,但规模限于 ≤1B、且核心定理为 informal。
  • 写作质量: ⭐⭐⭐⭐⭐ 两层递进、矛盾—修复的叙事清晰,公式与假设交代到位。
  • 价值: ⭐⭐⭐⭐⭐ 少参数 + 可外推显著降低配比搜索成本,对预训练数据工程有直接实用价值。