Explaining Data Mixing Scaling Laws¶

会议: ICML2026
arXiv: 2606.08167
代码: https://github.com/meiqwq/Explaining-Data-Mixing-Scaling-Laws
领域: LLM预训练 / 数据配比 / 缩放定律
关键词: 数据混合, 缩放定律, 容量竞争, 量化模型, 双层优化

一句话总结¶

这篇论文给"多领域数据配比缩放定律"补上了一直缺失的理论解释：把单领域缩放定律的两套经典理论（量化模型、投影线性回归模型）扩展到多领域，提出"共享头部、不相交尾部"的分布假设，识别出支配各领域 loss 的两个机制——容量竞争（有限模型容量被各领域的专用技能争夺，把所有领域 loss 全局耦合）和数据量噪声（越难学的领域 loss 降得越慢，使最优配比向难学领域倾斜），由此得到的模型不仅拟合误差更低、用的参数更少，还能跨尺度外推、用小模型拟合的参数预测大模型上的最优配比。

研究背景与动机¶

领域现状：大模型在多领域数据上训练，"数据配比"（每个领域占多少比例）极大影响性能。最近一条主流路线是离线地用经验缩放定律去预测 loss 形貌（把某领域测试 loss 写成配比权重的函数 $f_i(h,N,D)$），拟合后再据此求最优配比；另一条是在线地训练中动态调权。

现有痛点：离线经验定律虽实用，但纯粹是曲线拟合出来的黑箱——拟合本身耗算力，且不清楚它们能否外推到更大尺度/不同数据集，也说不清这些函数形式为什么长这样。在线方法则有训练开销、理论不透明。一个根本事实是：领域 loss 不只取决于该领域自身权重，还取决于其它领域的权重，存在非平凡的领域间交互，但为什么会有这种交互、它服从什么规律，一直没有第一性原理的解释。

核心矛盾：单领域缩放定律（Kaplan、Chinchilla）已有两套理论解释（量化模型、线性回归模型），但它们都是单领域的；多领域的数据混合定律却只有经验拟合、没有理论。缺的不是"又一个拟合函数"，而是"领域交互的机理"。

本文目标：建一个统一理论框架解释数据混合的底层机理，进而（i）更准地拟合 loss 形貌、（ii）更可靠地预测最优配比、（iii）跨尺度外推、（iv）用更少参数。

切入角度 / 核心 idea：把单领域的量化模型（Michaud：技能按幂律分布、模型按频率学前 $N$ 个）和投影线性回归模型（Lin/Bordelon：用谱衰减刻画训练动态）扩展到多领域，并引入一个自然的结构假设——不同领域在基础技能上重叠、在专用技能上分化——从而把领域交互归因为两个可解释的机制。

方法详解¶

整体框架¶

框架分两层递进。第一层 Extended Quantization Model（扩展量化模型）：把训练看成一个"容量分配"问题——模型总容量 $N$ 有限，各领域的专用技能争抢容量，权重 $h$ 决定每个领域分到多少容量、进而决定其 loss；这一层揭示了容量竞争这个领域耦合来源，但有个致命缺陷（最优配比平凡地等于目标分布）。第二层 Extended Linear Regression Model（扩展线性回归模型）：在前者基础上把一遍 SGD 的训练动态加进来，多出一个数据量噪声项，正是这一项打破了对称、让最优训练配比偏离目标分布、向"难学领域"倾斜，从而和真实观测吻合。两层共享同一个"共享头部、不相交尾部"的分布假设：扩展量化模型的"技能"对应扩展线性模型里协方差矩阵的"特征向量"，技能的频率/损失对应特征值，二者在数学上一一对应。最后，loss 预测被写成一个凸规划，求最优配比被写成双层优化并用 Online Mirror Descent 求解。

关键设计¶

1. "共享头部、不相交尾部"结构假设：让多领域可解析

要把单领域理论搬到多领域，第一步得说清"不同领域的知识如何重叠"。作者提出：每个领域内部技能按幂律分布 $p_i(k_i)=(\alpha_i-1)k_i^{-\alpha_i}$；不同领域在头部（高频、基础技能，如基本语法、逻辑、算术）大量重叠，在尾部（稀有、专用技能）越来越独立、近似正交。在谱视角下这对应：所有领域的协方差矩阵共享一组正交特征向量，前 $H$ 个（头部）所有领域都有非零方差，$k>H$ 的尾部每个领域只在自己独有的特征向量上有方差 $\lambda_k^{(i)}=k^{-\alpha_i}$、在别人的方向上为零。这个理想化假设的价值在于：它让混合协方差 $\mathbf{H}(h)=\sum_j h_j \mathbf{H}_j$ 在尾部解耦——领域 $i$ 的尾部特征值在混合后就是 $h_i k^{-\alpha_i}$（自身方差按比例缩放）。作者还用合成压力测试证明：即便尾部实际重叠到 40%，拟合 MRE 依然稳定，说明这个近似很稳健。

2. Extended Quantization Model：把领域耦合归因为"容量竞争"

有了上述假设，作者把训练形式化为容量分配：模型为每个领域选一个覆盖阈值 $x_i\ge H$（学到 $k_i\le x_i$ 的高频技能、丢掉尾部），未学技能每个贡献常数误差 $c_i$，于是领域训练 loss 为 $c_i x_i^{-b_i}$（$b_i=\alpha_i-1$）。最优阈值由下式给出： $$\min_{x}\ \sum_{i=1}^{K} h_i c_i x_i^{-b_i}\quad \text{s.t.}\ \sum_{i=1}^{K}(x_i-H)\le N-H,\ x_i\ge H.$$ 约束 $\sum(x_i-H)\le N-H$ 把所有领域绑进同一场对有限容量的争夺——这就是领域交互的来源。当各 $b_i$ 相近时可用拉格朗日法得到近似闭式解，其中领域 $i$ 的 loss 取决于一个"总需求"分母 $\sum_k (b_k c_k h_k)^{1/(b_k+1)}$，即领域 $i$ 的 loss 不只由自己的权重决定，还被所有竞争领域的权重和复杂度全局耦合。但这层有个硬伤：把"求最优训练配比"写成双层优化时，内层和外层都在最小化同一组 loss 的加权和，于是平凡地解出 $h^*\equiv w$（最优训练配比等于目标分布）——这与"最优配比常明显偏离目标"的实测矛盾，逼出了第二层。

3. Extended Linear Regression Model：用"数据量噪声项"打破对称、向难学领域倾斜

为修正上述矛盾，作者把一遍 SGD 的随机性引入：每个被学的技能，其 loss 还取决于"被看到的次数"，而看到的次数正比于该领域采样量 $D h_i$。由此得到核心结论（定理 4.1）： $$L_i(h,N,D)\approx c_i\, x_i^{*}(h,N)^{-b_i} + A_i (D h_i)^{-a_i} + E_i.$$ 第一项是容量竞争（耦合全局），第二项是只依赖 $h_i$ 的数据量噪声项。正是这个噪声项打破了第一层的对称：在为目标 $w$ 求最优 $h^*$ 时，$A_i(Dh_i)^{-a_i}$ 让 $h^*$ 偏离 $w$，并把权重推向"更难学"的领域（$A_i$ 更大、$\alpha_i$ 更小的领域）。直觉是：难学领域 loss 随权重增加下降得慢，需要多分一点数据才能压下噪声，于是最优配比自然向它们倾斜——这恰好解释了实践中"最优训练配比偏离目标分布"的现象。同样，尾部重叠对噪声项的扰动也较小（重叠技能的总观测量对配比变化更稳），所以重叠带来的 loss 波动整体可忽略。

损失函数 / 训练策略¶

给定拟合好的参数，对任意配比 $h$ 的 loss 预测通过求解凸规划（式 1）得到数值估计；求最优配比则是双层优化（外层对 $w$ 最小化、内层解容量分配 $x^*(h)$），作者给出梯度刻画（命题 4.2）并用 Online Mirror Descent 高效求解。参数拟合上，简单定律（幂律/指数）用 scipy curve_fit，复杂定律和本文模型用 Basin-Hopping + L-BFGS（内层每次解凸规划式 1、以 MSE 为目标），随机初始化多次。

实验关键数据¶

围绕三个目标验证：拟合精度、最优配比预测、跨尺度外推。

主实验：拟合精度（64 个 1B 模型，K=17 个 Pile 领域，25B tokens）¶

方法	MRE (%) ↓	MAE ↓	#Param
Additive (Shukor 2026)	2.209	0.052	$K(2K+1)$
Exponential (Ye 2025)	6.990	0.059	$K(K+2)$
BiMix (Ge 2025)	2.963	0.144	$2K$
RegMix (Liu 2025a)	6.480	0.136	$K^2$
Ours 式(1) 扩展量化	2.064	0.051	$3K$
Ours 式(3) 扩展线性	1.533	0.034	$5K$

本文两个模型拿到最低和次低 MRE（1.533% / 2.064%），且都明显优于最强经验基线 Additive（2.209%），同时参数量从 $K(2K+1)$（$K{=}17$ 时约 595）降到 $5K$/$3K$（85/51），即更准且参数少一个量级。

分析：两个模型的递进（消融式对比）¶

模型	loss 形式	能否解释 $h^*\neq w$	MRE(%)
扩展量化（式 1）	$c_i x_i^{*-b_i}+E_i$	否（平凡解 $h^*\equiv w$）	2.064
扩展线性（式 3）	$+\,A_i(Dh_i)^{-a_i}$ 噪声项	是（噪声打破对称）	1.533

加入数据量噪声项后，既把 MRE 从 2.064% 降到 1.533%，又从机理上修复了"最优配比平凡等于目标分布"的矛盾——量化了"噪声项"这一设计的双重贡献。

关键发现¶

噪声项是关键：去掉它（退回扩展量化模型）不仅拟合变差，还会得出与实测矛盾的 $h^*\equiv w$；它正是"最优配比向难学领域倾斜"的理论根源。
跨尺度外推成立：4 领域从 200M/8B 外推到 700M/16B、7 领域从 122M/10B 外推到 1B/30B，仅用小尺度代理 loss 拟合参数，预测出的配比在大尺度上取得最低（或持平）测试 loss；尤其在 1B/30B 上，它匹配了一个见过目标尺度 loss 的超强 Additive 基线，而本文只用了小尺度数据。
最优配比预测全面领先：在 4 域 200M、7 域 122M/310M、17 域 Pile 等设置下，本文预测的配比训出的模型测试 loss 始终最低，且自由参数更少。

亮点与洞察¶

给黑箱缩放定律装上"机理"：第一次把数据混合定律的两类领域交互拆成"容量竞争"和"数据量噪声"两个可解释机制，回答了"为什么领域 loss 这样耦合"。
两层递进讲得漂亮：先用扩展量化模型暴露 $h^*\equiv w$ 的矛盾，再用扩展线性模型的噪声项一举修复——这种"先立一个不够、再点出缺什么"的叙事让噪声项的必要性极其清晰。
少参数 + 可外推 = 实用：理论驱动让自由参数从 $O(K^2)$ 降到 $O(K)$，又能用小模型参数预测大模型最优配比，直接降低了配比搜索的算力成本，这对预训练实践很有价值。
可迁移的思路：把"技能 = 特征向量、频率 = 特征值"的对应关系，可能用于解释其它多分布/多任务学习里的此消彼长。

局限与展望¶

理想化假设：尾部严格不相交、头部误差可忽略在真实数据上不成立；虽然合成压力测试显示重叠到 40% 仍稳，但真实语料的重叠结构更复杂，假设偏离的影响边界仍需更系统的刻画。
线性回归代理与真实 LLM 的差距：理论建立在投影线性回归 + 一遍 SGD 上，而真实预训练是非线性、多 epoch；定理 4.1 标注为 informal，常数 $a_i,A_i,E_i$ 的可辨识性与实际 Transformer 的吻合度仍是开放问题。
从 loss 到下游性能：框架预测的是领域测试 loss，但 loss 最优不必然等于下游任务最优，作者也在引言里点出"如何把预测的 domain loss 映射到下游表现"尚不明确。
实验主要在 ≤1B/≤30B 规模，外推到真正前沿规模（数十亿—万亿参数/token）是否仍成立，尚待验证。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次给数据混合缩放定律提供统一理论解释，"容量竞争 + 数据量噪声"两机制有洞察。
实验充分度: ⭐⭐⭐⭐ 拟合/最优配比/跨尺度外推三类实验齐全，但规模限于 ≤1B、且核心定理为 informal。
写作质量: ⭐⭐⭐⭐⭐ 两层递进、矛盾—修复的叙事清晰，公式与假设交代到位。
价值: ⭐⭐⭐⭐⭐ 少参数 + 可外推显著降低配比搜索成本，对预训练数据工程有直接实用价值。

模型	loss 形式	能否解释 \(h^*\neq w\)	MRE(%)
扩展量化（式 1）	\(c_i x_i^{*-b_i}+E_i\)	否（平凡解 \(h^*\equiv w\)）	2.064
扩展线性（式 3）	\(+\,A_i(Dh_i)^{-a_i}\) 噪声项	是（噪声打破对称）	1.533