ATLAS: Adaptive Transfer Scaling Laws for Multilingual Pretraining, Finetuning, and Decoding the Curse of Multilinguality¶

会议: ICLR 2026
arXiv: 2510.22037
代码: 未开源
领域: 多语言翻译
关键词: scaling laws, multilingual, cross-lingual transfer, curse of multilinguality, pretraining vs finetuning

一句话总结¶

提出 Adaptive Transfer Scaling Law (ATLAS)，通过将有效数据量分解为目标语言、迁移语言和其他语言三项并引入数据重复饱和函数，在774个多语言训练实验（10M–8B参数、400+语言）上显著优于现有scaling law（多语言 \(R^2\) 从0.67提升至0.98），并系统量化了跨语言迁移矩阵、多语言诅咒的容量约束以及预训练vs微调的计算交叉点。

研究背景与动机¶

现有Scaling Law的局限¶

Scaling laws研究几乎完全聚焦于英语。Chinchilla Scaling Law (CSL) 用两个幂律项分别建模模型大小 \(N\) 和数据量 \(D\) 对损失的影响，但存在多个缺陷：

不支持数据重复: 低资源语言（如Hindi、Swahili）的数据量极其有限，训练时需要多轮重复，CSL无法建模重复带来的收益递减

忽略跨语言迁移: 单语scaling law只能看到目标语言的token数，无法利用其他语言数据的正/负迁移效应

Data-Constrained Scaling Law (DCSL) 虽然考虑了数据重复，但需要大量"1个epoch前"和"1个epoch后"的观测点来完成两阶段拟合，对高资源语言（英语、法语）收集超过1个epoch的数据成本很高，对低资源语言则可能在1个epoch之前都没有足够的观测

实践需求¶

多语言模型的开发者面临三个核心问题，但缺乏系统性回答： - 不同语言之间的迁移关系如何？哪些语言对训练互利，哪些会干扰？ - 增加模型服务的语言数量时，需要增加多少计算资源？（多语言诅咒的定量刻画） - 给定计算预算，是从头预训练还是从多语言checkpoint微调更高效？

方法详解¶

ATLAS核心公式¶

ATLAS基于Chinchilla的基本形式，但用有效数据量 \(\mathcal{D}_{\text{eff}}\) 替代原始的 \(D\)：

\[\mathcal{L}(N, \mathcal{D}_{\text{eff}}) = E + \frac{A}{N^\alpha} + \frac{B}{\mathcal{D}_{\text{eff}}^\beta}\]

有效数据量分解为三项：

\[\mathcal{D}_{\text{eff}} = \underbrace{\mathcal{S}_{\lambda_t}(D_t; U_t)}_{\text{目标语言}} + \underbrace{\sum_{i \in \mathcal{K}} \tau_i \mathcal{S}_{\lambda_i}(D_i; U_i)}_{\text{迁移语言}} + \underbrace{\tau_{\text{other}} \mathcal{S}_{\lambda_{\text{other}}}(D_{\text{other}}; U_{\text{other}})}_{\text{其他语言}}\]

饱和函数（处理数据重复）¶

对每个数据源，用饱和函数 \(\mathcal{S}_\lambda\) 建模多轮重复的收益递减：

\[\mathcal{S}_\lambda(D; U) = \begin{cases} D, & D \leq U \text{ (≤1 epoch)} \\ U\left[1 + \frac{1 - \exp(-\lambda(D/U - 1))}{\lambda}\right], & D > U \text{ (>1 epoch)} \end{cases}\]

\(U\) 是该语言的唯一token数，\(\lambda\) 是共享的重复衰减参数。第一个epoch内数据量线性增长，超过后指数级饱和。

跨语言迁移矩阵（38×38）¶

定义双语迁移得分 (Bilingual Transfer Score, BTS)，衡量源语言 \(s\) 对目标语言 \(t\) 的影响：

\[\text{BTS}_{s \to t} = -\frac{\sigma_{\text{bi}}(L_t(d_{\text{mono}})) - 2d_{\text{mono}}}{d_{\text{mono}}}\]

其中 \(d_{\text{mono}}\) 是预设的目标步数（42B tokens），\(\sigma_{\text{bi}}\) 计算双语模型达到同等loss所需的token数。BTS=0表示无迁移，>0表示正迁移，<0表示负干扰。

实际测量了80个语言对的BTS，并用其他训练信号估计剩余对（\(R^2=0.85\)），构建完整的 \(38 \times 38\) 迁移矩阵。

多语言诅咒的容量建模¶

将每目标语言loss建模为语言数 \(K\)、模型大小 \(N\) 和目标语言数据 \(D_t\) 的函数：

\[L(K, N, D_t) = L_\infty + A \frac{K^\phi}{N^\alpha} + B \frac{K^\psi}{D_t^\beta}\]

其中 \(\phi > 0\) 表示语言数增加导致的容量压力，\(\psi < 0\) 表示跨语言正迁移（每种语言需要的数据量亚线性增长）。当 \(K=1\) 时退化为Chinchilla。

预训练 vs 微调的交叉点¶

比较从头预训练和从Unimax checkpoint微调的loss曲线，找到交叉点：从头预训练在约144B–283B tokens后超越微调。交叉点与模型大小 \(N\) 的关系为 \(C = 1113708 \times N^{1.65}\)。

实验关键数据¶

实验规模¶

774个独立训练实验，涵盖MADLAD-400数据集（400+语言）
模型规模: 10M–8B参数，20个尺度等级
280个单语模型 + 240个双语模型 + 120个多语言混合 + 134个微调模型
评估48个语言的vocabulary-insensitive loss

Scaling Law拟合质量（Table 1）¶

Scaling Law	\(R^2\) (整体)	\(R^2(N)\)	\(R^2(D)\)	\(R^2(C)\)	\(R^2(M)\)
Chinchilla (多语言)	0.64	-0.99	0.72	0.66	0.61
Multilingual SL (He et al.)	0.67	-0.65	0.73	0.67	0.70
ATLAS (完整)	0.98	0.89	0.96	0.98	0.82

ATLAS在多语言设置下所有维度的泛化 \(R^2\) 均大幅超越先前方法，特别是对最大模型的外推 \(R^2(N)\) 从 -0.99 提升至 0.89。

跨语言迁移关键发现¶

英语是最广泛的正迁移源语言，在30种目标语言中有19种将其列为top-5最有帮助的源语言
法语（16/30）、西班牙语（13/30）、希伯来语（11/30）紧随其后
相同书写系统的语言对迁移得分均值 -0.23 vs 不同系统的 -0.39（\(p < .001\)）
迁移关系不对称: 全局Pearson相关 \(r = -0.11\)，即"A帮助B"不能推断"B帮助A"
同族同脚本的语言对（如法-西、俄-乌）高度对称；跨族跨脚本的对（如中-波斯、俄-越）高度不对称

多语言诅咒的定量结果¶

拟合得 \(\phi = 0.11\)（温和的容量诅咒），\(\psi = -0.04\)（轻微的正迁移）
扩展语言覆盖的计算预算: 将语言数从 \(K\) 扩展到 \(r \cdot K\)，计算预算应扩展 \(C \cdot r^{0.97}\)
扩展到 \(4K\) 语言需要总token数增加2.74倍、模型大小增加1.4倍
模型大小 \(N\) 的增加比数据量 \(D\) 更有效地缓解多语言诅咒（\(|\partial S / \partial \log N| > |\partial S / \partial \log D|\)）

预训练 vs 微调¶

对2B参数模型，微调Unimax checkpoint在144B–283B tokens以内更高效
超过此阈值后从头预训练更优
英语的交叉点最早（因为在Unimax中采样比例仅5%），其他语言约1.4%

亮点与洞察¶

有效数据分解是关键创新: 将多语言训练数据拆分为目标语言、迁移语言、其他语言三个独立项，各自学习权重和饱和参数，使模型能精确捕捉不同数据源的贡献。这个思路简洁但效果惊人（\(R^2\) 从0.67到0.98）
迁移矩阵的实用价值: 1444个语言对的迁移得分是目前最大的经验资源，可直接指导多语言训练的语言混合策略
多语言诅咒的可操作公式: 从 \(K\) 扩展到 \(rK\) 语言的iso-loss公式为从业者提供了清晰的预算规划工具
书写系统比语系更重要: 共享脚本对迁移的影响大于共享语系，暗示subword词汇共享是正迁移的主要机制
迁移不对称性: 这一发现警示从业者不能凭直觉假设迁移的互惠性，必须实证测量

局限性¶

评估仅用perplexity: 所有实验仅衡量vocabulary-insensitive loss，未在下游任务（如翻译、问答、分类）上验证scaling law的预测能力
数据来源单一: 仅用MADLAD-400（CommonCrawl），不同领域、质量的数据可能改变迁移关系
均匀采样假设: 多语言诅咒的建模假设各语言均匀采样，实际部署中往往需要不均匀分配
Unimax checkpoint特异性: 预训练vs微调的交叉点取决于Unimax的训练混合和训练时长，不同base模型可能有不同的交叉点
迁移矩阵的模型大小依赖: BTS在2B模型上测量，不同规模下迁移关系可能不同（虽然文中有部分分析）
低资源语言的代表不足: 尽管数据覆盖400+语言，但深入分析仍集中在约50种语言

评分¶

新颖性: ⭐⭐⭐⭐ 有效数据分解+饱和函数的设计简洁优雅，迁移矩阵和诅咒建模均为重要贡献
实验充分度: ⭐⭐⭐⭐⭐ 774个实验、400+语言、10M–8B参数，规模史无前例，多维度泛化验证严谨
写作质量: ⭐⭐⭐⭐ 结构清晰，公式推导完整，图表信息量大
价值: ⭐⭐⭐⭐⭐ 对多语言模型的训练规划有直接的工程指导价值，迁移矩阵和iso-loss公式可直接使用

方法	核心思路	与ATLAS的关键差异
Chinchilla (Hoffmann 2022)	英语单语 \(L = E + A/N^\alpha + B/D^\beta\)	不支持数据重复、不建模跨语言迁移
DCSL (Muennighoff 2024)	数据重复感知，两阶段拟合	需要充分的epoch前后观测，对多语言不友好
MSL (He 2024)	用语系采样比建模多语言	仅按语系分组，ATLAS学习逐语言迁移权重
BiMix (Ge 2024)	双变量数据混合scaling law	聚焦英语领域，不涉及多语言
Llama-3 (Dubey 2024)	简要提及多语言scaling law	仅8%非英语token，规模和深度不及本文