ATLAS: Adaptive Transfer Scaling Laws for Multilingual Pretraining, Finetuning, and Decoding the Curse of Multilinguality¶
会议: ICLR 2026
arXiv: 2510.22037
代码: 未开源
领域: 多语言翻译
关键词: scaling laws, multilingual, cross-lingual transfer, curse of multilinguality, pretraining vs finetuning
一句话总结¶
提出 Adaptive Transfer Scaling Law (ATLAS),通过将有效数据量分解为目标语言、迁移语言和其他语言三项并引入数据重复饱和函数,在774个多语言训练实验(10M–8B参数、400+语言)上显著优于现有scaling law(多语言 \(R^2\) 从0.67提升至0.98),并系统量化了跨语言迁移矩阵、多语言诅咒的容量约束以及预训练vs微调的计算交叉点。
研究背景与动机¶
现有Scaling Law的局限¶
Scaling laws研究几乎完全聚焦于英语。Chinchilla Scaling Law (CSL) 用两个幂律项分别建模模型大小 \(N\) 和数据量 \(D\) 对损失的影响,但存在多个缺陷:
不支持数据重复: 低资源语言(如Hindi、Swahili)的数据量极其有限,训练时需要多轮重复,CSL无法建模重复带来的收益递减
忽略跨语言迁移: 单语scaling law只能看到目标语言的token数,无法利用其他语言数据的正/负迁移效应
Data-Constrained Scaling Law (DCSL) 虽然考虑了数据重复,但需要大量"1个epoch前"和"1个epoch后"的观测点来完成两阶段拟合,对高资源语言(英语、法语)收集超过1个epoch的数据成本很高,对低资源语言则可能在1个epoch之前都没有足够的观测
实践需求¶
多语言模型的开发者面临三个核心问题,但缺乏系统性回答: - 不同语言之间的迁移关系如何?哪些语言对训练互利,哪些会干扰? - 增加模型服务的语言数量时,需要增加多少计算资源?(多语言诅咒的定量刻画) - 给定计算预算,是从头预训练还是从多语言checkpoint微调更高效?
方法详解¶
ATLAS核心公式¶
ATLAS基于Chinchilla的基本形式,但用有效数据量 \(\mathcal{D}_{\text{eff}}\) 替代原始的 \(D\):
有效数据量分解为三项:
饱和函数(处理数据重复)¶
对每个数据源,用饱和函数 \(\mathcal{S}_\lambda\) 建模多轮重复的收益递减:
\(U\) 是该语言的唯一token数,\(\lambda\) 是共享的重复衰减参数。第一个epoch内数据量线性增长,超过后指数级饱和。
跨语言迁移矩阵(38×38)¶
定义双语迁移得分 (Bilingual Transfer Score, BTS),衡量源语言 \(s\) 对目标语言 \(t\) 的影响:
其中 \(d_{\text{mono}}\) 是预设的目标步数(42B tokens),\(\sigma_{\text{bi}}\) 计算双语模型达到同等loss所需的token数。BTS=0表示无迁移,>0表示正迁移,<0表示负干扰。
实际测量了80个语言对的BTS,并用其他训练信号估计剩余对(\(R^2=0.85\)),构建完整的 \(38 \times 38\) 迁移矩阵。
多语言诅咒的容量建模¶
将每目标语言loss建模为语言数 \(K\)、模型大小 \(N\) 和目标语言数据 \(D_t\) 的函数:
其中 \(\phi > 0\) 表示语言数增加导致的容量压力,\(\psi < 0\) 表示跨语言正迁移(每种语言需要的数据量亚线性增长)。当 \(K=1\) 时退化为Chinchilla。
预训练 vs 微调的交叉点¶
比较从头预训练和从Unimax checkpoint微调的loss曲线,找到交叉点:从头预训练在约144B–283B tokens后超越微调。交叉点与模型大小 \(N\) 的关系为 \(C = 1113708 \times N^{1.65}\)。
实验关键数据¶
实验规模¶
- 774个独立训练实验,涵盖MADLAD-400数据集(400+语言)
- 模型规模: 10M–8B参数,20个尺度等级
- 280个单语模型 + 240个双语模型 + 120个多语言混合 + 134个微调模型
- 评估48个语言的vocabulary-insensitive loss
Scaling Law拟合质量(Table 1)¶
| Scaling Law | \(R^2\) (整体) | \(R^2(N)\) | \(R^2(D)\) | \(R^2(C)\) | \(R^2(M)\) |
|---|---|---|---|---|---|
| Chinchilla (多语言) | 0.64 | -0.99 | 0.72 | 0.66 | 0.61 |
| Multilingual SL (He et al.) | 0.67 | -0.65 | 0.73 | 0.67 | 0.70 |
| ATLAS (完整) | 0.98 | 0.89 | 0.96 | 0.98 | 0.82 |
ATLAS在多语言设置下所有维度的泛化 \(R^2\) 均大幅超越先前方法,特别是对最大模型的外推 \(R^2(N)\) 从 -0.99 提升至 0.89。
跨语言迁移关键发现¶
- 英语是最广泛的正迁移源语言,在30种目标语言中有19种将其列为top-5最有帮助的源语言
- 法语(16/30)、西班牙语(13/30)、希伯来语(11/30)紧随其后
- 相同书写系统的语言对迁移得分均值 -0.23 vs 不同系统的 -0.39(\(p < .001\))
- 迁移关系不对称: 全局Pearson相关 \(r = -0.11\),即"A帮助B"不能推断"B帮助A"
- 同族同脚本的语言对(如法-西、俄-乌)高度对称;跨族跨脚本的对(如中-波斯、俄-越)高度不对称
多语言诅咒的定量结果¶
- 拟合得 \(\phi = 0.11\)(温和的容量诅咒),\(\psi = -0.04\)(轻微的正迁移)
- 扩展语言覆盖的计算预算: 将语言数从 \(K\) 扩展到 \(r \cdot K\),计算预算应扩展 \(C \cdot r^{0.97}\)
- 扩展到 \(4K\) 语言需要总token数增加2.74倍、模型大小增加1.4倍
- 模型大小 \(N\) 的增加比数据量 \(D\) 更有效地缓解多语言诅咒(\(|\partial S / \partial \log N| > |\partial S / \partial \log D|\))
预训练 vs 微调¶
- 对2B参数模型,微调Unimax checkpoint在144B–283B tokens以内更高效
- 超过此阈值后从头预训练更优
- 英语的交叉点最早(因为在Unimax中采样比例仅5%),其他语言约1.4%
亮点与洞察¶
- 有效数据分解是关键创新: 将多语言训练数据拆分为目标语言、迁移语言、其他语言三个独立项,各自学习权重和饱和参数,使模型能精确捕捉不同数据源的贡献。这个思路简洁但效果惊人(\(R^2\) 从0.67到0.98)
- 迁移矩阵的实用价值: 1444个语言对的迁移得分是目前最大的经验资源,可直接指导多语言训练的语言混合策略
- 多语言诅咒的可操作公式: 从 \(K\) 扩展到 \(rK\) 语言的iso-loss公式为从业者提供了清晰的预算规划工具
- 书写系统比语系更重要: 共享脚本对迁移的影响大于共享语系,暗示subword词汇共享是正迁移的主要机制
- 迁移不对称性: 这一发现警示从业者不能凭直觉假设迁移的互惠性,必须实证测量
局限性¶
- 评估仅用perplexity: 所有实验仅衡量vocabulary-insensitive loss,未在下游任务(如翻译、问答、分类)上验证scaling law的预测能力
- 数据来源单一: 仅用MADLAD-400(CommonCrawl),不同领域、质量的数据可能改变迁移关系
- 均匀采样假设: 多语言诅咒的建模假设各语言均匀采样,实际部署中往往需要不均匀分配
- Unimax checkpoint特异性: 预训练vs微调的交叉点取决于Unimax的训练混合和训练时长,不同base模型可能有不同的交叉点
- 迁移矩阵的模型大小依赖: BTS在2B模型上测量,不同规模下迁移关系可能不同(虽然文中有部分分析)
- 低资源语言的代表不足: 尽管数据覆盖400+语言,但深入分析仍集中在约50种语言
相关工作¶
| 方法 | 核心思路 | 与ATLAS的关键差异 |
|---|---|---|
| Chinchilla (Hoffmann 2022) | 英语单语 \(L = E + A/N^\alpha + B/D^\beta\) | 不支持数据重复、不建模跨语言迁移 |
| DCSL (Muennighoff 2024) | 数据重复感知,两阶段拟合 | 需要充分的epoch前后观测,对多语言不友好 |
| MSL (He 2024) | 用语系采样比建模多语言 | 仅按语系分组,ATLAS学习逐语言迁移权重 |
| BiMix (Ge 2024) | 双变量数据混合scaling law | 聚焦英语领域,不涉及多语言 |
| Llama-3 (Dubey 2024) | 简要提及多语言scaling law | 仅8%非英语token,规模和深度不及本文 |
ATLAS的核心优势在于:(1) 统一的单阶段拟合,(2) 细粒度的跨语言迁移建模,(3) 迄今最大规模的多语言scaling实验。
评分¶
- 新颖性: ⭐⭐⭐⭐ 有效数据分解+饱和函数的设计简洁优雅,迁移矩阵和诅咒建模均为重要贡献
- 实验充分度: ⭐⭐⭐⭐⭐ 774个实验、400+语言、10M–8B参数,规模史无前例,多维度泛化验证严谨
- 写作质量: ⭐⭐⭐⭐ 结构清晰,公式推导完整,图表信息量大
- 价值: ⭐⭐⭐⭐⭐ 对多语言模型的训练规划有直接的工程指导价值,迁移矩阵和iso-loss公式可直接使用