Scaling and Transferability of Annealing Strategies in Large Language Model Training¶

会议: AAAI 2026
arXiv: 2512.13705
代码: GitHub
领域: LLM效率
关键词: 学习率退火, Scaling Law, 训练策略, 可迁移性, MoE

一句话总结¶

提出模型无关的预测框架，分解训练损失为前向效应项（学习率积分S）、退火动量项（Adam-style动量积分M）和模型尺寸项N，证明退火策略可从小模型/小batch迁移到大模型/大batch，预测误差MAPE<2%。

领域现状：LLM训练中学习率调度（特别是退火/annealing阶段）对最终性能影响显著。现有Scaling Law（Chinchilla等）主要关注模型大小和训练token数量与最终损失的关系，忽略了训练动态。
核心痛点：选择最优退火策略（退火比例、调度器类型等）需要大量昂贵的大规模实验。即使总token数相同，不同训练配置导致完全不同的损失曲线，现有框架无法解释这些差异。
核心矛盾：前人提出的前向-动量Scaling Law假设固定batch size，前向项对batch size变化不鲁棒，动量项使用乘法累积导致数值不稳定。
切入角度：发现训练步数(而非token数)是更可靠的损失追踪单位，基于此用积分形式重构前向效应和退火动量，消除对batch size的敏感性，实现跨配置迁移。

提出统一的损失预测公式，将训练损失分解为三个可解释的组成部分：L = lambda_S * S^(-alpha_S) + lambda_N * N^(-alpha_N) + lambda_M * M + L_0，其中S为学习率积分（前向效应），N为模型参数量，M为Adam-style退火动量积分。

前向效应项S：学习率积分
- S = 积分从0到T的eta(t)dt，将学习率对训练步数积分
- 相比token-based追踪，step-based追踪在batch size大于最优batch size时损失曲线趋于收敛
- S捕获训练过程中学习率的"累积推动力"，是降低损失的主要驱动力
- 使用积分形式而非离散求和，对不规则步长更鲁棒
退火动量项M：Adam-style动量积分
- 采用Adam优化器风格的一阶/二阶矩估计来计算每步的动量
- 进行偏差修正后累积：M_t = M_{t-1} + m_hat_t / sqrt(v_hat_t + epsilon)
- 相比前人的乘法累积（CMMT），Adam-style在迁移场景下稳定性和泛化性更好
- M捕获退火阶段学习率衰减带来的"收敛效应"
模型尺寸项N的幂律关系
- 遵循经典Scaling Law的幂律形式
- 在Dense（50M-1B）和MoE（100M-1.5B）模型上验证了跨模型大小的拟合精度
- 配合前向和动量项，实现从小模型到大模型的退火策略预测
最优退火比例R_opt的迁移性证明
- 跨学习率迁移：R_opt与eta_max呈幂律关系，跨模型大小一致
- 跨模型大小迁移：R_opt在不同模型大小下收敛到相同值
- 跨数据集迁移：训练集上的R_opt在验证集上保持一致
- 跨训练步数迁移：R_opt与T呈幂律关系，步数越多R_opt越小

模型类型	参数范围	拟合MAPE	跨调度器预测MAPE
Dense	50M-1B	<2%	0.23%-0.80%
MoE	100M-1.5B	<2%	0.41%-0.72%