跳转至

Scaling and Transferability of Annealing Strategies in Large Language Model Training

会议: AAAI 2026
arXiv: 2512.13705
代码: GitHub
领域: LLM效率
关键词: 学习率退火, Scaling Law, 训练策略, 可迁移性, MoE

一句话总结

提出模型无关的预测框架,分解训练损失为前向效应项(学习率积分S)、退火动量项(Adam-style动量积分M)和模型尺寸项N,证明退火策略可从小模型/小batch迁移到大模型/大batch,预测误差MAPE<2%。

研究背景与动机

  • 领域现状:LLM训练中学习率调度(特别是退火/annealing阶段)对最终性能影响显著。现有Scaling Law(Chinchilla等)主要关注模型大小和训练token数量与最终损失的关系,忽略了训练动态。
  • 核心痛点:选择最优退火策略(退火比例、调度器类型等)需要大量昂贵的大规模实验。即使总token数相同,不同训练配置导致完全不同的损失曲线,现有框架无法解释这些差异。
  • 核心矛盾:前人提出的前向-动量Scaling Law假设固定batch size,前向项对batch size变化不鲁棒,动量项使用乘法累积导致数值不稳定。
  • 切入角度:发现训练步数(而非token数)是更可靠的损失追踪单位,基于此用积分形式重构前向效应和退火动量,消除对batch size的敏感性,实现跨配置迁移。

方法详解

整体框架

提出统一的损失预测公式,将训练损失分解为三个可解释的组成部分:L = lambda_S * S^(-alpha_S) + lambda_N * N^(-alpha_N) + lambda_M * M + L_0,其中S为学习率积分(前向效应),N为模型参数量,M为Adam-style退火动量积分。

关键设计

  1. 前向效应项S:学习率积分

    • S = 积分从0到T的eta(t)dt,将学习率对训练步数积分
    • 相比token-based追踪,step-based追踪在batch size大于最优batch size时损失曲线趋于收敛
    • S捕获训练过程中学习率的"累积推动力",是降低损失的主要驱动力
    • 使用积分形式而非离散求和,对不规则步长更鲁棒
  2. 退火动量项M:Adam-style动量积分

    • 采用Adam优化器风格的一阶/二阶矩估计来计算每步的动量
    • 进行偏差修正后累积:M_t = M_{t-1} + m_hat_t / sqrt(v_hat_t + epsilon)
    • 相比前人的乘法累积(CMMT),Adam-style在迁移场景下稳定性和泛化性更好
    • M捕获退火阶段学习率衰减带来的"收敛效应"
  3. 模型尺寸项N的幂律关系

    • 遵循经典Scaling Law的幂律形式
    • 在Dense(50M-1B)和MoE(100M-1.5B)模型上验证了跨模型大小的拟合精度
    • 配合前向和动量项,实现从小模型到大模型的退火策略预测
  4. 最优退火比例R_opt的迁移性证明

    • 跨学习率迁移:R_opt与eta_max呈幂律关系,跨模型大小一致
    • 跨模型大小迁移:R_opt在不同模型大小下收敛到相同值
    • 跨数据集迁移:训练集上的R_opt在验证集上保持一致
    • 跨训练步数迁移:R_opt与T呈幂律关系,步数越多R_opt越小

损失函数/训练策略

  • 实验使用AdamW优化器,beta_1=0.9,beta_2=0.95
  • 对比Cosine调度器和WSD(Warmup-Steady-Decay)调度器
  • Cosine调度器拟合的参数可以预测WSD调度器的损失曲线,反之亦然
  • 最优batch size遵循幂律:B_opt与L^alpha_B成反比

实验关键数据

主实验表格

模型类型 参数范围 拟合MAPE 跨调度器预测MAPE
Dense 50M-1B <2% 0.23%-0.80%
MoE 100M-1.5B <2% 0.41%-0.72%

消融实验表格(迁移性验证)

迁移维度 结论 定量结果
跨batch size B>B_opt时step-based损失曲线收敛 曲线几乎重合
跨学习率 R_opt与eta_max呈幂律关系 Dense: alpha_eta约0.709
跨模型大小 R_opt在不同大小下收敛 同一配置内一致
跨数据集 训练到验证集迁移绝对误差<0.003 验证集MAPE略增
跨训练步数 R_opt随步数增加而减小 1B MoE: alpha_T约-0.946

关键发现

  • 步数优于token数作为损失追踪单位:当batch size处于最优范围内时,step-based损失曲线比token-based更稳定
  • Adam-style动量优于乘法累积:在跨调度器迁移中表现更稳定,解决了数值不稳定问题
  • Cosine和WSD可互相预测:一种调度器的拟合参数可预测另一种,MAPE<1%
  • 训练步数越长,退火比例越小:长训练允许模型充分探索参数空间,无需过早退火
  • 模型越大,次优退火比例的性能惩罚越大:大模型对退火选择更敏感

亮点与洞察

  • 从"调参"到"预测"的范式转变:将退火策略从需要大量实验的调参问题转变为可预测可迁移的数学问题,对大规模LLM训练有直接成本节省价值
  • 积分形式的优雅统一:用学习率积分和动量积分分别捕获前向推动力和退火收敛效应,物理直觉清晰
  • MoE模型的退火规律首次被系统研究:证明MoE和Dense模型遵循相同的幂律框架但系数不同

局限与展望

  • 实验模型最大1.5B参数,能否推广到100B+规模有待验证
  • 仅验证了Cosine和WSD两种调度器,更复杂的调度策略未覆盖
  • 最优batch size的幂律估计精度在极端配置下可能不足
  • 未考虑数据混合(data mixture)变化对退火策略的影响

相关工作与启发

  • vs. Chinchilla Scaling Law:Chinchilla关注token数和模型大小的最优比例,忽略训练动态;本文将训练动态纳入Scaling框架
  • vs. Tissue et al. 前向-动量Scaling Law:Tissue假设固定batch size,使用乘法累积动量;本文用积分消除batch size依赖,用Adam-style动量提升稳定性

评分

  • 新颖性: ⭐⭐⭐⭐ 退火策略的预测框架和多维度迁移性证明是新贡献
  • 实验充分度: ⭐⭐⭐⭐⭐ 跨batch/调度器/模型大小/数据集/步数的全面验证
  • 写作质量: ⭐⭐⭐⭐ 公式推导清晰,实验设计系统
  • 价值: ⭐⭐⭐⭐⭐ 对LLM训练效率提升有直接实用价值,可省大量调参成本