Scaling with Collapse: Efficient and Predictable Training of LLM Families¶
会议: ICLR 2026
arXiv: 2509.25087
代码: 无
领域: 医学图像
关键词: 训练损失曲线崩塞, 超参缩放, 训练诊断, 早停, Cerebras
一句话总结¶
证明 LLM 家族的训练损失曲线在优化超参数与数据预算匹配时会“崩塞”到同一条通用曲线上,并利用这一现象实现两个实用应用:(1) 偏离崩塞作为训练病理的早期诊断信号,(2) 崩塞曲线的可预测性实现大规模超参调优的早停。
研究背景与动机¶
领域现状¶
领域现状:领域现状**:Scaling law 可预测最终损失,μP 可转移学习率,但完整的训练损失曲线(TLC)的可预测性尚未在实际 LLM 规模下验证。
现有痛点:
核心矛盾¶
核心矛盾:Qiu et al. 发现损失曲线崩塞现象但仅在小规模验证,未测试实际 LLM 训练配方
现有痛点¶
现有痛点:前沿规模无法直接实验——需要从小规模推断
解决思路¶
解决思路:训练病理(loss spike)的诊断仍依赖人工判断
核心发现:损失曲线崩塞的充要条件是优化超参数对给定数据预算是最优的——崩塞是计算最优训练的“特征标记”。
切入角度:当所有模型以相同的 tokens-per-parameter (TPP=D/N) 训练且 AdamW 时间尺度 τ 设为最优时,不同大小的模型的 TLC 在简单归一化后落在同一条曲线上。
方法详解¶
整体框架¶
本文的核心观察是:当一个 LLM 家族里不同大小的模型都用相同的 tokens-per-parameter(\(\text{TPP}=D/N\))训练、且优化超参数对各自数据预算都设为最优时,它们的完整训练损失曲线(TLC)在简单归一化后会“崩塞”到同一条通用曲线上。围绕这一现象,作者把它从一个视觉规律提炼成可操作的工具:先刻画崩塞成立的充要条件,再用偏离崩塞作为训练病理的在线诊断信号,最后用崩塞曲线的可预测性把昂贵的超参搜索改造成早停流程,并据此训练出 Celerity 模型家族。
关键设计¶
1. 崩塞条件:把“计算最优训练”变成一个可观测的特征标记。 已有 scaling law 只能预测最终损失这一个标量,而完整的损失曲线形状是否可跨规模转移此前没有在真实 LLM 规模上验证过。作者发现 TLC 崩塞并非总会发生,而是有严格前提:所有模型必须共享相同的 TPP,且学习率、batch size、权重衰减按 scaling law 联合缩放到最优。其中一个被忽视的关键变量是 AdamW 的 EMA 时间尺度 \(\tau = 1/(\eta\lambda)\),它把学习率 \(\eta\) 与权重衰减 \(\lambda\) 的效果统一了起来——只有当 \(\tau\) 对给定 TPP 取最优时曲线才会崩塞,\(\tau\) 偏离最优会拉伸或压缩 TLC,不同的 LR 衰减形状同样会破坏崩塞。反过来,崩塞与否就成了“超参是否计算最优”的充要判据:曲线一旦崩塞,就说明这套配方处在效率前沿。
2. 偏离诊断:用残差把人工盯 loss 曲线换成客观早警。 传统上判断一次 loss spike 是否需要回退依赖人工经验,往往等异常在原始曲线上肉眼可见时才反应。作者改为先从小模型拟合出通用崩塞曲线,再让大模型在训练中把自己归一化后的 TLC 实时与之相减,监控崩塞残差。由于数值稳定性问题(如 bf16 精度不足导致的梯度累积漂移)会先在残差里显形,这套方法能在原始 TLC 出现明显异常前数百步就检测到偏离——在 Celerity 1.8B 的训练里正是靠它提前定位了一处 bf16 精度问题,修复后曲线重新回到崩塞轨迹上。
3. 早停超参调优:靠崩塞曲线的可预测性外推最终损失。 崩塞意味着完整曲线的形状是可参数化、可预测的,因此不必把每组超参都训练到底。作者对一批候选配置只训练前 10–20% 的 token,用崩塞曲线的参数化模型拟合这段部分 TLC 并外推到最终损失,外推误差控制在 1% 以内,从而能提前排除预期表现最差的大多数配置、只对最优的少数完成全量训练,把超参搜索的计算量节省 80% 以上。Celerity 家族正是在 Cerebras CS-3 上利用这些洞察训练出来的,落在同规模模型的效率前沿。
实验关键数据¶
主实验¶
| 现象 | 结果 |
|---|---|
| Llama-2(不同 TPP) | TLC 不崩塞 |
| Celerity(相同 TPP + 最优超参) | TLC 完美崩塞 |
| 偏离诊断 | 比人工判断更早检测 loss spike |
| 早停超参 | 从 20% TLC 外推最终损失,误差 <1% |
关键发现¶
- 崩塞是计算最优训练的充要条件——仅当超参按 scaling law 设为最优时才出现
- 偏离诊断可更早发现数值稳定性问题(如 bf16 精度不足)
- 早停节省 80%+ 超参搜索计算
消融实验与深入分析¶
崩塞条件验证¶
| 条件 | 是否崩塞 | 说明 |
|---|---|---|
| 固定 TPP + 最优 \(\tau\) + 固定 LR schedule | ✓ 崩塞 | Celerity 家族 |
| 不同 TPP(如 Llama-2) | ✗ 不崩塞 | 不同 D/N 比导致 TLC 形状不同 |
| 固定 TPP + 非最优 \(\tau\) | ✗ 不崩塞 | \(\tau\) 偏离最优会拉伸或压缩 TLC |
| 固定 TPP + 不同 LR schedule | ✗ 不崩塞 | LR 衰减形状直接影响 TLC 形状 |
偏离诊断的实际案例¶
- 在 Celerity 1.8B 训练中,缓存中旧的 loss 显示了轻微的上升趋势
- 通过崩塞残差分析(将 TLC 归一化后与通用曲线比较),在原始 TLC 出现明显异常前数百步就检测到了偏离
- 诊断结果:bf16 数值精度问题导致的梯度累积不稳定
- 修复后 TLC 重新回到崩塞曲线上
早停超参调优¶
- 对 20+ 组超参配置仅训练前 20% 的 token
- 用崩塞曲线参数化模型拟合部分 TLC → 外推最终 loss
- 排除预期最终 loss 最差的 80% 配置,仅对 top 20% 完成全量训练
- 节省 80%+ 超参搜索的计算量,外推误差 <1%
Celerity 在效率前沿的位置¶
| 模型 | 参数量 | 训练 token | 平均准确率 |
|---|---|---|---|
| 典型同规模模型 | 同等 | 同等 | 基线 |
| Celerity | 同等 | 同等 | 效率前沿 |
亮点与洞察¶
- 崩塞作为"健康标志"是一个简单但强大的工程工具——如果 TLC 不崩塞就说明超参或训练配方有问题。这比任何 metric 都更直觉化。
- 崩塞 = 计算最优训练的充要关系是核心理论贡献——将一个视觉现象连接到了优化理论
- 偏离诊断的实用性:传统方法需要人工判断 loss spike 是否需要回退,崩塞曲线提供了客观参考
- 早停超参调优:外推最终 loss 的可靠性使得大规模超参搜索成本大幅降低
- \(\tau\) 的统一作用:AdamW 的 EMA 时间尺度 \(\tau = 1/(\eta\lambda)\) 是一个被忽视但极其重要的超参——它统一了学习率和权重衰减的效果
局限与展望¶
- 崩塞条件要求所有模型 TPP 相同——实际中不同模型可能有不同最优 TPP(如 Chinchilla 的 20 vs 其他估计)
- 仅验证了预训练 loss——下游任务性能的崩塞未探索(loss 崩塞不保证下游 accuracy 也崩塞)
- 早停外推依赖参数化崩塌曲线模型的准确性——对于非常不同的训练配方可能需要重新拟合
- 所有实验在 Cerebras CS-3 上运行——不同硬件(如 GPU)上的崩塞行为可能略有差异(精度、通信模式等)
- 目前仅验证了 μP 参数化下的崩塞——其他参数化方案(如 SP)下是否成立未知
相关工作与启发¶
- vs Chinchilla (Hoffmann et al.):Chinchilla 预测最终损失的缩放律(一个标量);本文预测完整训练曲线的形状(一条曲线)——是缩放律的"时间序列版"
- vs Qiu et al. (2025) Supercollapse:他们在小规模自回归任务上发现崩塞;本文将其推广到实际 LLM 训练,并揭示了崩塞的充要条件(TPP + \(\tau\) 最优)
- vs μP (Yang & Hu):μP 使学习率可跨规模转移;本文发现在 μP 下整个 TLC 形状都可跨规模转移——是 μP 的更强推论
- vs Wang & Aitchison (2024) AdamW EMA:他们发现 \(\tau\) 在图像任务上跨规模稳定;本文发现 \(\tau\) 的最优值取决于 TPP,在 LLM 中是 TLC 崩塞的关键控制变量
- 启发:崩塞理论可以推广到其他序列训练场景——如扩散模型、强化学习的训练曲线是否也存在类似的通用形状
评分¶
- 新颖性: ⭐⭐⭐⭐ 崩塞条件的发现和实用应用有独特洞察力
- 实验充分度: ⭐⭐⭐⭐⭐ 大规模 Cerebras 实验,多模型大小验证,实际训练诊断案例
- 写作质量: ⭐⭐⭐⭐⭐ Figure 1 的三列对比极其直观,行文清晰
- 价值: ⭐⭐⭐⭐⭐ 对大规模 LLM 训练的实际工程指导价值极高