Scaling with Collapse: Efficient and Predictable Training of LLM Families¶

会议: ICLR 2026
arXiv: 2509.25087
代码: 无
领域: 医学图像
关键词: 训练损失曲线崩塞, 超参缩放, 训练诊断, 早停, Cerebras

一句话总结¶

证明 LLM 家族的训练损失曲线在优化超参数与数据预算匹配时会“崩塞”到同一条通用曲线上，并利用这一现象实现两个实用应用：(1) 偏离崩塞作为训练病理的早期诊断信号，(2) 崩塞曲线的可预测性实现大规模超参调优的早停。

研究背景与动机¶

领域现状¶

领域现状：领域现状**：Scaling law 可预测最终损失，μP 可转移学习率，但完整的训练损失曲线（TLC）的可预测性尚未在实际 LLM 规模下验证。

现有痛点：

核心矛盾¶

核心矛盾：Qiu et al. 发现损失曲线崩塞现象但仅在小规模验证，未测试实际 LLM 训练配方

现有痛点¶

现有痛点：前沿规模无法直接实验——需要从小规模推断

解决思路¶

解决思路：训练病理（loss spike）的诊断仍依赖人工判断

核心发现：损失曲线崩塞的充要条件是优化超参数对给定数据预算是最优的——崩塞是计算最优训练的“特征标记”。

切入角度：当所有模型以相同的 tokens-per-parameter (TPP=D/N) 训练且 AdamW 时间尺度 τ 设为最优时，不同大小的模型的 TLC 在简单归一化后落在同一条曲线上。

方法详解¶

整体框架¶

两个实用应用：(1) 偏离-崩塞诊断：在线监控当前 TLC 与通用崩塞曲线的偏差→异常 spike 或漂移可更早检测出训练问题；(2) 早停超参调优：崩塞曲线可预测→从部分 TLC 外推最终损失，早期停止表现差的配置。

关键设计¶

崩塞条件：所有模型 TPP 相同 + 超参最优（lr、batch size、weight decay 联合缩放）→ TLC 崩塞
偏离诊断：从小模型拟合通用曲线，大模型实时比较→数值稳定性问题在偏差中更早显现
早停：拟合崩塞曲线参数化模型，从前 10-20% 训练外推最终损失，节省 80%+ 超参调优计算量

Celerity LLM 家族¶

利用崩塞洞察训练的有竞争力 LLM 家族
在 Cerebras CS-3 上运行所有实验

实验关键数据¶

主实验¶

现象	结果
Llama-2（不同 TPP）	TLC 不崩塞
Celerity（相同 TPP + 最优超参）	TLC 完美崩塞
偏离诊断	比人工判断更早检测 loss spike
早停超参	从 20% TLC 外推最终损失，误差 <1%

关键发现¶

崩塞是计算最优训练的充要条件——仅当超参按 scaling law 设为最优时才出现
偏离诊断可更早发现数值稳定性问题（如 bf16 精度不足）
早停节省 80%+ 超参搜索计算

消融实验与深入分析¶

崩塞条件验证¶

条件	是否崩塞	说明
固定 TPP + 最优 \(\tau\) + 固定 LR schedule	✓ 崩塞	Celerity 家族
不同 TPP（如 Llama-2）	✗ 不崩塞	不同 D/N 比导致 TLC 形状不同
固定 TPP + 非最优 \(\tau\)	✗ 不崩塞	\(\tau\) 偏离最优会拉伸或压缩 TLC
固定 TPP + 不同 LR schedule	✗ 不崩塞	LR 衰减形状直接影响 TLC 形状

偏离诊断的实际案例¶

在 Celerity 1.8B 训练中，缓存中旧的 loss 显示了轻微的上升趋势
通过崩塞残差分析（将 TLC 归一化后与通用曲线比较），在原始 TLC 出现明显异常前数百步就检测到了偏离
诊断结果：bf16 数值精度问题导致的梯度累积不稳定
修复后 TLC 重新回到崩塞曲线上

早停超参调优¶

对 20+ 组超参配置仅训练前 20% 的 token
用崩塞曲线参数化模型拟合部分 TLC → 外推最终 loss
排除预期最终 loss 最差的 80% 配置，仅对 top 20% 完成全量训练
节省 80%+ 超参搜索的计算量，外推误差 <1%

Celerity 在效率前沿的位置¶

模型	参数量	训练 token	平均准确率
典型同规模模型	同等	同等	基线
Celerity	同等	同等	效率前沿

亮点与洞察¶

崩塞作为"健康标志"是一个简单但强大的工程工具——如果 TLC 不崩塞就说明超参或训练配方有问题。这比任何 metric 都更直觉化。
崩塞 = 计算最优训练的充要关系是核心理论贡献——将一个视觉现象连接到了优化理论
偏离诊断的实用性：传统方法需要人工判断 loss spike 是否需要回退，崩塞曲线提供了客观参考
早停超参调优：外推最终 loss 的可靠性使得大规模超参搜索成本大幅降低
\(\tau\) 的统一作用：AdamW 的 EMA 时间尺度 \(\tau = 1/(\eta\lambda)\) 是一个被忽视但极其重要的超参——它统一了学习率和权重衰减的效果

局限与展望¶

崩塞条件要求所有模型 TPP 相同——实际中不同模型可能有不同最优 TPP（如 Chinchilla 的 20 vs 其他估计）
仅验证了预训练 loss——下游任务性能的崩塞未探索（loss 崩塞不保证下游 accuracy 也崩塞）
早停外推依赖参数化崩塌曲线模型的准确性——对于非常不同的训练配方可能需要重新拟合
所有实验在 Cerebras CS-3 上运行——不同硬件（如 GPU）上的崩塞行为可能略有差异（精度、通信模式等）
目前仅验证了 μP 参数化下的崩塞——其他参数化方案（如 SP）下是否成立未知

评分¶

新颖性: ⭐⭐⭐⭐ 崩塞条件的发现和实用应用有独特洞察力
实验充分度: ⭐⭐⭐⭐⭐ 大规模 Cerebras 实验，多模型大小验证，实际训练诊断案例
写作质量: ⭐⭐⭐⭐⭐ Figure 1 的三列对比极其直观，行文清晰
价值: ⭐⭐⭐⭐⭐ 对大规模 LLM 训练的实际工程指导价值极高