Efficient Pre-Training of LLMs via Topology-Aware Communication Alignment on More Than 9600 GPUs¶
会议: NeurIPS 2025
arXiv: 2509.15940
代码: 待确认
领域: LLM预训练
关键词: distributed training, GPU scheduling, network topology, communication alignment, hybrid parallelism, MIP
一句话总结¶
提出 Arnold 调度系统,通过将 LLM 训练的通信模式(DP/PP group)与数据中心物理网络拓扑对齐,在模拟中将通信组最大跨度减少 1.67x,在 9600+ GPU 生产级训练中端到端性能提升 10.6%。
研究背景与动机¶
领域现状:LLM 预训练需要数千 GPU 协同,网络通信在训练时间中占 30%-50%。现代数据中心采用多层 fat-tree 拓扑(leaf→spine→core),不同层级间的带宽递减。
现有痛点:(a) 现有 GPU 调度器(如 bin-packing)只优化 GPU 局部性(将 GPU 尽量打包到一起),但不了解 LLM 训练的通信结构——导致 DP/PP 通信组跨越多个 spine switch,带宽下降;(b) DP 和 PP 是正交并行策略,同一 GPU 同时参与两者,无法同时完美对齐两种通信模式,需要权衡。
核心矛盾:LLM 训练的通信模式是稀疏但高吞吐的——99% 的 GPU 对没有直接流量,数据交换只在特定通信组内进行。但调度器不知道这种稀疏结构,将 GPU 随机/贪心分配导致通信组跨多个 pod,带宽大幅退化(collective op 降 17%,P2P 降 70%)。
本文目标:设计一个拓扑感知的 LPJ(LLM Pre-training Job)调度算法,将通信组映射到物理拓扑上以最小化跨 pod 通信。
切入角度:深入刻画不同通信操作在跨 pod 时的性能退化规律,将调度问题建模为带权最大跨度最小化的 MIP(混合整数规划)问题。
核心 idea:将 LLM 混合并行的通信矩阵与数据中心拓扑结构做对齐优化,用 MIP 求解最小化通信组的物理跨度。
方法详解¶
整体框架¶
Arnold 接收 LPJ 的 GPU 数量和并行度配置(DP/TP/PP),构建通信矩阵,然后通过 MIP 求解器找到最优的 GPU-to-minipod 分配方案。同时配有资源管理策略,预留节点给即将到来的 LPJ。
关键设计¶
-
通信矩阵建模:
- 功能:将 LPJ 的通信模式抽象为二维矩阵
- 核心思路:行代表 DP 组,列代表 PP 组。每个矩阵节点 \(v_{ij}\) 附带向量 \([v_w, v_d, v_p]\) 表示权重大小、DP 和 PP 通信量。通信组大小由 \(DP = \#GPUs / TP / PP\) 计算
- 设计动机:将复杂的混合并行通信结构简化为可优化的矩阵表示
-
MIP 调度算法:
- 功能:最小化通信组跨 minipod 的最大物理跨度
- 核心思路:目标函数 \(\text{MIN}[\alpha \cdot \text{max DP spread} + \beta \cdot \text{max PP spread}]\),其中 \(\alpha + \beta = 1\) 控制 DP/PP 的权衡。利用通信组同质同步的特性,将其简化为 bin-packing 变体的 MIP,用标准求解器(SCIP)高效求解
- 设计动机:传统 bin-packing 忽略通信结构;本文将通信组作为调度单元,同时优化跨 pod 跨度
-
通信特性刻画 + 自动权衡:
- 功能:确定 \(\alpha, \beta\) 的最优值
- 核心思路:预先对不同模型/GPU 类型做通信性能 profiling,存入数据库。调度时根据计算-通信比 \(r_1\) 和 DP-PP 通信量比 \(r_2\) 匹配最相似的历史 job,导出 \(\alpha, \beta\)
- 设计动机:不同模型的通信瓶颈不同(dense model PP 主导,MoE model 两者都重要),需要动态调整权衡
资源管理策略¶
采用预留机制:LPJ 规划后,预留节点;新到 job 优先调度到预留区外;若新 job 预测完成时间早于 LPJ 到达时间,允许临时使用预留区,提高利用率。用 ML 预测器估计 JCT(Job Completion Time)。
实验关键数据¶
模拟实验:通信组跨度¶
| 算法 | 跨度减少倍数 |
|---|---|
| Best-fit | baseline |
| GPU-packing | ≈baseline |
| Topo-aware | 略优 |
| Arnold | 最高 1.67x |
生产集群实验¶
| 规模 | 对比系统 | 提升 |
|---|---|---|
| 208 GPUs | vs MegaScale | +5.7% 吞吐 |
| 9600+ GPUs | vs MegaScale | +10.6% 吞吐 |
通信性能退化(跨 minipod)¶
| 通信类型 | 退化幅度 |
|---|---|
| Collective (AllGather/ReduceScatter) | 最高 17% |
| P2P (Send-Recv) | 最高 70% |
关键发现¶
- PP-aligned 放置一致优于 DP-aligned 和无对齐方案,因为 PP 通信(P2P)对跨 pod 延迟更敏感
- 模型越大,通信占比越高,Arnold 的改善越显著
- 跨 minipod 放置对 intra-minipod 拓扑不敏感(性能差异 <0.3%),验证了聚焦 inter-minipod 优化的假设
亮点与洞察¶
- 工业级系统 + 学术抽象:在字节跳动 9600+ GPU 生产环境验证,同时将问题严格建模为可解的 MIP,兼具实用性和理论优雅性
- 通信特性的深入刻画:明确给出了不同通信操作在跨 pod 时的退化曲线,为调度优化提供了定量依据
- 发现意外的连锁效应:拓扑对齐不仅提升通信效率,还通过 GPU stream 资源竞争间接影响计算 kernel 性能
局限与展望¶
- 依赖预先 profiling:需要对每种模型/GPU 类型做通信特性刻画并存入数据库,新模型需要额外测试,增加了上线周期
- 三层拓扑假设:算法针对 leaf-spine-core 三层拓扑设计,其他拓扑(如 Dragonfly、Torus、rail-only)需要适配
- 静态调度:一旦分配完成不再调整,如果训练过程中节点故障或负载变化则不会重新优化
- 多租户干扰未建模:虽然附录提到了共享集群中的 inter-job 干扰,但调度算法本身未显式建模网络拥塞
- MIP 求解器的扩展性上限:对于未来 10 万+ GPU 的超大规模集群,MIP 求解时间可能成为瓶颈
- 改进方向:(1) 动态重调度——训练中根据实际通信负载重新优化放置;(2) 与弹性训练结合——节点增减时自动重新对齐;(3) 整合网络拥塞和多租户干扰到目标函数中
相关工作与启发¶
- vs MegaScale:MegaScale 采用全栈优化(通信、计算、容错),Arnold 聚焦调度层面且与 MegaScale 正交——在 MegaScale 基础上仍提升 10.6%
- vs 传统 GPU 调度器:Gandiva/MLaaS 等用 bin-packing 优化 GPU 局部性,但不感知 LLM 通信矩阵结构
- vs Topo-aware:现有拓扑感知调度使用图分割,但仅考虑 data-parallel 通信,忽略 DP-PP 的权衡
- 启发:随着 LLM 模型规模继续增长,通信优化将成为训练效率的主要杠杆;调度层面的"零成本"优化尤其有吸引力
评分¶
- 新颖性: ⭐⭐⭐⭐ 首次系统性地将 LLM 混合并行通信模式与网络拓扑对齐,MIP 建模清晰
- 实验充分度: ⭐⭐⭐⭐⭐ 模拟+208 GPU+9600+ GPU 三级验证,通信微基准+端到端+breakdown 分析
- 写作质量: ⭐⭐⭐⭐ 问题定义清晰,图表丰富,产业经验与学术分析结合好
- 价值: ⭐⭐⭐⭐⭐ 10.6% 的生产级提升在千卡规模上意味着巨额算力节省,且方案可叠加其他优化