跳转至

Efficient Pre-Training of LLMs via Topology-Aware Communication Alignment on More Than 9600 GPUs

会议: NeurIPS 2025
arXiv: 2509.15940
代码: 待确认
领域: LLM预训练
关键词: distributed training, GPU scheduling, network topology, communication alignment, hybrid parallelism, MIP

一句话总结

提出 Arnold 调度系统,通过将 LLM 训练的通信模式(DP/PP group)与数据中心物理网络拓扑对齐,在模拟中将通信组最大跨度减少 1.67x,在 9600+ GPU 生产级训练中端到端性能提升 10.6%。

研究背景与动机

领域现状:LLM 预训练需要数千 GPU 协同,网络通信在训练时间中占 30%-50%。现代数据中心采用多层 fat-tree 拓扑(leaf→spine→core),不同层级间的带宽递减。

现有痛点:(a) 现有 GPU 调度器(如 bin-packing)只优化 GPU 局部性(将 GPU 尽量打包到一起),但不了解 LLM 训练的通信结构——导致 DP/PP 通信组跨越多个 spine switch,带宽下降;(b) DP 和 PP 是正交并行策略,同一 GPU 同时参与两者,无法同时完美对齐两种通信模式,需要权衡。

核心矛盾:LLM 训练的通信模式是稀疏但高吞吐的——99% 的 GPU 对没有直接流量,数据交换只在特定通信组内进行。但调度器不知道这种稀疏结构,将 GPU 随机/贪心分配导致通信组跨多个 pod,带宽大幅退化(collective op 降 17%,P2P 降 70%)。

本文目标:设计一个拓扑感知的 LPJ(LLM Pre-training Job)调度算法,将通信组映射到物理拓扑上以最小化跨 pod 通信。

切入角度:深入刻画不同通信操作在跨 pod 时的性能退化规律,将调度问题建模为带权最大跨度最小化的 MIP(混合整数规划)问题。

核心 idea:将 LLM 混合并行的通信矩阵与数据中心拓扑结构做对齐优化,用 MIP 求解最小化通信组的物理跨度。

方法详解

整体框架

Arnold 接收 LPJ 的 GPU 数量和并行度配置(DP/TP/PP),构建通信矩阵,然后通过 MIP 求解器找到最优的 GPU-to-minipod 分配方案。同时配有资源管理策略,预留节点给即将到来的 LPJ。

关键设计

  1. 通信矩阵建模

    • 功能:将 LPJ 的通信模式抽象为二维矩阵
    • 核心思路:行代表 DP 组,列代表 PP 组。每个矩阵节点 \(v_{ij}\) 附带向量 \([v_w, v_d, v_p]\) 表示权重大小、DP 和 PP 通信量。通信组大小由 \(DP = \#GPUs / TP / PP\) 计算
    • 设计动机:将复杂的混合并行通信结构简化为可优化的矩阵表示
  2. MIP 调度算法

    • 功能:最小化通信组跨 minipod 的最大物理跨度
    • 核心思路:目标函数 \(\text{MIN}[\alpha \cdot \text{max DP spread} + \beta \cdot \text{max PP spread}]\),其中 \(\alpha + \beta = 1\) 控制 DP/PP 的权衡。利用通信组同质同步的特性,将其简化为 bin-packing 变体的 MIP,用标准求解器(SCIP)高效求解
    • 设计动机:传统 bin-packing 忽略通信结构;本文将通信组作为调度单元,同时优化跨 pod 跨度
  3. 通信特性刻画 + 自动权衡

    • 功能:确定 \(\alpha, \beta\) 的最优值
    • 核心思路:预先对不同模型/GPU 类型做通信性能 profiling,存入数据库。调度时根据计算-通信比 \(r_1\) 和 DP-PP 通信量比 \(r_2\) 匹配最相似的历史 job,导出 \(\alpha, \beta\)
    • 设计动机:不同模型的通信瓶颈不同(dense model PP 主导,MoE model 两者都重要),需要动态调整权衡

资源管理策略

采用预留机制:LPJ 规划后,预留节点;新到 job 优先调度到预留区外;若新 job 预测完成时间早于 LPJ 到达时间,允许临时使用预留区,提高利用率。用 ML 预测器估计 JCT(Job Completion Time)。

实验关键数据

模拟实验:通信组跨度

算法 跨度减少倍数
Best-fit baseline
GPU-packing ≈baseline
Topo-aware 略优
Arnold 最高 1.67x

生产集群实验

规模 对比系统 提升
208 GPUs vs MegaScale +5.7% 吞吐
9600+ GPUs vs MegaScale +10.6% 吞吐

通信性能退化(跨 minipod)

通信类型 退化幅度
Collective (AllGather/ReduceScatter) 最高 17%
P2P (Send-Recv) 最高 70%

关键发现

  • PP-aligned 放置一致优于 DP-aligned 和无对齐方案,因为 PP 通信(P2P)对跨 pod 延迟更敏感
  • 模型越大,通信占比越高,Arnold 的改善越显著
  • 跨 minipod 放置对 intra-minipod 拓扑不敏感(性能差异 <0.3%),验证了聚焦 inter-minipod 优化的假设

亮点与洞察

  • 工业级系统 + 学术抽象:在字节跳动 9600+ GPU 生产环境验证,同时将问题严格建模为可解的 MIP,兼具实用性和理论优雅性
  • 通信特性的深入刻画:明确给出了不同通信操作在跨 pod 时的退化曲线,为调度优化提供了定量依据
  • 发现意外的连锁效应:拓扑对齐不仅提升通信效率,还通过 GPU stream 资源竞争间接影响计算 kernel 性能

局限与展望

  • 依赖预先 profiling:需要对每种模型/GPU 类型做通信特性刻画并存入数据库,新模型需要额外测试,增加了上线周期
  • 三层拓扑假设:算法针对 leaf-spine-core 三层拓扑设计,其他拓扑(如 Dragonfly、Torus、rail-only)需要适配
  • 静态调度:一旦分配完成不再调整,如果训练过程中节点故障或负载变化则不会重新优化
  • 多租户干扰未建模:虽然附录提到了共享集群中的 inter-job 干扰,但调度算法本身未显式建模网络拥塞
  • MIP 求解器的扩展性上限:对于未来 10 万+ GPU 的超大规模集群,MIP 求解时间可能成为瓶颈
  • 改进方向:(1) 动态重调度——训练中根据实际通信负载重新优化放置;(2) 与弹性训练结合——节点增减时自动重新对齐;(3) 整合网络拥塞和多租户干扰到目标函数中

相关工作与启发

  • vs MegaScale:MegaScale 采用全栈优化(通信、计算、容错),Arnold 聚焦调度层面且与 MegaScale 正交——在 MegaScale 基础上仍提升 10.6%
  • vs 传统 GPU 调度器:Gandiva/MLaaS 等用 bin-packing 优化 GPU 局部性,但不感知 LLM 通信矩阵结构
  • vs Topo-aware:现有拓扑感知调度使用图分割,但仅考虑 data-parallel 通信,忽略 DP-PP 的权衡
  • 启发:随着 LLM 模型规模继续增长,通信优化将成为训练效率的主要杠杆;调度层面的"零成本"优化尤其有吸引力

评分

  • 新颖性: ⭐⭐⭐⭐ 首次系统性地将 LLM 混合并行通信模式与网络拓扑对齐,MIP 建模清晰
  • 实验充分度: ⭐⭐⭐⭐⭐ 模拟+208 GPU+9600+ GPU 三级验证,通信微基准+端到端+breakdown 分析
  • 写作质量: ⭐⭐⭐⭐ 问题定义清晰,图表丰富,产业经验与学术分析结合好
  • 价值: ⭐⭐⭐⭐⭐ 10.6% 的生产级提升在千卡规模上意味着巨额算力节省,且方案可叠加其他优化