Efficient Pre-Training of LLMs via Topology-Aware Communication Alignment on More Than 9600 GPUs¶

会议: NeurIPS 2025
arXiv: 2509.15940
代码: 待确认
领域: LLM预训练
关键词: distributed training, GPU scheduling, network topology, communication alignment, hybrid parallelism, MIP

一句话总结¶

提出 Arnold 调度系统，通过将 LLM 训练的通信模式（DP/PP group）与数据中心物理网络拓扑对齐，在模拟中将通信组最大跨度减少 1.67x，在 9600+ GPU 生产级训练中端到端性能提升 10.6%。

研究背景与动机¶

领域现状：LLM 预训练需要数千 GPU 协同，网络通信在训练时间中占 30%-50%。现代数据中心采用多层 fat-tree 拓扑（leaf→spine→core），不同层级间的带宽递减。

现有痛点：(a) 现有 GPU 调度器（如 bin-packing）只优化 GPU 局部性（将 GPU 尽量打包到一起），但不了解 LLM 训练的通信结构——导致 DP/PP 通信组跨越多个 spine switch，带宽下降；(b) DP 和 PP 是正交并行策略，同一 GPU 同时参与两者，无法同时完美对齐两种通信模式，需要权衡。

核心矛盾：LLM 训练的通信模式是稀疏但高吞吐的——99% 的 GPU 对没有直接流量，数据交换只在特定通信组内进行。但调度器不知道这种稀疏结构，将 GPU 随机/贪心分配导致通信组跨多个 pod，带宽大幅退化（collective op 降 17%，P2P 降 70%）。

本文目标：设计一个拓扑感知的 LPJ（LLM Pre-training Job）调度算法，将通信组映射到物理拓扑上以最小化跨 pod 通信。

切入角度：深入刻画不同通信操作在跨 pod 时的性能退化规律，将调度问题建模为带权最大跨度最小化的 MIP（混合整数规划）问题。

核心 idea：将 LLM 混合并行的通信矩阵与数据中心拓扑结构做对齐优化，用 MIP 求解最小化通信组的物理跨度。

方法详解¶

整体框架¶

Arnold 接收 LPJ 的 GPU 数量和并行度配置（DP/TP/PP），构建通信矩阵，然后通过 MIP 求解器找到最优的 GPU-to-minipod 分配方案。同时配有资源管理策略，预留节点给即将到来的 LPJ。

关键设计¶

通信矩阵建模：
- 功能：将 LPJ 的通信模式抽象为二维矩阵
- 核心思路：行代表 DP 组，列代表 PP 组。每个矩阵节点 \(v_{ij}\) 附带向量 \([v_w, v_d, v_p]\) 表示权重大小、DP 和 PP 通信量。通信组大小由 \(DP = \#GPUs / TP / PP\) 计算
- 设计动机：将复杂的混合并行通信结构简化为可优化的矩阵表示
MIP 调度算法：
- 功能：最小化通信组跨 minipod 的最大物理跨度
- 核心思路：目标函数 \(\text{MIN}[\alpha \cdot \text{max DP spread} + \beta \cdot \text{max PP spread}]\)，其中 \(\alpha + \beta = 1\) 控制 DP/PP 的权衡。利用通信组同质同步的特性，将其简化为 bin-packing 变体的 MIP，用标准求解器（SCIP）高效求解
- 设计动机：传统 bin-packing 忽略通信结构；本文将通信组作为调度单元，同时优化跨 pod 跨度
通信特性刻画 + 自动权衡：
- 功能：确定 \(\alpha, \beta\) 的最优值
- 核心思路：预先对不同模型/GPU 类型做通信性能 profiling，存入数据库。调度时根据计算-通信比 \(r_1\) 和 DP-PP 通信量比 \(r_2\) 匹配最相似的历史 job，导出 \(\alpha, \beta\)
- 设计动机：不同模型的通信瓶颈不同（dense model PP 主导，MoE model 两者都重要），需要动态调整权衡

资源管理策略¶

采用预留机制：LPJ 规划后，预留节点；新到 job 优先调度到预留区外；若新 job 预测完成时间早于 LPJ 到达时间，允许临时使用预留区，提高利用率。用 ML 预测器估计 JCT（Job Completion Time）。

实验关键数据¶

模拟实验：通信组跨度¶

算法	跨度减少倍数
Best-fit	baseline
GPU-packing	≈baseline
Topo-aware	略优
Arnold	最高 1.67x

生产集群实验¶

规模	对比系统	提升
208 GPUs	vs MegaScale	+5.7% 吞吐
9600+ GPUs	vs MegaScale	+10.6% 吞吐

通信性能退化（跨 minipod）¶

通信类型	退化幅度
Collective (AllGather/ReduceScatter)	最高 17%
P2P (Send-Recv)	最高 70%

关键发现¶

PP-aligned 放置一致优于 DP-aligned 和无对齐方案，因为 PP 通信（P2P）对跨 pod 延迟更敏感
模型越大，通信占比越高，Arnold 的改善越显著
跨 minipod 放置对 intra-minipod 拓扑不敏感（性能差异 <0.3%），验证了聚焦 inter-minipod 优化的假设

亮点与洞察¶

工业级系统 + 学术抽象：在字节跳动 9600+ GPU 生产环境验证，同时将问题严格建模为可解的 MIP，兼具实用性和理论优雅性
通信特性的深入刻画：明确给出了不同通信操作在跨 pod 时的退化曲线，为调度优化提供了定量依据
发现意外的连锁效应：拓扑对齐不仅提升通信效率，还通过 GPU stream 资源竞争间接影响计算 kernel 性能

局限与展望¶

依赖预先 profiling：需要对每种模型/GPU 类型做通信特性刻画并存入数据库，新模型需要额外测试，增加了上线周期
三层拓扑假设：算法针对 leaf-spine-core 三层拓扑设计，其他拓扑（如 Dragonfly、Torus、rail-only）需要适配
静态调度：一旦分配完成不再调整，如果训练过程中节点故障或负载变化则不会重新优化
多租户干扰未建模：虽然附录提到了共享集群中的 inter-job 干扰，但调度算法本身未显式建模网络拥塞
MIP 求解器的扩展性上限：对于未来 10 万+ GPU 的超大规模集群，MIP 求解时间可能成为瓶颈
改进方向：(1) 动态重调度——训练中根据实际通信负载重新优化放置；(2) 与弹性训练结合——节点增减时自动重新对齐；(3) 整合网络拥塞和多租户干扰到目标函数中

评分¶

新颖性: ⭐⭐⭐⭐ 首次系统性地将 LLM 混合并行通信模式与网络拓扑对齐，MIP 建模清晰
实验充分度: ⭐⭐⭐⭐⭐ 模拟+208 GPU+9600+ GPU 三级验证，通信微基准+端到端+breakdown 分析
写作质量: ⭐⭐⭐⭐ 问题定义清晰，图表丰富，产业经验与学术分析结合好
价值: ⭐⭐⭐⭐⭐ 10.6% 的生产级提升在千卡规模上意味着巨额算力节省，且方案可叠加其他优化