跳转至

ASAP: An Agentic Solution to Auto-Optimize Performance of Large-Scale LLM Training

会议: NeurIPS 2025
arXiv: 2511.03844
代码: 未公开(Google 内部 ADK)
领域: 推荐系统
关键词: 多Agent系统, 分布式训练优化, sharding配置, 瓶颈分析, Roofline模型

一句话总结

ASAP 是一个多 Agent 系统(Coordinator + Analyzer + Proposal),自动化诊断大规模 LLM 分布式训练的瓶颈类型(计算/内存/通信)并提出 sharding 配置方案,在 3 个实验场景中均匹配人类专家方案,实现最高 2.58× 吞吐量提升。

研究背景与动机

领域现状:大规模 LLM 训练需要在数百/千个 TPU/GPU 上做并行化(数据并行/模型并行/序列并行/流水线并行等),sharding 配置对性能影响巨大(差配置可导致 50%+ 吞吐量损失)。

现有痛点:(a) 手动试错需要深厚的分布式系统专家知识;(b) 黑盒优化(如贝叶斯优化)在巨大配置空间中收敛慢,且不提供可解释的理由;(c) 不同瓶颈类型(计算密集/内存密集/通信密集)需要不同的优化策略,通用方法效率低。

核心矛盾:诊断需要理解性能分析报告(Xprof profiles),决策需要了解并行化原理和硬件拓扑——这些都是人类专家才有的知识。

本文目标:用 LLM Agent 替代人类专家做性能诊断→方案提出→配置调优的全流程。

切入角度:将 LLM 推理能力与专门工具(Xprof 性能分析、Roofline 分析)和知识库(历史优化记录、JAX 并行化文档)结合为多 Agent 系统。

核心 idea:Coordinator 编排 → Analyzer 诊断瓶颈类型 → Proposal(RAG+知识库)提出多方案 = LLM Agent 做分布式训练专家。

方法详解

整体框架

三个 Agent 协作:Coordinator(接受实验 ID,编排工作流)→ Analyzer(调用 Xprof 分析 KPI + 操作级性能 + Roofline,诊断计算/内存/通信瓶颈)→ Proposal(用 RAG 检索历史配置+知识库文档,生成 3 个候选方案+理由+预期影响)。

关键设计

  1. Analyzer Agent(性能诊断):

    • 读取 KPI:加速器忙碌率、训练步时间、goodput
    • 操作级分析:Top-5 耗时操作的 FLOPs 利用率、HBM 带宽利用率
    • Roofline 分析:判断每个操作是计算密集、HBM 密集还是通信密集
    • 关联 KPI 异常与操作级瓶颈→生成诊断报告
  2. Proposal Agent(RAG 方案生成):

    • 历史数据库:过去的配置、Xprof profile、影响摘要
    • 知识库:JAX 并行化文档
    • 生成 3 个候选 sharding 配置 + 理由 + 预期 trade-off
    • 置信度评分(85-90%)
  3. Sharding 配置空间:

    • ici_mesh:{model, data, replica, sequence} 四个并行维度
    • 硬件:TPU v5p-512(8×8×8)、TPU v6e-16(4×4)、TPU v5e-256(16×16)

损失函数 / 训练策略

无训练——纯 LLM 推理+工具调用。

实验关键数据

主实验(3 个场景)

场景 硬件 瓶颈类型 Agent 方案 效果 匹配专家?
1 TPU v5p-512 计算密集 model=8,data=16,seq=4 -28% 步时间 ✓ 完全匹配
2 TPU v6e-16 HBM 密集 data=4,model=4 1.43× 吞吐量 ✓ 完全匹配
3 TPU v5e-256 通信密集 data=8,model=2,seq=16 2.58× 吞吐量 ✓ 完全匹配

消融实验

配置 关键发现 说明
场景1在历史库中 Agent 检索并改进 检索增强
场景2/3不在历史库 Agent 仍正确诊断+提案 原则推理&泛化
Roofline 分析贡献 区分计算/内存/通信 诊断精度关键
3 方案 vs 1 方案 最优常在第1方案 多样性提供备选
Agent 置信度 85-90% 正确反映不确定性

关键发现

  • 3/3 场景完全匹配人类专家方案——说明 LLM 推理+工具可以替代分布式系统专家
  • 场景 2/3 不在历史库中——Agent 不是记忆而是推理,能泛化到新场景
  • 2.58× 吞吐量提升是最大收益——来自正确识别通信瓶颈并减少模型并行度

亮点与洞察

  • LLM 推理 + 专门工具 = 领域专家:ASAP 证明了 LLM 不是简单地检索历史配置,而是理解并行化原理后做推理——能处理训练库中没有的新情况。
  • 可解释的决策:每个方案都附带详细的理由和性能引用,比黑盒优化更有工程价值。
  • 三种瓶颈类型的全覆盖:不同场景需要截然不同的策略(计算密集→增大并行度 vs 通信密集→减少并行度),Agent 正确区分了三者。

局限与展望

  • 仅支持全局 sharding(不支持逐层 sharding)
  • 无闭环反馈——提出方案但不自动验证和迭代
  • 缺少编译器级优化(算子融合、内存布局选择)
  • 依赖准确的 Xprof 数据,噪声数据的鲁棒性未测试
  • 计算与通信的整体 trade-off 优化不够

相关工作与启发

  • vs Alpa (Zheng et al., 2022):Alpa 用整数线性规划搜索最优并行策略;ASAP 用 LLM 推理+知识库,更灵活且可解释
  • vs FlexFlow:自动并行化框架但搜索空间小;ASAP 处理更大配置空间
  • vs SOLAR (Google, 2024):系统推荐框架但不做瓶颈诊断;ASAP 诊断→推荐全链路

评分

  • 新颖性: ⭐⭐⭐⭐ 多 Agent + 性能分析工具的组合是合理且有效的
  • 实验充分度: ⭐⭐⭐ 仅 3 个场景,虽然都匹配专家但统计量少
  • 写作质量: ⭐⭐⭐⭐ 诊断过程描述详细,推理链路清晰
  • 价值: ⭐⭐⭐⭐ 对大规模 LLM 训练的自动化调优有实际工程价值\n
  • 对MLOps的启示: ASAP的多Agent诊断-提案模式可推广到超参搜索、数据管道优化等
  • 与MLSys社区的交叉: 将LLM Agent引入系统优化是有前景的新方向
  • 商业价值: 大规模训练集群的配置优化直接关系到数百万美元级的计算成本
  • 跨硬件泛化: 3种TPU拓扑上全部成功,说明推理能力不限于特定硬件
  • 对开源社区: 诊断方法论(Roofline+操作级分析)可迁移到PyTorch/DeepSpeed
  • 与auto-tuning的对比: 传统auto-tuning不理解为什么,ASAP给出可解释的决策链路
  • 可扩展架构: 三Agent模式可增加Evaluator Agent实现闭环迭代优化
  • Agent置信度的价值: 85-90%的置信度评估帮助用户决定是否需要额外验证
  • 知识库的可维护性: RAG方案使知识库更新只需添加新记录,无需重训Agent
  • 对MLOps的启示: ASAP的多Agent诊断-提案模式可推广到超参搜索、数据管道优化等
  • 与MLSys社区的交叉: 将LLM Agent引入系统优化是有前景的新方向
  • 商业价值: 大规模训练集群的配置优化直接关系到数百万美元级的计算成本
  • 跨硬件泛化: 3种TPU拓扑上全部成功,说明推理能力不限于特定硬件
  • 对开源社区: 诊断方法论(Roofline+操作级分析)可迁移到PyTorch/DeepSpeed
  • 与auto-tuning的对比: 传统auto-tuning不理解为什么,ASAP给出可解释的决策链路
  • 可扩展架构: 三Agent模式可增加Evaluator Agent实现闭环迭代优化
  • Agent置信度的价值: 85-90%的置信度评估帮助用户决定是否需要额外验证
  • 知识库的可维护性: RAG方案使知识库更新只需添加新记录,无需重训Agent
  • 对MLOps的启示: ASAP的多Agent诊断-提案模式可推广到超参搜索、数据管道优化等
  • 与MLSys社区的交叉: 将LLM Agent引入系统优化是有前景的新方向
  • 商业价值: 大规模训练集群的配置优化直接关系到数百万美元级的计算成本
  • 跨硬件泛化: 3种TPU拓扑上全部成功,说明推理能力不限于特定硬件
  • 对开源社区: 诊断方法论(Roofline+操作级分析)可迁移到PyTorch/DeepSpeed
  • 与auto-tuning的对比: 传统auto-tuning不理解为什么,ASAP给出可解释的决策链路
  • 可扩展架构: 三Agent模式可增加Evaluator Agent实现闭环迭代优化
  • Agent置信度的价值: 85-90%的置信度评估帮助用户决定是否需要额外验证
  • 知识库的可维护性: RAG方案使知识库更新只需添加新记录,无需重训Agent