Mozart: Modularized and Efficient MoE Training on 3.5D Wafer-Scale Chiplet Architectures¶

会议: NeurIPS 2025
arXiv: 2603.07006
代码: 无
领域: LLM效率 / 硬件协同设计
关键词: MoE, chiplet architecture, expert parallelism, wafer-scale, algorithm-hardware co-design

一句话总结¶

提出 Mozart 算法-硬件协同设计框架，通过专家聚类分配、细粒度流式调度和 3.5D 晶粒架构（NoP-Tree + 分层存储），在三个 MoE-LLM 上实现 1.9× 以上的训练加速。

研究背景与动机¶

领域现状：MoE 架构以稀疏激活实现高效扩展（如 Mixtral-8x7B、DeepSeek-MoE），但其稀疏性给硬件部署带来内存局部性差、通信开销大、计算资源利用不均等挑战。

现有痛点：(1) 现有芯片方案多为子晶圆级设计，不支持晶圆级集成；(2) 采用粗粒度静态工作负载划分，假设密集均匀计算，对 MoE 的动态稀疏不友好；(3) Expert parallelism 中 all-to-all 通信是关键瓶颈。

核心矛盾：MoE 的逻辑模块化与硬件的物理模块化之间缺乏对齐——频繁共激活的专家可能被分配到远距离的计算单元上。

本文目标 设计匹配 MoE 模块化特性的晶粒架构和调度算法，减少通信开销并提高资源利用率。

切入角度：类比人脑的模块化组织——专门模块处理不同任务、相邻区域低延迟协调。利用专家激活的先验分析（激活频率 + 共激活模式）来指导专家-晶粒映射。

核心 idea：基于专家共激活先验，将频繁共激活的专家聚类到同一晶粒组，配合 3.5D NoP-Tree 拓扑和流式调度实现高效 MoE 训练。

方法详解¶

整体框架¶

两层优化：(1) 算法层——先分析路由策略获取专家激活先验，再进行专家聚类+分配+细粒度调度；(2) 架构层——3.5D 晶粒系统（3D logic-on-memory 堆叠 + 2D NoP-Tree 互连 + 两级存储）。

关键设计¶

专家聚类与分配（Expert Clustering & Allocation）:
- 功能：两阶段方法——先将频繁共激活的专家聚类（基于共激活矩阵 \(\mathcal{C}\)），再将聚类分配到晶粒组以均衡负载
- 核心思路：聚类用 farthest point sampling 最大化组间距离；分配用二进制整数规划最小化组间负载不均
- 设计动机：共激活专家在同一晶粒上，只需发送一份 token 副本（而非 k 份），直接减少 all-to-all 通信量 \(\mathcal{C}_\mathcal{T}\)
细粒度流式调度（Fine-grained Streaming）:
- 功能：通过 token 和 expert 的流式处理实现通信-计算重叠
- 核心思路：将 expert 权重的 DRAM→SRAM 加载与 token 计算交错执行，避免一次性加载所有 expert 权重
- 设计动机：MoE 每次只激活 k 个 expert，大量 expert 权重闲置，流式加载减少峰值内存需求
3.5D 晶粒架构:
- 功能：设计 attention 晶粒（central dispatchers）+ expert 晶粒（leaves）的 NoP-Tree 拓扑
- 核心思路：3D 集成（compute die + SRAM die via hybrid bonding）提供低延迟本地激活缓存；2D NoP-Tree 实现网络内 MoE aggregation（switch 节点做消息聚合）
- 设计动机：attention 和 MoE 的访存模式截然不同——attention 计算密集，MoE 通信密集，异构晶粒设计匹配这一差异

实验关键数据¶

对比 baseline¶

MoE 模型	加速比
Mixtral-8x7B	>1.9×
DeepSeek-MoE	>1.9×
第三个模型	>1.9×

关键发现¶

Expert 参数占 MoE-LLM 总参数的 90%+，但激活模式高度不均匀
共激活聚类可将 all-to-all 通信量降低 30-40%
流式调度实现了 80%+ 的通信-计算重叠

亮点与洞察¶

人脑类比的设计理念：将神经科学的模块化理论映射到硬件设计，逻辑模块化（MoE experts）与物理模块化（chiplets）的对齐思路新颖
先验驱动的优化：利用预训练模型在指令调优数据上的路由统计来指导后训练部署，这种"先分析再优化"的策略实用性强

局限与展望¶

仅关注 post-training：预训练阶段的路由模式可能不稳定，先验可能不适用
硬件方案为仿真验证：未在真实晶粒上测试
二进制整数规划的可扩展性：更多专家（如 DeepSeek-V3 的 256 experts）时求解可能变慢

评分¶

新颖性: ⭐⭐⭐⭐ 算法-硬件协同设计 + MoE 感知的晶粒优化
实验充分度: ⭐⭐⭐ 三个模型但仅仿真验证
写作质量: ⭐⭐⭐⭐ 图示清晰，设计动机说明充分
价值: ⭐⭐⭐⭐ 对 MoE 硬件部署有重要指导意义