跳转至

On the Expressive Power of Mixture-of-Experts for Structured Complex Tasks

会议: NeurIPS 2025
arXiv: 2505.24205
代码: 无
领域: LLM效率 / MoE理论 / 近似理论
关键词: Mixture-of-Experts, expressive power, approximation theory, compositional sparsity, curse of dimensionality, manifold, piecewise function, gating mechanism

一句话总结

首次系统分析 MoE 在结构化复杂任务上的表达能力:证明浅层 MoE 可在低维流形上克服维度诅咒(近似速率由内在维度 \(d\) 而非环境维度 \(D\) 决定),深层 MoE 通过 \(E\) 专家 × \(L\) 层的分层组合可高效近似有 \(E^L\) 段的分段函数,远超朴素上界 \(LE\)

研究背景与动机

领域现状:MoE 已成为现代 LLM 的核心架构组件(Mixtral、Switch Transformer、DeepSeek、Phi-3),在数学推理、代码生成、语言理解等多样化复杂任务上表现出色。但 MoE 为何能高效建模复杂任务缺乏理论解释。

现有痛点: - 先前理论工作聚焦训练动态(Chen et al. 2022)、路由机制的收益(Dikkala et al. 2023)或稀疏激活等价性(Baykal et al. 2022),但未研究 MoE 对结构化复杂函数的表达能力 - 密集网络的近似理论已有大量工作(流形上函数、组合稀疏函数),但 MoE 架构的理论优势未被形式化

核心矛盾:MoE 每次只激活 \(K\) 个专家(通常 \(K=1\)),参数利用率远低于密集网络,却能达到甚至超过密集网络的性能——这种效率优势的理论根源是什么?

本文目标:MoE 在两类常见结构先验下(低维性、稀疏性)的近似能力有多强?深度和专家数各自扮演什么角色?

切入角度:从经典近似论出发,分析 MoE 网络类 \(\mathcal{H}_{l,m}^{L,E}\) 对目标函数的 \(L_\infty\) 近似误差。

核心idea:MoE 自然地将复杂近似问题分解为"多个局部化简单子问题 + 输入到专家的分配"——expert 解局部子问题,gating 做分配。

方法详解

整体框架

将 MoE 的表达能力研究分为两个层次: - 浅层 MoE(depth-2):处理低维流形上的函数,揭示 gating 和 expert 的互补角色 - 深层 MoE(depth-\(2L\)):处理具有组合稀疏性的分段函数,揭示深度和专家数的互补角色

关键设计

  1. 浅层 MoE 克服维度诅咒 (Theorem 4.8)

    • 功能:证明 depth-2 MoE(\(E\) 个专家,每个专家为 3 层宽度 \(m\) 的 ReLU 网络)在 \(d\) 维流形 \(\mathcal{M} \subset \mathbb{R}^D\) 上的函数 \(f\) 的近似误差为 \(\max_i \tilde{O}(m^{-\kappa(f|_{U_i})/d \wedge 1/2})\)
    • 核心思路:将全局近似分解为 \(E\) 个局部子问题。误差包含两项:(a) 近似低维目标函数 \(f|_{U_i} \circ \phi_i^{-1}\)\(d\) 维);(b) 近似光滑坐标映射 \(\phi_i\)(高阶光滑故误差小)。速率由内在维度 \(d\) 而非环境维度 \(D\) 决定。
    • 设计动机:密集网络近似速率为 \(O(m^{-\kappa(f)/D})\),当 \(d \ll D\) 时 MoE 有指数级优势。关键在于 MoE 结构天然匹配流形的 atlas 分解。
  2. Expert 与 Gating 的互补角色

    • 功能:揭示 MoE 两个核心组件的分工——Layer-2 expert 网络近似局部低维子函数 \(f|_{U_i} \circ \phi_i^{-1}\) 和坐标映射 \(\phi_i\);Layer-1 + Layer-2 gating 共同完成输入到正确专家的精确分配
    • 核心思路:Layer-1 行为类似密集网络,近似光滑的单位分解函数 \(\rho_i\)(划分流形为 \(E\) 个区域);Layer-2 gating 根据 \(\rho_i\) 选择对应区域的专家
    • 设计动机:标准线性 gating 缺乏建模非线性 \(\rho_i\) 的能力,所以需要额外一层来近似 \(\rho_i\)。这解释了为什么我们需要 depth-2 而非 depth-1。
  3. 深层 MoE 的指数级任务容量 (Theorem 5.2)

    • 功能:证明 depth-\(2L\) MoE(每层 \(E\) 个专家)可以近似包含 \(E^L\) 段的分段函数(在乘积流形 \(\mathcal{M}_1 \times \cdots \times \mathcal{M}_L\) 上具有组合稀疏性)
    • 核心思路:每一对 MoE 层处理一个子流形 \(\mathcal{M}_l\) 上的 \(E\) 个子函数 \(f_{l,i}\)\(L\) 对层的组合产生 \(E^L\) 种任务组合。朴素上界为 \(LE\) 个任务(每个 expert 独立处理一个任务),但组合稀疏结构允许指数级突破。
    • 设计动机:现实 LLM 处理多种复杂任务(数学、逻辑、语言、代码),每个任务对应一个分段函数区域。任务之间通常有共享的子结构(组合稀疏性),使得参数可以被跨任务复用。
  4. 组合稀疏性:数学形式化

    • 功能:定义目标函数 \(f(\mathbf{x}) = f_{\text{out}}(f_{1,i_1}(\mathbf{x}_1), \ldots, f_{L,i_L}(\mathbf{x}_L))\),其中每个子函数 \(f_{l,i}\) 仅依赖输入的一个子空间 \(\mathbf{x}_l \in \mathcal{M}_l\)
    • 核心思路:虽然只有 \(LE\) 个子函数,它们的组合产生 \(E^L\) 种不同的函数(如 Example 5.1 中 3 种数学 × 3 种语言 = 9 种任务)
    • 设计动机:类比现实任务的模块化组合特性——"用法语做几何题" = "法语理解" ∘ "几何求解"

损失函数 / 训练策略

本文为纯近似理论工作,构造性证明直接给出满足误差界的 MoE 网络,不涉及训练过程。

实验关键数据

主实验 — 浅层 MoE vs 维度诅咒 (Experiment I)

输入维度 \(D\) 16 32 64 128
1-4-MoE 测试误差 3.40e-4 3.38e-4 3.17e-4 3.42e-4

目标函数定义在 \(\mathbb{R}^D\) 中的 1 维流形(单位圆)上,\(f(\mathbf{x}) = \sin(5x_1) + \cos(3x_2)\)。MoE 误差不随 \(D\) 增大而增加,验证了克服维度诅咒的理论。

消融实验 — 深层 MoE vs 浅层 MoE (Experiment II)

专家宽度 \(m\) 16 32 64 128
2-3-MoE (2层, 3专家/层) 8.32e-5 1.41e-5 4.73e-6 2.59e-6
1-6-MoE (1层, 6专家/层) 7.96e-5 2.17e-5 2.65e-5 4.60e-5

目标为 \(3^2=9\) 段分段函数。2-3-MoE 误差随宽度持续下降;1-6-MoE 在 \(m \geq 32\) 后平台化,验证了深度对组合结构的关键作用。

关键发现

  1. 维度不影响 MoE 精度:当目标函数支撑在低维流形上时,无论环境维度 \(D\) 多大,MoE 的近似精度不变。这是 MoE 相对密集网络的核心理论优势。
  2. 深度不可替代:参数量相当的浅层 MoE (1-6-MoE) 无法匹配深层 MoE (2-3-MoE) 在分段函数上的精度。深度是实现分层组合的必要条件。
  3. \(E^L\) vs \(LE\) 的差距:2 层 × 3 专家 = 6 个专家却能处理 9 种任务,正是因为组合稀疏结构。

亮点与洞察

  • Expert 和 Gating 的理论分工首次被形式化:Expert 负责局部函数近似(实质工作),Gating 负责输入分配(调度工作)。这两者缺一不可,分工不可互换。这为理解 MoE 中 router 的作用提供了坚实的理论基础。
  • 深度 vs 专家数的角色不同且互补:深度控制层次组合(composition),专家数控制子任务并行化(specialization)。不能简单地用更多专家替代更深网络,反之亦然。
  • 对 MoE 架构设计的具体建议
    • 非线性 gating 可以减少所需深度(消除用于近似 \(\rho_i\) 的额外层),与最近的实验发现一致
    • MoE-Dense 交替架构(GShard、GLAM)在表达能力上等价于连续 MoE 层
    • 共享 + 路由专家设计(Qwen2、DeepSeek)有理论支持
    • 低维专家网络(Encoder + 低维 FFN)可以显著减少参数
  • \(E^L\) 指数级容量的实际含义:一个 32 层 × 8 专家的 MoE(实际规模)理论上可以处理 \(8^{32} \approx 10^{28}\) 种组合任务——虽然这是上界,但说明了为什么 MoE 能用少量参数覆盖海量任务。

局限与展望

  1. 组合稀疏假设的现实性:理论要求目标函数具有乘积流形上的组合稀疏结构,实际 LLM 任务是否严格满足此假设尚不清楚。
  2. 仅近似理论,未涉及训练:构造性证明假设权重可以精确设定,不考虑 SGD/Adam 是否能找到这样的解。Router 的训练动态(load balancing、non-differentiable TopK)使得可学习性分析更加复杂。
  3. ReLU 激活假设:所有理论结果基于 ReLU 激活函数,对 GELU、SwiGLU 等现代激活函数的推广有待探索。
  4. \(K=1\) 的简化:只分析 top-1 路由,实际系统常用 top-2。扩展到 \(K > 1\) 理论上直接但可能影响近似速率的具体形式。
  5. 验证实验规模有限:Experiment I/II 使用非常小的 MoE(4-6 个专家,宽度 10-128),与实际 LLM 中的 MoE 规模差距巨大。

相关工作与启发

  • Shaham et al. (2018); Chen et al. (2019):证明密集网络也可在低维流形上高效近似,但需要更强的流形正则性假设,且会激活所有参数(MoE 只激活 1 个专家,参数效率高 \(E\) 倍)
  • Mhaskar & Poggio (2016); Poggio (2023):分析密集神经网络在组合稀疏结构下的近似能力,本文将其推广到 MoE
  • Baykal et al. (2022):稀疏激活网络可匹配密集网络的近似性能,本文进一步量化了 MoE 结构带来的额外优势
  • Chen et al. (2022):分析 softmax gating MoE 的训练动态,本文从表达能力(而非训练动态)角度补充
  • 启发:理论建议的 Encoder + 低维 FFN 专家架构值得在实际 MoE 中验证;非线性 gating 的理论必要性可以指导下一代 MoE 设计

评分

  • 新颖性: ⭐⭐⭐⭐⭐ — 首次从近似论角度系统分析 MoE 表达能力,浅层和深层的理论结果均有重要贡献。\(E^L\) 指数级容量结果特别有启发性。
  • 实验充分度: ⭐⭐⭐ — 纯理论工作,验证实验规模小但方向正确。增加实际规模的 MoE 实验会显著增强说服力。
  • 写作质量: ⭐⭐⭐⭐ — 数学推导严谨但表达清晰,Example 5.1 的多语言+数学任务例子直观易懂
  • 价值: ⭐⭐⭐⭐⭐ — 为 MoE 架构设计提供了坚实理论基础,多项建议(非线性 gating、低维专家、交替架构)已有实践验证