NeurIPS 2025 LLM效率 Mixture-of-Experts expressive power approximation theory compositional sparsity curse of dimensionality manifold piecewise function gating mechanism

On the Expressive Power of Mixture-of-Experts for Structured Complex Tasks¶

会议: NeurIPS 2025
arXiv: 2505.24205
代码: 无
领域: LLM效率 / MoE理论 / 近似理论
关键词: Mixture-of-Experts, expressive power, approximation theory, compositional sparsity, curse of dimensionality, manifold, piecewise function, gating mechanism

一句话总结¶

首次系统分析 MoE 在结构化复杂任务上的表达能力：证明浅层 MoE 可在低维流形上克服维度诅咒（近似速率由内在维度 \(d\) 而非环境维度 \(D\) 决定），深层 MoE 通过 \(E\) 专家 × \(L\) 层的分层组合可高效近似有 \(E^L\) 段的分段函数，远超朴素上界 \(LE\)。

研究背景与动机¶

领域现状：MoE 已成为现代 LLM 的核心架构组件（Mixtral、Switch Transformer、DeepSeek、Phi-3），在数学推理、代码生成、语言理解等多样化复杂任务上表现出色。但 MoE 为何能高效建模复杂任务缺乏理论解释。

现有痛点： - 先前理论工作聚焦训练动态（Chen et al. 2022）、路由机制的收益（Dikkala et al. 2023）或稀疏激活等价性（Baykal et al. 2022），但未研究 MoE 对结构化复杂函数的表达能力 - 密集网络的近似理论已有大量工作（流形上函数、组合稀疏函数），但 MoE 架构的理论优势未被形式化

核心矛盾：MoE 每次只激活 \(K\) 个专家（通常 \(K=1\)），参数利用率远低于密集网络，却能达到甚至超过密集网络的性能——这种效率优势的理论根源是什么？

本文目标：MoE 在两类常见结构先验下（低维性、稀疏性）的近似能力有多强？深度和专家数各自扮演什么角色？

切入角度：从经典近似论出发，分析 MoE 网络类 \(\mathcal{H}_{l,m}^{L,E}\) 对目标函数的 \(L_\infty\) 近似误差。

核心idea：MoE 自然地将复杂近似问题分解为"多个局部化简单子问题 + 输入到专家的分配"——expert 解局部子问题，gating 做分配。

方法详解¶

整体框架¶

将 MoE 的表达能力研究分为两个层次： - 浅层 MoE（depth-2）：处理低维流形上的函数，揭示 gating 和 expert 的互补角色 - 深层 MoE（depth-\(2L\)）：处理具有组合稀疏性的分段函数，揭示深度和专家数的互补角色

关键设计¶

浅层 MoE 克服维度诅咒 (Theorem 4.8)
- 功能：证明 depth-2 MoE（\(E\) 个专家，每个专家为 3 层宽度 \(m\) 的 ReLU 网络）在 \(d\) 维流形 \(\mathcal{M} \subset \mathbb{R}^D\) 上的函数 \(f\) 的近似误差为 \(\max_i \tilde{O}(m^{-\kappa(f|_{U_i})/d \wedge 1/2})\)
- 核心思路：将全局近似分解为 \(E\) 个局部子问题。误差包含两项：(a) 近似低维目标函数 \(f|_{U_i} \circ \phi_i^{-1}\)（\(d\) 维）；(b) 近似光滑坐标映射 \(\phi_i\)（高阶光滑故误差小）。速率由内在维度 \(d\) 而非环境维度 \(D\) 决定。
- 设计动机：密集网络近似速率为 \(O(m^{-\kappa(f)/D})\)，当 \(d \ll D\) 时 MoE 有指数级优势。关键在于 MoE 结构天然匹配流形的 atlas 分解。
Expert 与 Gating 的互补角色
- 功能：揭示 MoE 两个核心组件的分工——Layer-2 expert 网络近似局部低维子函数 \(f|_{U_i} \circ \phi_i^{-1}\) 和坐标映射 \(\phi_i\)；Layer-1 + Layer-2 gating 共同完成输入到正确专家的精确分配
- 核心思路：Layer-1 行为类似密集网络，近似光滑的单位分解函数 \(\rho_i\)（划分流形为 \(E\) 个区域）；Layer-2 gating 根据 \(\rho_i\) 选择对应区域的专家
- 设计动机：标准线性 gating 缺乏建模非线性 \(\rho_i\) 的能力，所以需要额外一层来近似 \(\rho_i\)。这解释了为什么我们需要 depth-2 而非 depth-1。
深层 MoE 的指数级任务容量 (Theorem 5.2)
- 功能：证明 depth-\(2L\) MoE（每层 \(E\) 个专家）可以近似包含 \(E^L\) 段的分段函数（在乘积流形 \(\mathcal{M}_1 \times \cdots \times \mathcal{M}_L\) 上具有组合稀疏性）
- 核心思路：每一对 MoE 层处理一个子流形 \(\mathcal{M}_l\) 上的 \(E\) 个子函数 \(f_{l,i}\)。\(L\) 对层的组合产生 \(E^L\) 种任务组合。朴素上界为 \(LE\) 个任务（每个 expert 独立处理一个任务），但组合稀疏结构允许指数级突破。
- 设计动机：现实 LLM 处理多种复杂任务（数学、逻辑、语言、代码），每个任务对应一个分段函数区域。任务之间通常有共享的子结构（组合稀疏性），使得参数可以被跨任务复用。
组合稀疏性：数学形式化
- 功能：定义目标函数 \(f(\mathbf{x}) = f_{\text{out}}(f_{1,i_1}(\mathbf{x}_1), \ldots, f_{L,i_L}(\mathbf{x}_L))\)，其中每个子函数 \(f_{l,i}\) 仅依赖输入的一个子空间 \(\mathbf{x}_l \in \mathcal{M}_l\)
- 核心思路：虽然只有 \(LE\) 个子函数，它们的组合产生 \(E^L\) 种不同的函数（如 Example 5.1 中 3 种数学 × 3 种语言 = 9 种任务）
- 设计动机：类比现实任务的模块化组合特性——"用法语做几何题" = "法语理解" ∘ "几何求解"

损失函数 / 训练策略¶

本文为纯近似理论工作，构造性证明直接给出满足误差界的 MoE 网络，不涉及训练过程。

实验关键数据¶

主实验 — 浅层 MoE vs 维度诅咒 (Experiment I)¶

输入维度 \(D\)	16	32	64	128
1-4-MoE 测试误差	3.40e-4	3.38e-4	3.17e-4	3.42e-4

目标函数定义在 \(\mathbb{R}^D\) 中的 1 维流形（单位圆）上，\(f(\mathbf{x}) = \sin(5x_1) + \cos(3x_2)\)。MoE 误差不随 \(D\) 增大而增加，验证了克服维度诅咒的理论。

消融实验 — 深层 MoE vs 浅层 MoE (Experiment II)¶

专家宽度 \(m\)	16	32	64	128
2-3-MoE (2层, 3专家/层)	8.32e-5	1.41e-5	4.73e-6	2.59e-6
1-6-MoE (1层, 6专家/层)	7.96e-5	2.17e-5	2.65e-5	4.60e-5

目标为 \(3^2=9\) 段分段函数。2-3-MoE 误差随宽度持续下降；1-6-MoE 在 \(m \geq 32\) 后平台化，验证了深度对组合结构的关键作用。

关键发现¶

维度不影响 MoE 精度：当目标函数支撑在低维流形上时，无论环境维度 \(D\) 多大，MoE 的近似精度不变。这是 MoE 相对密集网络的核心理论优势。
深度不可替代：参数量相当的浅层 MoE (1-6-MoE) 无法匹配深层 MoE (2-3-MoE) 在分段函数上的精度。深度是实现分层组合的必要条件。
\(E^L\) vs \(LE\) 的差距：2 层 × 3 专家 = 6 个专家却能处理 9 种任务，正是因为组合稀疏结构。

亮点与洞察¶

Expert 和 Gating 的理论分工首次被形式化：Expert 负责局部函数近似（实质工作），Gating 负责输入分配（调度工作）。这两者缺一不可，分工不可互换。这为理解 MoE 中 router 的作用提供了坚实的理论基础。
深度 vs 专家数的角色不同且互补：深度控制层次组合（composition），专家数控制子任务并行化（specialization）。不能简单地用更多专家替代更深网络，反之亦然。
对 MoE 架构设计的具体建议：
- 非线性 gating 可以减少所需深度（消除用于近似 \(\rho_i\) 的额外层），与最近的实验发现一致
- MoE-Dense 交替架构（GShard、GLAM）在表达能力上等价于连续 MoE 层
- 共享 + 路由专家设计（Qwen2、DeepSeek）有理论支持
- 低维专家网络（Encoder + 低维 FFN）可以显著减少参数
\(E^L\) 指数级容量的实际含义：一个 32 层 × 8 专家的 MoE（实际规模）理论上可以处理 \(8^{32} \approx 10^{28}\) 种组合任务——虽然这是上界，但说明了为什么 MoE 能用少量参数覆盖海量任务。

局限与展望¶

组合稀疏假设的现实性：理论要求目标函数具有乘积流形上的组合稀疏结构，实际 LLM 任务是否严格满足此假设尚不清楚。
仅近似理论，未涉及训练：构造性证明假设权重可以精确设定，不考虑 SGD/Adam 是否能找到这样的解。Router 的训练动态（load balancing、non-differentiable TopK）使得可学习性分析更加复杂。
ReLU 激活假设：所有理论结果基于 ReLU 激活函数，对 GELU、SwiGLU 等现代激活函数的推广有待探索。
\(K=1\) 的简化：只分析 top-1 路由，实际系统常用 top-2。扩展到 \(K > 1\) 理论上直接但可能影响近似速率的具体形式。
验证实验规模有限：Experiment I/II 使用非常小的 MoE（4-6 个专家，宽度 10-128），与实际 LLM 中的 MoE 规模差距巨大。

评分¶

新颖性: ⭐⭐⭐⭐⭐ — 首次从近似论角度系统分析 MoE 表达能力，浅层和深层的理论结果均有重要贡献。\(E^L\) 指数级容量结果特别有启发性。
实验充分度: ⭐⭐⭐ — 纯理论工作，验证实验规模小但方向正确。增加实际规模的 MoE 实验会显著增强说服力。
写作质量: ⭐⭐⭐⭐ — 数学推导严谨但表达清晰，Example 5.1 的多语言+数学任务例子直观易懂
价值: ⭐⭐⭐⭐⭐ — 为 MoE 架构设计提供了坚实理论基础，多项建议（非线性 gating、低维专家、交替架构）已有实践验证