Towards Greater Leverage: Scaling Laws for Efficient Mixture-of-Experts Language Models¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=7r2lkhDGUj
领域: LLM效率
关键词: MoE, 标度律, 效率杠杆, 激活率, 专家粒度

一句话总结¶

本文提出"效率杠杆"（Efficiency Leverage, EL）这一指标来量化 MoE 相对稠密模型省了多少算力，通过训练 300+ 个最大 28B 的 MoE 模型拟合出一条以激活率、专家粒度、算力预算为自变量的统一标度律，并据此设计出仅 0.85B 激活参数的 MoE-mini，用 7 倍更少算力追平 6.1B 稠密模型。

研究背景与动机¶

领域现状：MoE 已经成为高效扩展 LLM 的主流架构，它通过稀疏激活把"总参数量"和"计算开销（FLOPs）"解耦——比如 DeepSeekMoE 总参数 16B、每 token 只激活 2.8B，却能匹敌 7B 稠密模型，参数效率约 2.5 倍。

现有痛点：这种解耦带来一个棘手问题——给定一套 MoE 配置（激活率、专家粒度等），预训练前根本没法预测它的"有效容量"。总参数量和激活参数量单拎出来都不是可靠的性能代理：你既不知道这套配置能打过多大的稠密模型，也无法在烧钱训练前设定合理预期。

核心矛盾：标度律本是预测语言模型性能的利器，但它在 MoE 上的应用是碎片化的。已有工作大多孤立地研究单个架构因素（稀疏度或粒度），从没回答这些因素如何共同决定 MoE 相对稠密模型的真实算力优势。loss-centric 的传统标度律预测的是"loss 会是多少"，而实践者真正想知道的是"这套 MoE 比稠密模型高效多少倍"。

本文目标：建立一个能在训练前就预测任意 MoE 配置算力优势的框架，并用它指导高效模型设计。

切入角度：与其预测绝对 loss（数据集相关、难以解释），不如直接定义一个比值型指标——稠密模型要花多少倍算力才能追平这个 MoE。这个角度直接、可迁移，且天然适合架构选型。

核心 idea：定义效率杠杆 EL = 稠密模型所需算力 / MoE 所需算力，把 EL 拆解为激活率（幂律主导项）、专家粒度（对数多项式调制项）、算力预算（幂律放大项）三者的函数，拟合出一条统一标度律。

方法详解¶

整体框架¶

本文要解决的是"训练前预测 MoE 配置的算力优势"。整体走一条三阶段路线：先建立公平的训练条件（否则不同架构的对比不可信），再逐维度隔离激活率/粒度/共享率对 EL 的影响并拟合单变量标度律，最后把它们合成为一条联合标度律 Eq.4，用来预测任意配置的 EL，并以此反向设计 MoE-mini 做实证验证。

整个流程的核心是 EL 这把"尺子"：对架构 $X$，其最优 loss 随算力的曲线建模为幂律 $L_X(C) = \alpha_X C^{\beta_X} + b_X$；把 MoE 在自身预算 $C_{\text{MoE}}$ 下达到的 loss 作为目标 loss $L^\star$，反解稠密曲线求出追平所需的 $C_{\text{Dense}}$，于是

\[\text{EL}(X_{\text{MoE}} \mid X_{\text{Dense}}; C_{\text{MoE}}) = \frac{C_{\text{Dense}}}{C_{\text{MoE}}}.\]

EL=5 就意味着这套 MoE 抵得上一个用 5 倍算力训练的稠密模型。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["MoE 架构配置<br/>(A, G, S, C)"] --> B["EL 指标定义<br/>稠密/MoE 算力之比"]
    B --> C["公平比较协议<br/>最优超参 + 模型-数据分配标度律"]
    C --> D["单变量标度律<br/>A 幂律·G 对数多项式·C 幂律"]
    D --> E["EL 联合标度律 Eq.4"]
    E -->|预测 + 设计| F["MoE-mini 实证验证<br/>0.85B 激活追平 6.1B 稠密"]

关键设计¶

1. 效率杠杆 EL：把"省了多少算力"做成可比的标量

针对"无法预测 MoE 有效容量"这个痛点，本文不去预测绝对 loss，而是定义一个比值指标 EL。形式上它是稠密与 MoE 达到同一目标 loss 所需算力预算之比。为了让 EL 只依赖架构本身，作者把目标 loss 取为 MoE 在自身预算下达到的 loss $L^\star = L_{X_{\text{MoE}}}(C_{\text{MoE}})$，于是 EL 化简为 $C_{\text{Dense}}/C_{\text{MoE}}$。

这样设计的好处是双重的：其一，绝对 loss 是数据集相关、难以横向解读的，而 EL 是无量纲倍数，天然可比、可迁移；其二，当 $A=1$（即退化为稠密）时 EL=1，满足"稠密等价"边界，保证整个标度律有物理意义的锚点。EL 把"架构选型"从"拟合多条复杂 loss 曲线"简化成"直接比较倍数"。

2. 公平比较协议：先用标度律校准超参与数据分配，再谈架构对比

如果不同 MoE 架构各自用了次优的学习率/批大小/数据量，那比出来的 EL 是噪声。为此作者在正式实验前先拟合两条前置标度律。最优超参标度律：通过大规模超参搜索得到最优学习率 $\eta_{\text{opt}}$ 与批大小 $B_{\text{opt}}$ 随算力 $C$ 的关系，并发现 MoE 与稠密的关键差异——大算力下 MoE 更偏好显著更大的批大小和略低的学习率，这源于 MoE 的稀疏反向传播：一个 batch 里只有一部分 token 的梯度会更新某个专家。最优模型-数据分配标度律：固定 FLOPs 预算 $C$ 在模型规模 $M$ 与数据量 $D$（$C = M \cdot D$）之间分配，发现两者指数都接近 0.5（与 Chinchilla 一致），但同等预算下最优 MoE 比最优稠密模型更小、却吃更多数据，说明 MoE 单参数容量更高、特别适合"数据多但算力受限"的场景。每个待测架构都用这两条律设到近最优点，再训练超过最优 token 数 3 倍（模拟真实的 overtrained 状态），保证比较公平。

3. 三条单变量标度律：把激活率、粒度、算力对 EL 的影响分别拟合出来

在公平条件下，作者用 IsoFLOPs 实验逐个隔离架构维度，拟合出三条单变量律。激活率 $A$（主导项，幂律）：降低激活率（增大稀疏度）持续带来效率增益，且无明显拐点（一路测到 1/128≈0.8%）。拟合形式为 $$\log \text{EL}_{C,G}(\hat A) = a_A \log \hat A, \qquad \frac{1}{\hat A} = \frac{1}{A + (1/A_{\text{start}} - 1/A_{\text{max}})^{-1}} + \frac{1}{A_{\text{max}}},$$ 其中 $\hat A$ 是 $A$ 的饱和变换；指数 $a_A$ 随 $A$ 减小而增大（稀疏边际收益递减），也随算力 $C$ 增大而增大。专家粒度 $G$（调制项，对数多项式）：$G = 2d_{\text{model}}/d_{\text{expert}}$，loss 随 $G$ 呈 U 形，存在最优点（标准 load-balancing 下约为 8–12），拟合为 $$\log \text{EL}_{C,A}(G) = a_G + b_G\big(\log G\,(\log G + c_G)\big),$$ 其中 $a_G$ 是 $G=1$ 时的基准 EL，$b_G$ 控制曲率（架构对粒度的敏感度），$c_G$ 决定最优粒度位置；关键的是这条曲线跨算力预算高度一致，即粒度的影响独立于算力。算力预算 $C$（放大项，幂律）：固定 $A$、$G$ 时 EL 随算力增长，$\log \text{EL}_{A,G}(C) = a_C \log C + c_C$，意味着算力越大、MoE 的效率优势越被放大。至于共享专家率 $S$（U 形、最优为"一个共享专家"）与层排布等，影响是次要的、有稳健的近最优默认值，故不进入主标度律。

4. EL 联合标度律：一个公式吃下三种效应

最后把三条单变量律合成一条统一公式： $$\text{EL}(A, G, C) = \hat A^{\,\alpha + \gamma(\log G)^2 + \beta \log G}, \qquad \alpha = a + d\log C.$$ 这里指数项里 $\alpha$ 捕捉"激活率幂律 × 算力放大"——$a$ 是参考算力下的基准指数，正常数 $d$ 量化算力 $C$ 对 EL 的放大；$\beta,\gamma$ 用 $\log G$ 的二次型建模粒度的非线性调制，直接对应前面观察到的 U 形最优粒度。用 Huber loss + BFGS 拟合，并刻意只用 EL<6 的点训练、把高杠杆点留作验证集，结果 $R^2 = 0.9858$，训练集 RMSE 0.2169（200 点）、验证集 0.5275（24 点），残差近似零均值正态——说明这条律不仅拟合好，对训练范围外的高杠杆点还有很强的外推能力。据此预测：在 1e22 FLOPs 下，激活率 3.1%、粒度 12 的配置 EL 可超过 7×。

损失函数 / 训练策略¶

本文不改训练目标，沿用标准的下一 token 预测 + 标准 load-balancing 辅助损失（粒度最优区间 8–12 正是在该负载均衡设置下测得的；作者指出路由质量是关键，差的负载均衡会把最优粒度推向更粗）。计算开销统一以非嵌入 FLOPs/token 即模型规模 $M$ 衡量，$C = M \cdot D$。

实验关键数据¶

主实验：MoE-mini vs Dense-6.1B¶

按标度律预测设计 MoE-mini（总 17.5B、激活 0.85B、$G=12$、$A=3.4\%$），与 Dense-6.1B 在同一份 1T 高质量 token 上对训。MoE-mini 激活参数只有对手约 13%，训练/推理成本 7 倍更省。

模型	General/Reasoning	Professional	Language	Code	Math	总平均
Dense-6.1B	55.8	44.0	69.2	36.9	32.9	44.0
MoE-mini (A0.8B)	56.2	44.7	71.6	39.8	34.7	45.5

MoE-mini 总平均 45.5 反超 Dense-6.1B 的 44.0，在代码、数学、语言理解上优势尤为明显；最终训练 loss 也更低（末 100B token 时两者 loss 差仅约 0.01）。这实证确认了标度律预测的 >7× 效率杠杆。

消融/分析：三个架构维度对 EL 的影响¶

架构维度	对 loss/EL 的关系	关键结论
激活率 $A$	幂律，EL 随 $A$ 减小单调增	主导项，测到 0.8% 仍无拐点，大算力下增益放大
专家粒度 $G$	U 形（对数多项式）	存在最优区间 ≈8–12，跨算力一致，独立于预算
共享率 $S$	U 形	小而非零最优；大规模下"一个共享专家"最高效
算力 $C$	幂律，EL 随 $C$ 增大	算力越大 MoE 优势越被放大

关键发现¶

激活率是效率第一驱动力：越稀疏越高效且无观测到的拐点，颠覆"激活太少会塌"的直觉（至少在测试范围内）。
粒度有甜区且与算力解耦：8–12 是稳定最优，意味着可以一次定好粒度、不必随规模反复调。
效率优势随算力放大：EL 不是常数而是随预算增长，解释了为什么 MoE 在大规模预训练里越来越香。
共享专家/层排布是二阶因素：有稳健默认值（一个共享专家、早期插几层 dense 缓解路由不均），不必精调。

亮点与洞察¶

把"省多少算力"做成可拟合的标量 EL：相比 loss-centric 标度律，EL 直接给出"抵几倍稠密"的倍数，把架构选型从拟合多条曲线降维成比大小，工程上极实用。
故意留高杠杆点做验证集：用 EL<6 训练、EL≥6 验证，正面检验外推能力（这是标度律论文最容易被质疑的点），$R^2=0.9858$ 很有说服力。
先校准再比较的实验纪律：前置拟合超参与数据分配标度律，保证每个架构都在近最优点对比，避免"输在调参而非架构"的常见陷阱——这套协议本身可迁移到任何架构对比研究。
"小而强"的落地范式：0.85B 激活打平 6.1B 稠密，给数据多、算力紧的团队一条明确的设计配方（低激活率 + 粒度 12 + 一个共享专家）。

局限与展望¶

只算理论 FLOPs：忽略通信、显存、kernel 效率、并行等真实 wall-clock 开销，给出的是效率理论上界，离实际墙钟收益还有距离。
假设各架构因素独立：为可解析而逐维度研究再合成，可能漏掉因素间的交互效应。
统一超参律不分稀疏度：对所有 MoE 用同一条超参标度律，未来可做"稀疏度感知"的超参律进一步榨效率。
聚焦算力预算而非其分配：尚未建立 MoE 版的 Chinchilla（模型大小 × 数据量）效率律来指导这一权衡。
自己的观察：激活率"无拐点"结论受限于测试下界 0.8% 与负载均衡设置，更极端稀疏或更强路由下是否仍成立存疑；下游 benchmark 总平均仅差 1.5 分，"反超"幅度不大，结论更稳妥的表述是"持平偏优"。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 把 MoE 效率重构为可预测的 EL 指标并拟合统一标度律，视角新且实用。
实验充分度: ⭐⭐⭐⭐⭐ 训练 300+ 模型、680k H800-小时，留高杠杆点做外推验证，并用 MoE-mini 端到端落地。
写作质量: ⭐⭐⭐⭐ 三阶段方法论清晰，公式与图配合好；部分推导细节下放附录。
价值: ⭐⭐⭐⭐⭐ 给高效 MoE 设计提供了可直接套用的配方与预测工具，工程指导意义强。

架构维度	对 loss/EL 的关系	关键结论
激活率 \(A\)	幂律，EL 随 \(A\) 减小单调增	主导项，测到 0.8% 仍无拐点，大算力下增益放大
专家粒度 \(G\)	U 形（对数多项式）	存在最优区间 ≈8–12，跨算力一致，独立于预算
共享率 \(S\)	U 形	小而非零最优；大规模下"一个共享专家"最高效
算力 \(C\)	幂律，EL 随 \(C\) 增大	算力越大 MoE 优势越被放大