Unveiling Super Experts in Mixture-of-Experts Large Language Models¶

会议: ICLR 2026
arXiv: 2507.23279
代码: GitHub
领域: 模型压缩 / MoE / LLM 分析
关键词: Mixture-of-Experts, super experts, massive activations, attention sinks, expert pruning, model compression

一句话总结¶

本文首次发现并系统研究了 MoE LLM 中的"超级专家"（Super Experts）——数量极少但对模型推理至关重要的专家子集，它们通过 down_proj 中的极端激活异常值驱动 massive activations 和 attention sinks 机制。

研究背景与动机¶

MoE LLM（如 DeepSeek、Qwen3、Mixtral）通过动态路由和稀疏激活实现了强大的学习能力。现有专家级压缩方法利用专家间的重要性差异进行剪枝、合并或量化，但多依赖启发式指标来识别关键专家，缺乏对专家异质性重要性的深层理解。

核心问题：是否存在少量极端关键的专家子集？它们的作用机制是什么？

方法详解¶

整体框架¶

本文不是提出一个新模型，而是用"先定位、再消融、后溯因"的三步分析揭开 MoE 中超级专家（SE）的面纱：先用一个轻量的剖析规则在 down_proj 输出里自动定位极少数 SE，并刻画它们少而稳的分布（对应下面的设计 1、2，§3 定位阶段）；再通过动态剪枝量化这几个专家对各任务的真实影响（设计 3，§4 消融阶段）；最后顺着残差连接把 SE 与 massive activations（MA）、attention sinks 串成一条完整的因果链（设计 4，§5 溯因阶段）。整套流程不依赖训练、只需一次前向统计即可完成，结论是给 MoE 压缩立下"SE 必须特殊保护"这条硬规矩。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    IN["任意开源 MoE LLM<br/>一次前向统计，无需训练"]
    A["SE 剖析规则<br/>down_proj 最大幅度过三联判据"]
    B["SE 分布画像<br/>占比不到 0.5%、模型特异、数据无关"]
    C["动态剪枝验真<br/>置零 SE vs 随机剪同数专家"]
    D["因果链溯源<br/>SE→MA→Attention Sinks→模型功能"]
    OUT["MoE 压缩规矩<br/>SE 须识别并特殊保护"]
    IN --> A --> B --> C --> D --> OUT

关键设计¶

1. SE 剖析规则：用一个三联判据把"针"从专家堆里挑出来

MoE LLM 的隐藏状态里藏着 massive activations（MA）——某些维度的激活值比周围大上十万倍的极端异常值。作者追溯发现，这些 MA 并非凭空出现，而是由极少数专家在 down_proj 输出端持续产生、再经残差连接逐层累积传播。为了把这些专家自动挑出来，作者统计每个专家在每一层 down_proj 的最大输出幅度 \(a_{l,e}\)，并将同时满足三个条件的 \((l,e)\) 判定为 SE：\(a_{l,e} > P_{99.5}\)（落在全体幅度分布的 99.5 分位之上）、\(a_{l,e} > \frac{1}{10}a_{\max}\)（不低于全局最大幅度的十分之一）、且 \(l\in L\)（该层确实是产生 MA 的层），其中 \(P_{99.5}=\text{Percentile}_{99.5}(\mathcal{A})\)。三个条件叠加既排除了普通的高激活专家，又保证挑出的确实是驱动 MA 的源头，整个判据只需一遍前向即可算出，配套工具可对任意 MoE 直接出 SE 清单。

2. SE 的分布画像：数量少到离谱，却高度稳定

把剖析规则套到各家 MoE 上，得到的结论相当反直觉：SE 的占比普遍不到 0.5%，多数模型只有个位数个。Qwen3-30B-A3B 的 6144 个专家里只有 3 个 SE（0.05%，Top1 最大激活 744.0），DeepSeek-R1 的 15677 个专家里 10 个（0.06%，616.0），DeepSeek-V2-Lite 是 2/1782（0.11%，1424.0），Mixtral-8x7B 则是 1/256（0.39%，5600.0）。更关键的是这份名单的稳定性——SE 的位置是模型特异的（每个模型自成一套），却是数据无关的：在 C4、WikiText-2、C-Eval、GSM8K、HumanEval 等差异极大的语料上跑出来的 SE 几乎完全一致，连 RLHF 等后训练也不改变它们的分布。这说明 SE 是模型在预训练中"长"出来的固有结构，而非被某类数据临时激活。

3. 动态剪枝验真：拔掉三个专家，数学能力直接崩盘

光是数量少还不足以证明 SE 重要，作者用动态剪枝做对照实验来量化它们的因果作用：把 SE 的输出在前向时置零，再和"随机剪掉同样数量的普通专家"对照。结果触目惊心——Qwen3-30B-A3B 剪掉那 3 个 SE 后平均分从 70.22 跌到 55.00（-21.68%），其中 GSM8K 从 89.61 暴跌到 42.38（-52.71%），MMLU 从 77.82 降到 56.03；而随机剪 3 个普通专家几乎没有影响（平均 70.36，GSM8K 甚至 89.84）。在推理型模型上更极端，剪掉 DeepSeek-R1 的 10 个 SE 会让 AIME、Math-500 的 Pass@1 直接逼近零，数学推理彻底失能。0.05% 的专家承担着远超其占比的功能，证明 MoE 的重要性分布是极度长尾的。

4. 因果链溯源：SE 是 attention sinks 的总开关

最后一步把 SE 放回 Transformer 的整体机制里追问"为什么这么重要"。作者发现 SE 恰好在 attention sink token（通常是序列起始 token）上产生极强激活，这些激活经残差连接累积成 MA，而 MA 又是 attention sinks 形成的物理基础——sink token 之所以能稳定吸走大量注意力，正是因为它们携带了 MA 这一显著特征。于是一旦压缩掉 SE，链条会逐级坍塌：MA 消失、attention sinks 崩溃、注意力分数分布随之紊乱，模型功能瓦解。这条 SE → MA → Attention Sinks → 模型功能 的因果链，解释了为何如此微小的扰动会带来如此剧烈的性能崩塌，也给 MoE 压缩立下一条硬规矩：SE 必须被识别并特殊保护。

实验¶

主实验：非推理模型¶

指标	Qwen3-30B 基线	剪 SE	下降率	随机剪	下降率
Avg.	70.22	55.00	-21.68%	70.36	-0.20%
GSM8K	89.61	42.38	-52.71%	89.84	+0.26%
MMLU	77.82	56.03	-28.00%	77.84	+0.03%

推理模型实验¶

剪去 DeepSeek-R1 的 10 个 SE： - AIME/Math-500 的 Pass@1 降至接近 0 - 数学推理能力完全崩溃

消融实验¶

按层分别剪 SE：单层 SE 剪枝即可消除该层的 MA 贡献
全部 SE 剪除：MA 完全消失

跨数据集稳定性¶

在 C4、WikiText-2、C-Eval、GSM8K、HumanEval 上的 SE 分布高度一致，验证了数据无关性。

亮点¶

首次系统发现并定义了 MoE LLM 中的超级专家
揭示了完整因果链：SE → MA → Attention Sinks → 模型功能
提供了自动化 SE 剖析工具，可快速定位 SE
对 MoE 压缩具有重要指导意义：SE 必须特殊对待

局限性¶

SE 为何在预训练中形成的根本原因尚不清楚
仅分析了开源 MoE 模型，闭源模型（如 GPT-4）的情况未知
SE 的保护策略（如分配更高比特预算）仅初步讨论
是否可以设计"无 SE"的更均衡 MoE 训练机制，未深入探讨

评分¶

新颖性：⭐⭐⭐⭐⭐ — 首次发现和系统研究 MoE 中的超级专家
理论深度：⭐⭐⭐⭐ — 因果分析深入但缺乏形式化理论解释
实验充分性：⭐⭐⭐⭐⭐ — 多模型、多任务、多数据集全面验证
实用价值：⭐⭐⭐⭐⭐ — 直接指导 MoE 压缩策略
写作质量：⭐⭐⭐⭐ — 递进式分析结构清晰