Expert Divergence Learning for MoE-based Language Models¶

会议: ICLR 2026
arXiv: 2603.00054
代码: 未公开
领域: LLM效率 / MoE
关键词: 混合专家, 专家同质化, 路由多样性, Jensen-Shannon散度, 领域特化

一句话总结¶

解决 MoE 训练中的专家同质化问题，通过最大化不同数据域之间路由分布的 Jensen-Shannon 散度，鼓励不同域激活不同专家子集，在 15B-A1.5B 模型上提升专家特化程度和语言建模性能。

研究背景与动机¶

领域现状：混合专家模型（MoE）通过稀疏激活实现高参数量低计算量，但训练中经常出现"专家同质化"——不同专家学到高度相似的功能，浪费了参数容量。

现有痛点：现有方法（如负载均衡损失）只确保专家被均匀使用，但不保证不同专家学到不同技能。专家可能均匀使用但功能相同。

核心矛盾：负载均衡和功能特化是不同的概念——均匀使用不等于各有专长。

核心 idea：不同数据域应该激活不同的专家组合——通过最大化域间路由分布的 JS 散度来鼓励专家特化。

方法详解¶

整体框架¶

在标准 MoE 训练目标（语言建模损失 \(\mathcal{L}_{LM}\) + 负载均衡损失 \(\mathcal{L}_{LB}\)）上增加专家散度损失 \(\mathcal{L}_{ED}\)：\(\mathcal{L}_{final} = \mathcal{L}_{LM} + \alpha \mathcal{L}_{LB} + \beta \mathcal{L}_{ED}\)。

关键设计¶

三步聚合：Token→Sequence→Domain 层次化聚合路由概率
- Token 级：每个 token 经 router 得到 N 个专家的概率分布 \(p(x_t)\)
- Sequence 级：\(\bar{p}_s = \frac{1}{T}\sum_{t=1}^T p(x_t)\)，平均每个序列的所有 token 分布
- Domain 级：\(\bar{p}_j = \frac{1}{|\mathcal{B}_j|}\sum_{s \in \mathcal{B}_j} \bar{p}_s\)，按域标签分组平均
- JS 散度最大化：\(\mathcal{L}_{ED} = \frac{1}{\binom{M_B}{2}}\sum_{j<k} -\log(D_{JS}(\bar{p}_j || \bar{p}_k) + \epsilon)\)
- 最大化所有域对之间路由分布的 Jensen-Shannon 散度
- 使用负对数放大小散度值的梯度，防止梯度消失
- 域标签方案：两种粒度
- 3-Class：英语/中文/数学三大域（直接用数据来源）
- 49-Class：用分类器将英文→24 主题、中文→24 主题、数学→1 个，共 49 个细粒度域

理论动机——多样性分配¶

分解定理（Proposition 1）：总路由多样性 \(D_{total} = D_{inter} + D_{intra}\)
- \(D_{inter}\)：域间散度——不同域使用不同专家的程度
- \(D_{intra}\)：域内散度——同一域内 token 使用不同专家的程度
Proposition 2：\(\mathcal{L}_{ED}\) 直接增加 \(D_{inter}\)，将全局多样性重新分配到域间差异上
标准 \(\mathcal{L}_{LB}\) 只关注 \(D_{total}\) 而不管如何分配，\(\mathcal{L}_{ED}\) 提供更精细的方向引导
两个损失协同：\(\mathcal{L}_{LB}\) 确保总多样性，\(\mathcal{L}_{ED}\) 引导多样性流向域间差异→专家特化

实验关键数据¶

主实验（三个模型规模，100B tokens 从头预训练）¶

模型	方法	CEval	MMLU	CMMLU	ARC-e	ARC-c	RACE-m	RACE-h	平均
15B-A1.5B	标准 MoE	28.0	25.8	25.6	47.4	28.2	50.5	43.6	35.59
15B-A1.5B	+ED(49类)	28.9	27.1	26.3	48.6	28.5	51.7	45.5	36.65
8B-A0.8B	标准 MoE	25.8	24.5	25.0	43.2	23.6	42.7	36.5	31.61
8B-A0.8B	+ED(49类)	26.1	25.2	25.2	44.1	24.9	44.3	38.2	32.57
3B-A0.3B	标准 MoE	23.8	23.1	24.2	35.0	22.6	37.8	32.1	28.37
3B-A0.3B	+ED(49类)	24.5	23.4	24.5	36.2	22.8	37.5	32.8	28.81

训练动态与专家分析¶

分析维度	发现
LM 损失	所有 ED 配置收敛到更低的 \(\mathcal{L}_{LM}\)，不同 \(\beta\) 均优于基线
域粒度	49 类 > 3 类 > 基线，细粒度域标签帮助更大
专家特化	Layer 4 的特化程度远超其他层（中间层专家最分化）
计算开销	额外训练开销可忽略（仅需每个 batch 计算域间散度）
规模效应	性能增益随模型规模增大而增大（15B > 8B > 3B）

关键发现¶

负载均衡 ≠ 功能特化：均匀使用不保证各有专长
ED 损失引导专家开发不同域的路由策略，形成有组织的专家团队
49 类细粒度域分类比 3 类更有效，说明域标签的信息量直接影响特化质量

亮点与洞察¶

从均衡到特化的范式转变：标准 MoE 训练关注负载均衡（\(D_{total}\)），本文关注功能特化（\(D_{inter}\)），是更本质的目标
域标签的利用：利用预训练数据已有的域标签作为免费的监督信号来引导专家特化，零额外标注成本
JS 散度的选择：对称且有界的 JS 散度比 KL 散度更适合衡量路由分布差异
理论清晰：多样性分解定理优雅地揭示了 \(\mathcal{L}_{LB}\) 和 \(\mathcal{L}_{ED}\) 的互补关系

局限与展望¶

需要数据的域标签，纯无标签场景不直接适用（但可用分类器自动打标，如本文所做）
3B/8B/15B 三个模型尺度上验证，但训练规模有限（100B tokens）
域分类的粒度（49 vs 3）需要手工设定，最优粒度的自适应确定是开放问题
未探索与 shared expert 架构（如 DeepSeek-MoE）的交互效应
是否可以在预训练结束后通过域标签引导的微调来追加特化？

补充分析¶

核心洞察：load balancing 只鼓励全局路由多样性，不指导多样性如何分布——ℒ_ED 通过域标签将多样性定向分配为域间差异
Divergence Decomposition (\(D_{total} = D_{inter} + D_{intra}\)) 非常优雅——ℒ_LB 促进 \(D_{total}\)，ℒ_ED 导向 \(D_{inter}\)
49-class 表现优于 3-class，暗示更细粒度域标签带来更精细专家分工
性能增益随模型规模正向增长（3B < 8B < 15B），更大模型有更多潜力被有效分工利用
计算开销几乎为零——ℒ_ED 仅在已有路由 logit 上计算 JSD

评分¶

新颖性: ⭐⭐⭐⭐ 专家特化 via 域间散度最大化是新颖的角度，理论分解优雅
实验充分度: ⭐⭐⭐⭐ 三个模型尺度+两种域分类粒度+专家行为分析
写作质量: ⭐⭐⭐⭐ 问题分析清晰，理论动机完整
价值: ⭐⭐⭐⭐ 对 MoE 训练有实际指导，域标签利用成本低