THOR-MoE: Hierarchical Task-Guided and Context-Responsive Routing for Neural Machine Translation¶

会议: ACL 2025
arXiv: 2505.14173
作者: Yunlong Liang, Fandong Meng, Jie Zhou (腾讯微信AI) 代码: 未公开
领域: 多语言翻译
关键词: Mixture-of-Experts, 神经机器翻译, 层级路由, 上下文感知路由, 多领域翻译, 多语言翻译

一句话总结¶

提出THOR-MoE框架，通过层级任务引导路由（自动预测领域/语言并生成混合任务表示来选任务级专家子集）和上下文响应路由（将全局上下文注入token表示以辅助专家选择），在多领域和多语言翻译中以更少激活参数获得显著性能提升。

研究背景与动机¶

问题背景¶

稀疏MoE架构通过条件计算在不增加推理开销的前提下扩大模型容量，已在NMT中取得显著进展。现有MoE路由方案主要分两类：(1) 引入任务特定知识（领域/语言标签）设计专门路由模块；(2) 通过减少激活专家数提升效率。

已有工作的不足¶

依赖显式任务标签：现有方法（如Lingual-MoE等）直接使用hard语言/领域标签来引导路由，但实际测试时这些标签往往不可用；对于code-mixed句子或跨领域文本，单一标签无法准确描述输入特性

路由仅依赖局部token表示：传统路由机制仅根据当前token的局部表示决定专家分配，忽略了全局上下文信息——上下文能反映每个token的难度和语境角色，对最优路由决策至关重要

缺乏层级设计：直接从全量专家池中为每个token选专家，未利用任务级别的天然分组特性来缩小候选范围

核心动机¶

设计一个即插即用的MoE路由框架，(a) 自动获取而非依赖给定的任务知识，用混合表示处理模糊边界；(b) 层级化先选任务级专家子集再做token级路由；(c) 将全局上下文融入token路由过程。

方法详解¶

整体框架¶

THOR-MoE在标准MoE路由之上增加两个模块，形成三层级路由流程： 1. 任务预测与混合表示生成：自动预测输入所属领域/语言，生成软混合任务表示 2. 层级任务引导路由：用混合任务表示从全量专家中选出任务级候选专家子集 \(\mathcal{S}^t\) 3. 上下文响应token路由：将全局上下文注入token表示后，从候选子集 \(\mathcal{S}^t\) 中做最终token级专家选择

该框架兼容Top-k和Top-p两种现有路由策略。

关键设计1：层级任务引导路由¶

任务预测器：在输入前添加[CLS]特殊token，经Transformer编码后通过MaxPooling和全连接层得到任务分布预测：

\[\mathcal{P}^t = \text{Softmax}(\mathbf{W}^p \cdot \text{MaxPooling}(\mathbf{H}^{cls}))\]

混合任务表示：不直接取argmax的硬标签，而是用预测概率分布对任务嵌入矩阵加权求和：

\[\mathbf{E}_p = \sum(\mathcal{P}^t \cdot \mathbf{EMB1})\]

这种软混合表示对code-mixed输入和跨领域文本有天然的容错能力——实验证明它甚至优于使用golden标签。

层级路由：混合任务表示输入专门的任务路由器 \(g^t\)，通过TopK从全量专家中选出任务级候选子集 \(\mathcal{S}^t\)。后续token级路由仅在 \(\mathcal{S}^t\) 中进行，大幅缩小搜索空间。

关键设计2：上下文响应路由¶

在token级路由之前，用门控机制将全局上下文融入每个token的表示：

\[\mathbf{x}_i = g \odot \mathbf{x}_i + (1-g) \odot \mathbf{H}_{ctx}\]

其中 \(g = \sigma([\mathbf{x}_i; \mathbf{H}_{ctx}]\mathbf{W}^g + \mathbf{b}^g)\) 是可学习门控，\(\mathbf{H}_{ctx}\) 为序列中所有token的平均隐状态。在解码端，上下文随解码步动态更新（使用已生成前缀的表示）。

这使得路由器能从全局视角判断每个token的难度和角色，为其分配更合适的专家。

训练目标¶

总损失由四/五部分组成： - \(\mathcal{L}_{NMT}\)：标准翻译损失 - \(\mathcal{L}_{tp}\)：任务预测交叉熵损失 - \(\mathcal{L}_{bd}\)：任务级负载均衡损失，确保不同任务均匀使用专家 - \(\mathcal{L}_{bt}\)：token级负载均衡损失，在候选子集内均衡 - \(\mathcal{L}_{topp}\)：（仅Top-p）动态路由熵约束，防止激活过多专家

实验关键数据¶

实验1：多领域翻译（De→En，Decoder-only架构）¶

基于Qwen1.5-MoE裁剪版（Trim-MoE，3.5B总参/2.3B激活参）在5个领域上微调。

模型	IT	Koran	Medical	Law	Subtitles	Avg.
Dense SFT-3B	40.65	20.40	51.40	54.80	28.33	39.12
Trim-MoE (Top-2)	45.10	22.68	51.84	57.12	29.02	41.15
Trim-MoE (Top-p)	39.39	19.21	55.67	60.18	29.21	40.73
THOR-MoE (Top-2)	46.00	23.35	55.79	61.06	28.23	42.89
THOR-MoE (Top-p)	44.63	22.53	53.58	58.65	27.99	41.48

THOR-MoE (Top-2) 比 Trim-MoE (Top-2) 平均提升 +1.74 BLEU，且多项显著性检验 p<0.01。

实验2：多语言翻译（OPUS-16, Encoder-Decoder架构）¶

16种语言（8高/4中/4低资源），基于Transformer-Base + 32专家。

模型	En→XX Avg.	XX→En Avg.	总Avg.
Dense Transformer-base	26.16	30.27	28.21
ST-MoE (Top-1)	29.09	33.71	31.40
Lingual-MoE	30.95	33.81	32.38
THOR-MoE (Top-2)	31.98	34.64	33.31
THOR-MoE (Top-p)	31.55	34.26	32.91

THOR-MoE (Top-2) 比最强基线 Lingual-MoE 在总Avg.上提升 +0.93 BLEU（p<0.05）。低资源语言提升最大（+1.51 vs Lingual-MoE）。

实验3：效率分析¶

路由策略	IT	Koran	Medical	Law	Subtitles	平均激活专家数
Top-p（原始）	1.87	1.95	1.82	1.92	1.77	1.87
Top-p + 上下文	1.37	1.61	1.42	1.56	1.31	1.45

上下文响应路由使平均激活专家数从1.87降至1.45（减少22%），同时性能更优——上下文帮助模型更自信地路由到少量专家。

关键发现¶

混合表示 > 金标签：用预测概率加权的混合任务表示效果优于直接使用golden标签（41.48 vs 41.32 BLEU），证明软分布的容错优势
层级设计 > 直接融合：将任务知识层级化地用于先筛候选再token路由，效果显著优于直接将任务信息拼入token表示（41.48 vs 40.95）
上下文使路由更高效：引入上下文后模型用更少专家（1.45 vs 1.87）达到更好效果，训练时也更快收敛到低激活数
框架通用性强：在Top-1、Top-2、Top-p三种路由策略上一致有效，在Decoder-only和Encoder-Decoder两种架构上均成立

亮点与洞察¶

即插即用设计：THOR-MoE作为模块化组件可无缝集成到任何使用Top-k或Top-p路由的MoE架构，无需修改基础模型结构
自动任务知识获取：通过任务预测器自动获取领域/语言知识，摆脱了对显式标签的依赖，增强实际部署可行性
混合表示的优雅处理：软概率加权的任务表示自然处理了code-mixed和跨领域模糊输入，比硬标签更鲁棒
上下文的双重收益：全局上下文不仅提升路由精度（更好的专家匹配），还提升效率（更少的激活专家数），体现了"知难而精"的路由理念
层级路由的先验紧缩效应：先在任务级缩小候选范围，再在token级精选，类似于贝叶斯框架中先验约束搜索空间的思路

局限性¶

依赖任务数先验：设计需要预设领域/语言组数量，可扩展性受限——面对开放域或大量细粒度任务时不灵活
仅验证翻译任务：所有实验限于NMT，未验证在摘要、对话等其他生成任务或判别任务上的效果
上下文表示过于简单：全局上下文仅采用平均池化，未探索注意力加权等更精细的上下文聚合方式
额外计算开销未充分讨论：任务预测器和门控机制引入的额外参数和计算量未做详细profiling
多领域实验规模较小：多领域翻译仅涉及5个领域、单一语言对(De→En)，规模有限

评分¶

新颖性: ⭐⭐⭐⭐ — 层级路由+上下文响应的组合设计新颖，混合任务表示优于golden标签是有趣发现
实验充分度: ⭐⭐⭐⭐ — 两种架构、两个benchmark、丰富消融，但缺乏翻译之外的验证
写作质量: ⭐⭐⭐⭐ — 结构清晰，动机阐述充分，图表配合良好
价值: ⭐⭐⭐⭐ — 即插即用的MoE路由增强方案，对NMT实用价值高，但局限于翻译场景