THOR-MoE: Hierarchical Task-Guided and Context-Responsive Routing for Neural Machine Translation¶
会议: ACL 2025
arXiv: 2505.14173
作者: Yunlong Liang, Fandong Meng, Jie Zhou (腾讯微信AI)
代码: 未公开
领域: 多语言翻译
关键词: Mixture-of-Experts, 神经机器翻译, 层级路由, 上下文感知路由, 多领域翻译, 多语言翻译
一句话总结¶
提出THOR-MoE框架,通过层级任务引导路由(自动预测领域/语言并生成混合任务表示来选任务级专家子集)和上下文响应路由(将全局上下文注入token表示以辅助专家选择),在多领域和多语言翻译中以更少激活参数获得显著性能提升。
研究背景与动机¶
问题背景¶
稀疏MoE架构通过条件计算在不增加推理开销的前提下扩大模型容量,已在NMT中取得显著进展。现有MoE路由方案主要分两类:(1) 引入任务特定知识(领域/语言标签)设计专门路由模块;(2) 通过减少激活专家数提升效率。
已有工作的不足¶
依赖显式任务标签:现有方法(如Lingual-MoE等)直接使用hard语言/领域标签来引导路由,但实际测试时这些标签往往不可用;对于code-mixed句子或跨领域文本,单一标签无法准确描述输入特性
路由仅依赖局部token表示:传统路由机制仅根据当前token的局部表示决定专家分配,忽略了全局上下文信息——上下文能反映每个token的难度和语境角色,对最优路由决策至关重要
缺乏层级设计:直接从全量专家池中为每个token选专家,未利用任务级别的天然分组特性来缩小候选范围
核心动机¶
设计一个即插即用的MoE路由框架,(a) 自动获取而非依赖给定的任务知识,用混合表示处理模糊边界;(b) 层级化先选任务级专家子集再做token级路由;(c) 将全局上下文融入token路由过程。
方法详解¶
整体框架¶
THOR-MoE在标准MoE路由之上增加两个模块,形成三层级路由流程: 1. 任务预测与混合表示生成:自动预测输入所属领域/语言,生成软混合任务表示 2. 层级任务引导路由:用混合任务表示从全量专家中选出任务级候选专家子集 \(\mathcal{S}^t\) 3. 上下文响应token路由:将全局上下文注入token表示后,从候选子集 \(\mathcal{S}^t\) 中做最终token级专家选择
该框架兼容Top-k和Top-p两种现有路由策略。
关键设计1:层级任务引导路由¶
任务预测器:在输入前添加[CLS]特殊token,经Transformer编码后通过MaxPooling和全连接层得到任务分布预测:
混合任务表示:不直接取argmax的硬标签,而是用预测概率分布对任务嵌入矩阵加权求和:
这种软混合表示对code-mixed输入和跨领域文本有天然的容错能力——实验证明它甚至优于使用golden标签。
层级路由:混合任务表示输入专门的任务路由器 \(g^t\),通过TopK从全量专家中选出任务级候选子集 \(\mathcal{S}^t\)。后续token级路由仅在 \(\mathcal{S}^t\) 中进行,大幅缩小搜索空间。
关键设计2:上下文响应路由¶
在token级路由之前,用门控机制将全局上下文融入每个token的表示:
其中 \(g = \sigma([\mathbf{x}_i; \mathbf{H}_{ctx}]\mathbf{W}^g + \mathbf{b}^g)\) 是可学习门控,\(\mathbf{H}_{ctx}\) 为序列中所有token的平均隐状态。在解码端,上下文随解码步动态更新(使用已生成前缀的表示)。
这使得路由器能从全局视角判断每个token的难度和角色,为其分配更合适的专家。
训练目标¶
总损失由四/五部分组成: - \(\mathcal{L}_{NMT}\):标准翻译损失 - \(\mathcal{L}_{tp}\):任务预测交叉熵损失 - \(\mathcal{L}_{bd}\):任务级负载均衡损失,确保不同任务均匀使用专家 - \(\mathcal{L}_{bt}\):token级负载均衡损失,在候选子集内均衡 - \(\mathcal{L}_{topp}\):(仅Top-p)动态路由熵约束,防止激活过多专家
实验关键数据¶
实验1:多领域翻译(De→En,Decoder-only架构)¶
基于Qwen1.5-MoE裁剪版(Trim-MoE,3.5B总参/2.3B激活参)在5个领域上微调。
| 模型 | IT | Koran | Medical | Law | Subtitles | Avg. |
|---|---|---|---|---|---|---|
| Dense SFT-3B | 40.65 | 20.40 | 51.40 | 54.80 | 28.33 | 39.12 |
| Trim-MoE (Top-2) | 45.10 | 22.68 | 51.84 | 57.12 | 29.02 | 41.15 |
| Trim-MoE (Top-p) | 39.39 | 19.21 | 55.67 | 60.18 | 29.21 | 40.73 |
| THOR-MoE (Top-2) | 46.00 | 23.35 | 55.79 | 61.06 | 28.23 | 42.89 |
| THOR-MoE (Top-p) | 44.63 | 22.53 | 53.58 | 58.65 | 27.99 | 41.48 |
THOR-MoE (Top-2) 比 Trim-MoE (Top-2) 平均提升 +1.74 BLEU,且多项显著性检验 p<0.01。
实验2:多语言翻译(OPUS-16, Encoder-Decoder架构)¶
16种语言(8高/4中/4低资源),基于Transformer-Base + 32专家。
| 模型 | En→XX Avg. | XX→En Avg. | 总Avg. |
|---|---|---|---|
| Dense Transformer-base | 26.16 | 30.27 | 28.21 |
| ST-MoE (Top-1) | 29.09 | 33.71 | 31.40 |
| Lingual-MoE | 30.95 | 33.81 | 32.38 |
| THOR-MoE (Top-2) | 31.98 | 34.64 | 33.31 |
| THOR-MoE (Top-p) | 31.55 | 34.26 | 32.91 |
THOR-MoE (Top-2) 比最强基线 Lingual-MoE 在总Avg.上提升 +0.93 BLEU(p<0.05)。低资源语言提升最大(+1.51 vs Lingual-MoE)。
实验3:效率分析¶
| 路由策略 | IT | Koran | Medical | Law | Subtitles | 平均激活专家数 |
|---|---|---|---|---|---|---|
| Top-p(原始) | 1.87 | 1.95 | 1.82 | 1.92 | 1.77 | 1.87 |
| Top-p + 上下文 | 1.37 | 1.61 | 1.42 | 1.56 | 1.31 | 1.45 |
上下文响应路由使平均激活专家数从1.87降至1.45(减少22%),同时性能更优——上下文帮助模型更自信地路由到少量专家。
关键发现¶
- 混合表示 > 金标签:用预测概率加权的混合任务表示效果优于直接使用golden标签(41.48 vs 41.32 BLEU),证明软分布的容错优势
- 层级设计 > 直接融合:将任务知识层级化地用于先筛候选再token路由,效果显著优于直接将任务信息拼入token表示(41.48 vs 40.95)
- 上下文使路由更高效:引入上下文后模型用更少专家(1.45 vs 1.87)达到更好效果,训练时也更快收敛到低激活数
- 框架通用性强:在Top-1、Top-2、Top-p三种路由策略上一致有效,在Decoder-only和Encoder-Decoder两种架构上均成立
亮点与洞察¶
- 即插即用设计:THOR-MoE作为模块化组件可无缝集成到任何使用Top-k或Top-p路由的MoE架构,无需修改基础模型结构
- 自动任务知识获取:通过任务预测器自动获取领域/语言知识,摆脱了对显式标签的依赖,增强实际部署可行性
- 混合表示的优雅处理:软概率加权的任务表示自然处理了code-mixed和跨领域模糊输入,比硬标签更鲁棒
- 上下文的双重收益:全局上下文不仅提升路由精度(更好的专家匹配),还提升效率(更少的激活专家数),体现了"知难而精"的路由理念
- 层级路由的先验紧缩效应:先在任务级缩小候选范围,再在token级精选,类似于贝叶斯框架中先验约束搜索空间的思路
局限性¶
- 依赖任务数先验:设计需要预设领域/语言组数量,可扩展性受限——面对开放域或大量细粒度任务时不灵活
- 仅验证翻译任务:所有实验限于NMT,未验证在摘要、对话等其他生成任务或判别任务上的效果
- 上下文表示过于简单:全局上下文仅采用平均池化,未探索注意力加权等更精细的上下文聚合方式
- 额外计算开销未充分讨论:任务预测器和门控机制引入的额外参数和计算量未做详细profiling
- 多领域实验规模较小:多领域翻译仅涉及5个领域、单一语言对(De→En),规模有限
相关工作与启发¶
- Lingual-MoE (Zhao et al., 2024):最直接的对比方法,也采用层级语言引导+动态路由,但使用hard语言ID嵌入且不含上下文信息。THOR-MoE通过混合表示和上下文注入实现全面超越
- Top-p路由 (Huang et al., 2024):动态激活专家数的路由策略,THOR-MoE在其上叠加后以更少激活参数获得更好性能
- Hybrid-MoE (Kudugunta et al., 2021):编码端token路由、解码端语言路由的混合方案,性能不如统一的层级设计
- 启发:该工作的核心思路——先粗选再精选的层级路由 + 融入全局信息——可迁移到LLM预训练阶段的MoE路由设计中,特别是多任务指令微调场景
评分¶
- 新颖性: ⭐⭐⭐⭐ — 层级路由+上下文响应的组合设计新颖,混合任务表示优于golden标签是有趣发现
- 实验充分度: ⭐⭐⭐⭐ — 两种架构、两个benchmark、丰富消融,但缺乏翻译之外的验证
- 写作质量: ⭐⭐⭐⭐ — 结构清晰,动机阐述充分,图表配合良好
- 价值: ⭐⭐⭐⭐ — 即插即用的MoE路由增强方案,对NMT实用价值高,但局限于翻译场景