Routing Manifold Alignment Improves Generalization of Mixture-of-Experts LLMs¶
会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=3lskwxB653
代码: 有(论文提供链接)
领域: LLM效率 / Mixture-of-Experts
关键词: MoE路由, 流形对齐, 流形正则, 路由后训练, 泛化
一句话总结¶
本文提出 RoMA(Routing Manifold Alignment),通过在后训练目标里加一个"流形正则项",只轻量微调 MoE LLM 最后几层路由器,让语义相似样本共享相似的专家选择,在三个 MoE 模型上把准确率提升 7–15%,且不增加推理开销。
研究背景与动机¶
领域现状:稀疏 MoE 已成为扩展 LLM 容量的主流架构——它能在不显著增加推理算力的前提下放大模型规模。每层的核心是一个路由器(router),根据 token 的隐藏表示算出一组路由权重,把 token 分派给少数几个专家。路由器参数极少(7B 模型里仅占 0.03%),却是 MoE 能否发挥专家分工的关键。
现有痛点:作者在广泛下游任务上评测发现,现有 MoE LLM 的路由器系统性地"路由次优"。他们构造了一个 oracle 上界 \(r^*_i\)——对每个样本,从预训练路由权重出发、用真实标签做梯度下降直到收敛,得到能让模型答对的最优路由。结果发现预训练路由器与 oracle 之间存在 10–20% 的准确率鸿沟,说明现有路由器有大量未被挖掘的潜力。
核心矛盾:作者把鸿沟的根源定位到一个几何现象——任务嵌入流形与路由权重流形的错位。用 UMAP 可视化 ARC-C 样本可以看到:任务嵌入空间里语义相似的样本聚成清晰的簇(Figure 3a),但预训练路由权重却把同一语义簇的样本打散到路由空间各处(Figure 3b),毫无对应的簇结构。这意味着路由器没有捕捉到任务结构,对语义相关的输入做出了不一致的专家选择,破坏了 MoE "为相关输入复用专家、共享技能"的初衷。而 oracle 路由权重(Figure 3d)恰恰呈现出与任务嵌入一致的簇结构。
本文目标:把路由权重流形对齐到任务嵌入流形,让语义相似的样本共享相似的跨层专家选择,从而缩小与 oracle 的鸿沟、提升泛化。
切入角度:流形正则(Manifold Regularization)是机器学习里成熟的技术,原本用于在低维表示/输出上保持高维输入的局部邻域结构。作者把它从"作用在最终输出"改造为"作用在跨层路由权重",并把邻域定义在任务嵌入空间而非原始输入上,从而在专家选择与任务理解之间建立绑定。
核心 idea:用任务嵌入流形当"老师",把每个样本的路由权重往它"成功邻居"(答对的语义近邻)的路由权重靠拢——只微调路由器,就能统一"任务理解"(嵌入模型)与"解答生成"(MoE)。
方法详解¶
整体框架¶
RoMA 是一个路由器后训练方法:基础 MoE LLM 的全部专家参数冻结,只对路由器做轻量微调。对训练集中每个样本 \((x_i,y_i)\),先用一个冻结的嵌入模型 \(E(\cdot)\) 把它的任务描述映射到语义空间;然后在已经被模型答对的"成功样本"集合里、按任务嵌入相似度找出它的 \(k\) 近邻(成功邻域);训练目标在常规任务损失之外,额外加一个流形正则项,惩罚当前样本与成功邻居之间的路由权重差异,使语义相似样本的路由权重相互靠拢。梯度只回传更新路由器参数,且实测只调最后五层路由器即可。最终路由权重流形被"拉"成与任务嵌入一致的簇结构,逼近 oracle,泛化随之改善。
%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
A["训练样本 (xi, yi)"] --> B["冻结嵌入模型 E<br/>算任务嵌入"]
B --> C["1. 成功邻域<br/>在答对样本里取 kNN"]
C --> D["2. 流形正则<br/>路由权重向成功邻居靠拢"]
A --> E["任务损失 LCE"]
D --> F["3. 轻量微调<br/>只更新最后5层router"]
E --> F
F -->|专家全程冻结| G["路由流形对齐任务嵌入<br/>泛化提升"]
关键设计¶
1. 成功邻域:只模仿"答对样本"的路由,避免传播次优策略
朴素地"让相似样本路由相似"有个陷阱:如果邻居本身就路由错了,对齐反而会把错误扩散。RoMA 先筛出训练集中模型预测正确的样本子集 \(S=\{j:\,f(x_j,r_j)=y_j\}\),只在 \(S\) 里为每个样本 \(x_i\) 构造邻域。邻域用任务嵌入空间的相似度定义,可选 \(k\)-NN 或 \(\epsilon\)-ball,相似度采用高斯核 \(\text{sim}(E(x_i),E(x_j))=\exp\!\big(-\|E(x_i)-E(x_j)\|_2^2/2\sigma^2\big)\)。这样每个样本只向"语义相近且确实答对"的邻居学习路由模式,从源头上保证被模仿的是成功的专家选择。消融显示随机选邻居几乎无提升(67.8% vs 基线 67.6%),而 \(k=3\) 的 \(k\)-NN 最稳(76.2%),印证了"成功 + 语义近"这两个约束缺一不可。
2. 流形正则:把路由权重流形对齐到任务嵌入流形
这是 RoMA 的核心。先把样本间的归一化邻接权重定义为 $\(W_{i,j}\triangleq\frac{\text{sim}(E(x_i),E(x_j))}{\sum_{j\in N(x_i)}\text{sim}(E(x_i),E(x_j))},\quad j\in N(x_i),\)$ 语义越相似权重越大。然后对样本 \(x_i\) 的(跨 \(L\) 层拼接而成的)路由权重 \(r_i\) 施加流形正则 $\(L_{\text{manifold}}(i)\triangleq\sum_{j\in N(x_i)}W_{i,j}\,\|r_i-r_j\|_2^2.\)$ 它惩罚语义相似样本之间的路由差异 \(\|r_i-r_j\|_2\),逼着路由流形去复刻任务嵌入流形的局部邻域结构,等价于把每个样本的路由权重往成功邻居处"搬"。与传统流形正则作用在最终输出不同,这里作用在跨 MoE 层的路由权重上,绑定的是"专家选择 ↔ 任务嵌入"而非"输出 ↔ 原始输入"。为保证对齐后的路由仍能答对,最终目标把它和交叉熵任务损失合在一起,用系数 \(\lambda\) 平衡:\(L_{\text{RoMA}}(i)=L_{\text{task}}(i)+\lambda\cdot L_{\text{manifold}}(i)\)。消融里它把准确率从基线 67.6% 拉到 76.2%,显著超过 L1(68.2%)、L2(71.5%)、熵正则(70.7%),说明"任务嵌入空间的几何对齐"比通用的稀疏/熵约束是更强的归纳偏置。
3. 轻量微调:冻结专家、只调最后五层路由器
RoMA 把全部专家参数冻结,只对路由器参数 \(\theta_{\text{router}}\) 做梯度下降 \(\theta^{(t+1)}_{\text{router}}=\theta^{(t)}_{\text{router}}-\eta\nabla_{\theta_{\text{router}}}L_{\text{RoMA}}\)。路由器只占基础模型 0.0095% 的参数,且推理时路由计算方式不变,因此不增加任何推理开销——这与需要测试时优化、算力 6–7× 的 C3PO 形成鲜明对比。进一步地,作者发现不必微调所有层:层选择消融显示最后五层(L5)达到最高 76.2%,甚至超过全层(75.1%),说明靠后的层对路由质量更关键,选择性正则少数关键层既更有效也更省训练成本。Token 选择上也是"少而精"——只用最后 1 个 token 的路由权重(Last1,76.2%)优于聚合多个 token,因为末位 token 含更丰富的任务相关信息。
实验关键数据¶
主实验¶
在 OLMoE-7B-A1B、DeepSeekMoE-16B-A3B、Qwen3-30B-A3B 三个 MoE 上微调路由器,八个 benchmark 平均(GSM8K 为 OOD)。RoMA 全面超过 ICL、Router/Prefix/Prompt Tuning、Dense BP,与 C3PO 相当或更优但无额外推理成本。
| 模型 / 方法 | MMLU | HellaSwag | ARC-C | 八项平均 |
|---|---|---|---|---|
| OLMoE Base | 57.8 | 77.9 | 51.3 | 67.6 |
| OLMoE + C3PO | 65.5 | 85.3 | 66.3 | 75.7 |
| OLMoE + RoMA | 69.0 | 86.7 | 67.2 | 76.2 |
| OLMoE Oracle(上界) | 72.2 | 91.5 | 74.8 | 81.1 |
| DeepSeekMoE Base | 46.2 | 78.0 | 50.3 | 66.6 |
| DeepSeekMoE + RoMA | 56.8 | 87.9 | 61.4 | 74.7 |
| Qwen3-30B Base | 74.2 | 68.5 | 56.8 | 74.0 |
| Qwen3-30B + RoMA | 78.8 | 74.8 | 65.5 | 79.5 |
MMLU 上 RoMA 把 DeepSeekMoE 提升 +10.6%、OLMoE 提升 +11.2%。更亮眼的是跨规模对比:仅 1B 激活参数的 OLMoE+RoMA(MMLU 69.0、HellaSwag 86.7)超过若干 7–8B 乃至 13B 的稠密模型;3B 激活的 Qwen3+RoMA(MMLU 78.8)超过 27–34B 稠密模型。
消融实验(均在 OLMoE,八项平均准确率)¶
| 维度 | 配置 | 平均准确率 | 说明 |
|---|---|---|---|
| 基线 | OLMoE Base | 67.6 | — |
| 正则方法 | L1 / L2 / 熵 | 68.2 / 71.5 / 70.7 | 通用约束提升有限 |
| 正则方法 | 流形正则(本文) | 76.2 | 几何对齐是更强归纳偏置 |
| 层选择 | 单层 / 双层 / 全层 | ~69 / >71 / 75.1 | — |
| 层选择 | 最后五层 L5 | 76.2 | 超过全层 |
| 邻域 | 随机 / ε=0.5 / k=3 | 67.8 / 74.1 / 76.2 | 随机几乎无效 |
| Token | First1 / Middle1 / Last1 | 71.4 / 69.2 / 76.2 | 末位 token 信息最丰富 |
| 训练数据量 | 10% / 30% / 100% | 68.5 / 70.8 / 76.2 | 30% 已有可观增益 |
关键发现¶
- 流形正则是真正的贡献来源:换成 L1/L2/熵正则最高只到 71.5%,而流形正则达 76.2%,证明提升来自"任务嵌入几何对齐"而非单纯加约束。
- "少而精"贯穿全方法:最后五层 > 全层、Last1 > 多 token、k=3 > k=1/5——选择性、低成本的配置反而最优。
- 数据高效:仅用 30% 训练数据就把基线 67.6% 提到 70.8%,全量到 76.2%。
- 对嵌入模型不敏感:从 22M 的 all-MiniLM 到 7.8B 的 Qwen-embedding,提升稳定在 +3.6%~+8.6%。
亮点与洞察¶
- 把"路由优劣"重新表述成"流形错位":作者用 oracle 上界量化了 10–20% 的路由鸿沟,又用 UMAP 把根因可视化为任务嵌入簇与路由权重散点的错位,诊断和解法一气呵成,非常有说服力。
- 只模仿成功邻居这一步看似简单却关键——它把"流形对齐"从可能扩散错误的危险操作变成了只学习正确专家选择,随机选邻居的对照(几乎无提升)反衬出其必要性。
- 0.0095% 参数、零推理开销换来 7–15% 提升,性价比远超需要 6–7× 推理算力的测试时优化方法 C3PO,这种"训练侧轻改、推理侧不动"的思路很适合工程落地。
- 统一任务理解与解答生成:用嵌入模型的几何结构去监督 MoE 的专家选择,这个"让理解端引导执行端"的范式可迁移到其他需要路由/选择的稀疏架构。
局限与展望¶
- 流形正则依赖一个外部嵌入模型来定义任务相似度,虽然论文显示对嵌入模型规模不敏感,但额外引入了对预训练嵌入质量的依赖,且需要先跑一遍模型筛选"成功样本"。
- oracle 是通过对每个样本用真实标签梯度下降得到的经验上界,主要用于诊断和动机论证;RoMA 在 OOD 的 GSM8K 上提升相对有限(如 OLMoE 45.5→49.4),跨分布泛化仍有空间。
- 邻域构造(k、ε、相似度核)和 λ 等超参对效果敏感,需要按模型/任务调参;论文主要在三个 MoE、八个 benchmark 上验证,更大规模 MoE 与生成式长任务上的表现待考。
- 改进思路:把成功邻域随训练动态更新(而非固定)、或把流形正则与专家负载均衡联合优化,可能进一步缩小与 oracle 的剩余鸿沟。
相关工作与启发¶
- vs Dense BP:Dense BP 为路由器设计更有效的预训练目标、让梯度流过全模型,但没有解决"任务 ↔ 路由权重"的流形错位;RoMA 直接对齐两个流形,主实验上稳定超过 Dense BP(如 OLMoE 71.2 → 76.2)。
- vs C3PO:C3PO 是测试时动态重加权专家路径的 SOTA,效果与 RoMA 相当,但需要测试时优化与最近邻搜索,推理成本是基础模型的 6–7×;RoMA 把代价前移到训练侧轻量微调,推理零额外开销,且在更大模型(DeepSeekMoE、Qwen3)上优势更明显。
- vs 传统流形正则(Belkin 等):经典流形正则假设全局平滑、作用在最终输出并以原始输入定义邻域;RoMA 把它作用在跨层路由权重、并以任务嵌入定义邻域,绑定的是专家选择与任务语义。
- vs PEFT(LoRA/DoRA/MoLE):在路由器上套 PEFT 会引入新参数,RoMA 不增任何参数却平均高出 7.5%~8.6%,说明"对齐几何结构"比"增大参数容量"更适合路由优化。
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 把 MoE 路由次优重新诊断为"流形错位"并用流形正则求解,视角新颖且自洽。
- 实验充分度: ⭐⭐⭐⭐⭐ 三模型八 benchmark + oracle 上界 + 六组消融(层/token/邻域/正则/数据量/嵌入模型),证据链完整。
- 写作质量: ⭐⭐⭐⭐ 动机与可视化讲得清楚,公式规范;部分附录关键指标(CKA/Trustworthiness)只在正文一句带过。
- 价值: ⭐⭐⭐⭐⭐ 0.0095% 参数、零推理开销换 7–15% 提升,且让小激活 MoE 超越大稠密模型,工程价值高。