LD-MoLE: Learnable Dynamic Routing for Mixture of LoRA Experts¶

会议: ICLR 2026
arXiv: 2509.25684
代码: GitHub
领域: 模型压缩
关键词: LoRA, Mixture-of-Experts, 动态路由, Sparsegen, parameter-efficient fine-tuning

一句话总结¶

提出 LD-MoLE，用 Sparsegen 闭合形式投影替代传统 TopK 路由，实现可微分、动态、token自适应的 LoRA 专家分配，配合轻量 MLP 预测稀疏因子和解析稀疏损失，在多个基准上超越固定路由和 ReLU 路由基线。

研究背景与动机¶

LoRA + MoE（即 MoLE）是大模型高效微调的有前途方向：多个低秩 LoRA 模块作为专家，路由网络决定每个 token 使用哪些专家。但现有方法普遍依赖 TopK 路由，存在三个痛点：

超参敏感: k 值需要仔细调节，不同任务最优 k 不同

不可微分: TopK 选择是离散操作，阻碍端到端优化

固定分配: 每个 token 激活相同数量的专家，无法适应复杂度差异

ReMoE 用 ReLU 路由尝试解决，但存在某些 token 可能分配不到任何专家的不稳定问题。核心问题是：能否设计一种既稳定可微又能自适应控制专家数量的路由机制？

LD-MoLE 的切入角度是利用 Sparsegen——一种概率单纯形上的闭合形式投影，保证每个 token 至少分配一个专家，同时通过可学习的稀疏参数 \(\lambda\) 实现动态专家选择。

方法详解¶

整体框架¶

在每个 Transformer 层的线性投影处放置多个 LoRA 专家。路由模块接收 token 嵌入，输出对各专家的稀疏权重分配。最终输出为基础权重输出加上所有活跃专家的加权输出之和。

关键设计¶

Sparsegen 路由:
- 功能：将路由分数投影到概率单纯形上，生成稀疏分配
- 核心思路：给定专家分数 \(\bm{u} = \bm{W}_{\text{gate}} \bm{x}\)，Sparsegen 求解优化问题 \(\bm{p} = \arg\min_{\bm{p}} \|\bm{p} - \bm{u}\|^2 - \lambda\|\bm{p}\|^2\)，约束 \(\bm{p} \geq 0, \mathbf{1}^\top \bm{p} = 1\)。闭合形式解为 \(\bm{p}_i = \left[\frac{\bm{u}_i - \tau}{1-\lambda}\right]_+\)
- 设计动机：相比 TopK 的离散跳变，Sparsegen 有良定义的次梯度且上界有界，保证稳定优化。\(\lambda \to 1^-\) 时趋向稀疏，\(\lambda \to -\infty\) 时趋向均匀分布
可学习动态稀疏因子:
- 功能：为每个 token 预测个性化的 \(\lambda\) 值
- 核心思路：轻量共享 MLP \(f(\bm{x}) = \lambda \in \mathbb{R}\)，根据输入维度共享（通常只有2种），极少参数开销
- 设计动机：不同 token 的建模复杂度不同，复杂 token 需要更多专家，简单 token 只需少量
解析稀疏损失:
- 功能：显式控制活跃专家数量
- 核心思路：根据 Proposition 2 推导出激活恰好 k 个专家的 \(\lambda\) 区间 \([\lambda_{\text{lower}}(k), \lambda_{\text{upper}}(k))\)，稀疏损失为 \(\mathcal{L}_{\text{sparse}} = \text{ReLU}(\lambda_{\text{lower}}(k) - \lambda)\)
- 设计动机：利用 Sparsegen 的解析特性直接约束稀疏度，无需启发式调参

损失函数 / 训练策略¶

总损失：\(\mathcal{L}_{\text{total}} = \mathcal{L}_{\text{LM}} + \alpha \mathcal{L}_{\text{lb}} + \beta \mathcal{L}_{\text{sparse}}\) - \(\mathcal{L}_{\text{LM}}\): 标准交叉熵（下一token预测或序列分类） - \(\mathcal{L}_{\text{lb}}\): 负载均衡损失，防止路由崩溃 - \(\mathcal{L}_{\text{sparse}}\): 稀疏控制损失

8个LoRA专家，rank=8，scaling=16。4×H200 GPU训练10 epoch。

实验关键数据¶

主实验¶

方法	模型	MMLU-P	ARC-C	ARC-E	OBQA	CommQA	SWAG	HellaS	CoLA	RTE	Avg
MoLA(8888)	Llama-3B	40.3	71.6	83.5	81.0	79.8	83.6	87.5	85.8	90.6	78.2
MoLA(2468)	Llama-3B	42.3	71.9	83.9	83.6	80.0	84.0	87.3	86.0	89.5	78.7
ReMoLE	Llama-3B	48.0	75.3	89.3	83.4	79.5	90.5	93.4	84.0	89.5	81.4
LD-MoLE	Llama-3B	49.6	74.6	89.5	83.8	80.3	90.8	93.6	85.5	91.0	82.0
LD-MoLE	Llama-8B	56.0	83.7	91.6	88.0	83.0	92.3	95.5	85.3	91.3	85.2

消融实验¶

配置	平均分	说明
LD-MoLE (β=0)	82.0	无稀疏损失，全性能
LD-MoLE (β>0, k≤4)	~81.5	减少活跃专家，轻微性能下降
MoLA(2468) vs MoLA(8888)	78.7→78.2	固定路由中层间分配更重要
ReMoLE (不稳定)	CoLA急剧下降	ReLU路由可能分配0专家

关键发现¶

动态路由在指令微调任务上普遍优于固定路由，而分类任务两者差异较小
LD-MoLE 保证每个 token 至少一个专家（Lemma 1），避免了 ReMoLE 的不稳定问题
稀疏损失可有效减少活跃专家数量而不显著影响性能
MoLA(2468) 优于 MoLA(8888)，说明固定路由下许多专家被浪费

亮点与洞察¶

Sparsegen 在 MoE 路由中的应用是关键创新点，兼顾可微分性和稀疏性
共享 MLP 预测 \(\lambda\) 的设计简洁高效，参数开销极小
解析稀疏损失直接从数学性质推导，不需要启发式

局限与展望¶

主实验只在 3B 和 1.7B 级别模型上验证，更大模型尚未测试
训练成本（4×H200, 10epoch）对于PEFT方法来说仍然较高
推理时的路由计算（排序+MLP）的具体延迟未报告

评分¶

新颖性: ⭐⭐⭐⭐ Sparsegen路由在MoLE中的应用新颖，理论分析扎实
实验充分度: ⭐⭐⭐⭐ 多模型多任务评估，但缺少推理效率对比
写作质量: ⭐⭐⭐⭐ 数学推导清晰，但符号较多
价值: ⭐⭐⭐⭐ 为MoE路由提供了更好的数学框架