跳转至

Online Mixture of Experts: No-Regret Learning for Optimal Collective Decision-Making

会议: NeurIPS 2025
arXiv: 2510.21788
代码: 无
领域: 在线学习 / 集成方法
关键词: online learning, mixture of experts, bandit, no-regret, LLM ensemble

一句话总结

提出在线专家混合(OMoE)框架,包含 UCB 逐步消除和在线加权多数投票两种算法,理论上保证无遗憾(no-regret),并应用于 LLM 专家的在线动态聚合。

研究背景与动机

领域现状:专家混合(Mixture of Experts, MoE)在离线场景已有广泛应用,但在线场景下如何动态聚合多个专家的输出以实现最优集体决策缺乏系统研究。

现有痛点:传统 MoE 假设固定的门控/路由机制,无法适应流式数据下专家质量的动态变化;多臂赌博机框架假设独立 arm,未利用专家间的组合结构。

核心矛盾:探索(尝试新专家组合)与利用(使用已知最优组合)的经典平衡问题,在"如何聚合"维度上比标准 bandit 更复杂。

切入角度:将专家聚合建模为 contextual bandit 问题,利用 UCB 和加权投票的有效结合。

核心 idea:将 MoE 转化为在线 bandit 学习问题,构建有理论保证的无遗憾专家聚合算法。

方法详解

整体框架

给定 \(K\) 个专家和上下文 \(x_t\),每轮选择一个专家子集(委员会)及聚合权重,观察聚合输出的准确率作为反馈。目标:最小化累积遗憾 \(R_T = \sum_{t=1}^T [r^* - r_t]\)

关键设计

  1. 算法一:UCB-Successive Elimination (UCB-SE)

    • 功能:通过 UCB 置信上界逐步淘汰次优的专家组合
    • 核心思路:为每个可能的专家委员会维护 UCB 估计 \(\hat{\mu}_k + \sqrt{\frac{2\ln t}{n_k}}\)
    • 消除规则:当某委员会的 UCB 低于当前最优委员会的 LCB 时淘汰
    • 遗憾界:\(R_T = O(\sqrt{KT \log T})\)
    • 优势:高效剪枝,减少探索浪费
  2. 算法二:Online Weighted Majority Voting (OWMV)

    • 功能:根据各专家历史表现动态分配投票权重
    • 更新规则:\(w_k^{(t+1)} = w_k^{(t)} \cdot \beta^{\mathbb{1}[\text{expert } k \text{ incorrect}]}\)
    • 衰减因子 \(\beta \in (0,1)\) 惩罚错误专家
    • 遗憾界:\(R_T = O(\sqrt{T \log K})\)
    • 优势:不需要枚举所有委员会组合
  3. LLM 应用:在线专家 LLM 微调

    • 场景:\(K\) 个专业 LLM(代码、推理、创意写作...)动态聚合
    • 每次 query 后更新专家权重/选择最优委员会
    • 聚合方式:加权投票 + top-k 选择

理论保证

  • 定理1 (UCB-SE):对于 \(K\) 个专家和 \(T\) 轮交互,\(R_T \leq O(\sum_{k \neq k^*} \frac{\log T}{\Delta_k})\),其中 \(\Delta_k\) 为次优间隔
  • 定理2 (OWMV)\(R_T \leq O(\sqrt{T \log K})\),与 Hedge/MW 算法一致但适用于 bandit 反馈

实验关键数据

主实验 — 合成数据:累积遗憾比较 (\(K=10\), \(T=10000\))

算法 累积遗憾 收敛轮数
Uniform Random 2847
EXP3 892 ~3000
UCB1 743 ~2500
UCB-SE (本文) 531 ~1800
OWMV (本文) 487 ~1500

LLM 专家聚合 — 准确率 (\(K=5\) 专家 LLM)

方法 MMLU↑ GSM8K↑ HumanEval↑ 平均↑
单一最优专家 68.2 71.5 62.8 67.5
固定均匀权重 65.1 68.3 60.2 64.5
Oracle (事后最优) 73.8 76.2 68.1 72.7
UCB-SE 71.2 73.8 65.9 70.3
OWMV 72.1 74.5 66.7 71.1

消融实验 — 专家数量 \(K\) 的影响 (OWMV)

\(K\) \(T=1000\) 遗憾 \(T=5000\) 遗憾 \(T=10000\) 遗憾
3 87 195 312
5 134 289 421
10 198 387 487
20 276 512 634

关键发现

  • OWMV 在所有场景下遗憾最低,收敛最快
  • UCB-SE 在专家数量较少时特别高效(剪枝效果好)
  • LLM 聚合场景中,OWMV 超越单一最优专家 3-4%,接近 Oracle 上界
  • 遗憾增长速率与理论 \(O(\sqrt{T \log K})\) 吻合
  • 从第 ~1000 轮开始,OWMV 能稳定锁定最优专家委员会

亮点与洞察

  • 理论-应用双轴并行:既有严格的遗憾界证明,又有 LLM 聚合的实际应用
  • 算法简洁实用:OWMV 实现简单,附加计算开销极低
  • LLM 动态路由:为大模型推理时的专家选择提供理论基础

局限与展望

  • 当前假设专家质量随时间固定(stationary),非平稳场景需扩展
  • LLM 实验中"聚合"方式较简单(投票),token 级混合可能更有效
  • 委员会大小的选择缺乏理论指导
  • 与 MoE 路由(如 Switch Transformer)的关系值得进一步探讨

相关工作与启发

  • Hedge (Freund & Schapire 1997):加权多数投票经典算法
  • EXP3 (Auer et al. 2002):bandit 反馈下的在线学习
  • Switch Transformer (Fedus et al. 2022):稀疏 MoE 路由
  • 启发:可将 no-regret 理论用于 MoE 路由的在线优化

评分

  • 新颖性: ⭐⭐⭐⭐ 在线 bandit 视角下的 MoE 新颖
  • 实验充分度: ⭐⭐⭐⭐ 合成+LLM双轨验证
  • 写作质量: ⭐⭐⭐⭐ 算法陈述清晰
  • 价值: ⭐⭐⭐⭐ LLM 动态聚合有实际价值