Online Mixture of Experts: No-Regret Learning for Optimal Collective Decision-Making¶

会议: NeurIPS 2025
arXiv: 2510.21788
代码: 无
领域: 在线学习 / 集成方法
关键词: online learning, mixture of experts, bandit, no-regret, LLM ensemble

一句话总结¶

提出在线专家混合（OMoE）框架，包含 UCB 逐步消除和在线加权多数投票两种算法，理论上保证无遗憾（no-regret），并应用于 LLM 专家的在线动态聚合。

领域现状：专家混合（Mixture of Experts, MoE）在离线场景已有广泛应用，但在线场景下如何动态聚合多个专家的输出以实现最优集体决策缺乏系统研究。

现有痛点：传统 MoE 假设固定的门控/路由机制，无法适应流式数据下专家质量的动态变化；多臂赌博机框架假设独立 arm，未利用专家间的组合结构。

核心矛盾：探索（尝试新专家组合）与利用（使用已知最优组合）的经典平衡问题，在"如何聚合"维度上比标准 bandit 更复杂。

切入角度：将专家聚合建模为 contextual bandit 问题，利用 UCB 和加权投票的有效结合。

核心 idea：将 MoE 转化为在线 bandit 学习问题，构建有理论保证的无遗憾专家聚合算法。

给定 \(K\) 个专家和上下文 \(x_t\)，每轮选择一个专家子集（委员会）及聚合权重，观察聚合输出的准确率作为反馈。目标：最小化累积遗憾 \(R_T = \sum_{t=1}^T [r^* - r_t]\)。

算法一：UCB-Successive Elimination (UCB-SE)
- 功能：通过 UCB 置信上界逐步淘汰次优的专家组合
- 核心思路：为每个可能的专家委员会维护 UCB 估计 \(\hat{\mu}_k + \sqrt{\frac{2\ln t}{n_k}}\)
- 消除规则：当某委员会的 UCB 低于当前最优委员会的 LCB 时淘汰
- 遗憾界：\(R_T = O(\sqrt{KT \log T})\)
- 优势：高效剪枝，减少探索浪费
算法二：Online Weighted Majority Voting (OWMV)
- 功能：根据各专家历史表现动态分配投票权重
- 更新规则：\(w_k^{(t+1)} = w_k^{(t)} \cdot \beta^{\mathbb{1}[\text{expert } k \text{ incorrect}]}\)
- 衰减因子 \(\beta \in (0,1)\) 惩罚错误专家
- 遗憾界：\(R_T = O(\sqrt{T \log K})\)
- 优势：不需要枚举所有委员会组合
LLM 应用：在线专家 LLM 微调
- 场景：\(K\) 个专业 LLM（代码、推理、创意写作...）动态聚合
- 每次 query 后更新专家权重/选择最优委员会
- 聚合方式：加权投票 + top-k 选择

定理1 (UCB-SE)：对于 \(K\) 个专家和 \(T\) 轮交互，\(R_T \leq O(\sum_{k \neq k^*} \frac{\log T}{\Delta_k})\)，其中 \(\Delta_k\) 为次优间隔
定理2 (OWMV)：\(R_T \leq O(\sqrt{T \log K})\)，与 Hedge/MW 算法一致但适用于 bandit 反馈

方法	MMLU↑	GSM8K↑	HumanEval↑	平均↑
单一最优专家	68.2	71.5	62.8	67.5
固定均匀权重	65.1	68.3	60.2	64.5
Oracle (事后最优)	73.8	76.2	68.1	72.7
UCB-SE	71.2	73.8	65.9	70.3
OWMV	72.1	74.5	66.7	71.1

\(K\)	\(T=1000\) 遗憾	\(T=5000\) 遗憾	\(T=10000\) 遗憾
3	87	195	312
5	134	289	421
10	198	387	487
20	276	512	634