Robustness of Mixtures of Experts to Feature Noise¶

会议: ICML 2026
arXiv: 2601.14792
代码: 待确认
领域: 学习理论 / MoE / 鲁棒性
关键词: Mixture-of-Experts, 特征噪声, 稀疏激活, 泛化误差, 等参数对比

一句话总结¶

在「总参数量对齐」的公平设定下，本文用一个分块对角的带噪线性回归模型证明：MoE 的稀疏专家激活相当于一个噪声滤波器，使它在特征噪声下比同等大小的稠密模型有更低的泛化误差、更强的扰动鲁棒性和更快的收敛速度。

研究背景与动机¶

领域现状：MoE（Mixtral 8×7B 等）已经证明「稀疏激活 + 大总参数」可以在远低于稠密模型推理成本的前提下追平甚至超过它（Mixtral 47B 总参、仅 13B 激活，却匹敌 Llama-2-70B）。这挑战了「性能只跟参数规模走」的传统 Scaling Law 直觉。

现有痛点：现有 MoE 理论（如 Chen et al. 2022）几乎都在解释 MoE 的「表达能力更强」，但它们默认每个专家都和稠密模型一样大，于是 MoE 的总参数量远超稠密对照——这等于偷偷给了 MoE 一个容量优势。这能解释「靠堆参数变强」，却无法隔离出 MoE 架构本身的好处，也解释不了为什么 MoE 在样本效率、鲁棒性上也更好。

核心矛盾：要回答「MoE 凭架构而非凭参数赢在哪」，必须把总参数量卡死成相等，再看在这个 iso-parameter 设定下稀疏激活到底带来什么。这个角度此前几乎没人正面做过。

本文目标：在严格等参数对比下，找出一个稠密模型没有、而 MoE 独有的机制，并把它在泛化误差、扰动鲁棒性、收敛速度、样本复杂度四个维度上量化。

切入角度：作者观察到现代 LLM 的 ReLU 类激活里普遍存在「被噪声掩盖的分块对角（block-diagonal）模块结构」——用 TEAL 这类激活剪枝把低幅值激活置零后，Llama-2-7B 第 0 层 MLP 的输入激活会显现出清晰的分块模式。这提示：真实激活 = 模块化信号 + 特征噪声。

核心 idea：把「MoE vs 稠密」抽象成「对一个分块对角设计矩阵做带噪线性回归时，分块求解 vs 整体求解」。MoE 的稀疏激活让每个专家只在自己那一块特征上估计，从而滤掉来自其它无关特征块的噪声干扰；稠密模型则被迫在全维度上估计，无关维度的噪声会全程串扰进来。

方法详解¶

这是一篇纯理论文，没有提出新模型，而是构造一个可解析的简化模型，把「稀疏激活带来鲁棒性」这件事一步步证明出来。下面按它的论证链条讲清。

整体框架¶

作者构造了一个分块对角线性回归作为 MoE 与稠密模型的统一抽象。真值参数 \(\beta^\star=[\beta_1^{\star T},\dots,\beta_k^{\star T}]^T\in\mathbb{R}^d\) 被切成 \(k\) 块，对应 \(k\) 个「专家」；设计矩阵 \(X\) 是块对角的，第 \(i\) 个专家只看自己的特征块 \(X_i\)，输出 \(Y=X\beta^\star\)。关键是：真实中我们只能观测到带噪版本 \(\bar X = X + E\)，其中 \(E_{ij}\sim\mathcal{N}(0,\sigma^2)\) 是特征噪声（feature noise），它既可理解为输入扰动，也可理解为稠密网络内部「尚未被剪枝揭示出模块结构」的激活干扰。

在这个统一框架里对比两种估计器：稠密估计器用整张带噪矩阵 \(\bar X\) 做最小范数最小二乘 \(\hat\beta=(\bar X^T\bar X)^+\bar X^T Y\)（一个模型同时学所有专家的本事）；稀疏（MoE-like）估计器假设路由近乎完美，于是每个专家只用自己那块 \(\bar X_i\)、\(Y_i\) 独立估计 \(\hat\beta_i=(\bar X_i^T\bar X_i)^+\bar X_i^T Y_i\)。两者总参数量相同，唯一差别就是「整块求解 vs 分块求解」。直接分析最小范数估计器在噪声下很难，作者先分析它们的贝叶斯最优对应物（拿到数据分布、无穷样本下的性能上限），再单独证明收敛速度，把分析落回有限样本。

关键设计¶

1. 等参数对比 + 分块对角带噪模型：把「架构优势」从「参数优势」里剥出来

这是整篇论文的方法论根基，也是它和此前 MoE 理论最大的区别。以往理论让每个专家都和稠密网络等大，MoE 自然总参数更多、赢得理所当然；本文强行让 MoE 的总参数量 = 稠密模型的总参数量（实验里 MoE 用 4 路由专家 + 1 共享专家、每个 FFN 中间维 1024，稠密 FFN 中间维取 \(5\times1024=5120\) 精确对齐 FFN 总参）。在这个设定下，稀疏估计器哪怕赢，也只能归因于「分块结构 + 稀疏激活」本身。带噪观测 \(\bar X = X+E\) 则是把「内部激活有噪声」这件经验事实形式化的载体——无噪时稠密模型理论上能完美学到块结构、与 MoE 等价，正是噪声把两者拉开了差距。

2. 稀疏激活 = 噪声滤波器：在等参数下证明更低的泛化误差

这是论文的核心结论。对贝叶斯最优估计器（式 3），稠密与稀疏的泛化误差（Theorem 4.2）分别为

\[\mathcal{R}(\beta^{Bayes}_{Sparse})=\sum_{i=1}^k p_i\sigma^2\,\beta_i^{\star T}\Sigma_i(\Sigma_i+\sigma^2 I)^{-1}\beta_i^{\star},\]

\[\mathcal{R}(\beta^{Bayes}_{Dense})=\sum_{i=1}^k p_i\sigma^2\,\beta_i^{\star T}\Sigma_i(p_i\Sigma_i+\sigma^2 I)^{-1}\beta_i^{\star}.\]

两式唯一差别在括号里的 \(\Sigma_i\) 前面是否乘了路由概率 \(p_i\le 1\)。因为 \(0<p_i\le 1\) 且 \(\Sigma_i\) 半正定，有 \(p_i\Sigma_i\preceq\Sigma_i\)，于是 \(p_i\Sigma_i+\sigma^2 I\preceq\Sigma_i+\sigma^2 I\)；对正定矩阵 \(A\preceq B\) 有 \(B^{-1}\preceq A^{-1}\)，故 \((\Sigma_i+\sigma^2 I)^{-1}\preceq(p_i\Sigma_i+\sigma^2 I)^{-1}\)。逐项比较即得 \(\mathcal{R}(\beta^{Bayes}_{Sparse})\le\mathcal{R}(\beta^{Bayes}_{Dense})\)。直观含义：稠密模型把信号项 \(\Sigma_i\) 按概率 \(p_i\) 稀释，相当于在低信噪比下硬抗噪声；稀疏专家只在自己那块上估计、信号不被稀释，等效于把无关块的噪声滤掉了。这就是「稀疏激活 = 噪声滤波器」的精确数学表述。

3. 路由退化为聚类 + 扰动鲁棒性的二分情形：把结论钉在可实现的前提上

读者会质疑：上面假设「路由近乎完美」是不是太理想？作者用 Theorem 4.1 回应——在分块（MoEfication）结构下，训练路由器不再是和专家联合优化的难题，而退化成一个良定义的监督分类任务：聚类已经给了每个样本「该进哪个专家」的标签。一个简单的 QDA 路由器只需 \(n\ge\mathcal{O}(\text{poly}(d,\log(1/\delta)))\) 样本就能把超额风险压到 \(\epsilon\) 以下，几何上数据本就分离良好。再借 Liao & Kyrillidis (2026) 的结论说明：联合训练中专家会先于路由收敛、并「引导」路由对齐，所以单看专家结构优势依然成立。

在此基础上，作者把扰动鲁棒性拆成两种情形（Theorem 4.3 / 4.4）。路由不出错时（扰动方差 \(\sigma_o^2\)），只要每个专家特征信噪比够高（\(\lambda_{\min}(\Sigma_i)>4\sigma^2\)）且 \(\sigma_o^2>\sigma^2\)，稀疏估计器的误差仍 \(\le\) 稠密，鲁棒性优势保持。扰动大到导致误路由时（Theorem 4.4，把本属专家 \(i\) 的输入被 \(\eta x_j\) 拽去专家 \(j\)），结论反转：高度专门化的专家一旦被路由到错的那个，反而可能比稠密模型更糟。作者诚实地点出这是一个 trade-off——专家在路由正确时占优、路由严重失败时会吃亏。

4. 更快收敛 + 更优样本复杂度：从优化与有限样本两端补全优势

除了静态的泛化误差，作者还证明梯度下降下稀疏估计器的收敛更快（Theorem 4.7）。在「\(X_i\) 固定、维样比 \(c=d/n>1\)、奇异值满足 \(\lambda_{ij}>\sqrt{c}\sigma^2\)」的假设下，给出每步误差缩减因子 \(\rho_{Sparse,i}\) 与 \(\rho_{Dense}\) 的闭式，并证明 \(\rho_{Sparse,i}\le\rho_{Dense}\)（至多一个稀疏专家与稠密同速、其余都更快）。直觉是把大问题拆成条件数更好的子问题。样本复杂度方面，作者以假设形式给出：稀疏估计器在相同样本量下超额风险更低。有意思的是合成数据上拟合发现稠密与稀疏的超额风险都以约 \(O(n^{-2})\) 衰减，量级相同——这正是为什么完整理论推导困难（无法靠收敛阶区分）——但稀疏估计器的常数因子小得多，所以同样快速地达到低风险。作者从偏差-方差角度给直觉：稀疏专家只在 \(s\) 维子空间里被噪声影响（\(s<d\)），稠密模型在全 \(d\) 维都受噪声波及，故偏差和方差都更大。

损失函数 / 训练策略¶

本文不训练新模型；验证性实验里 MoE 与稠密对照都用标准从头预训练（MiniMind 架构、ViT-L vs V-MoE）或线性探针拟合，不涉及新的训练目标。

实验关键数据¶

实验目的不是刷 SOTA，而是逐条验证理论假设在真实数据上是否成立：① 真实 LLM 激活确有分块结构（图 1，TEAL 剪枝后 Llama-2-7B 显现块对角）；② MoE 探针在特征噪声下更鲁棒；③ 即便块结构只是近似、噪声滤波优势仍稳定保持；④ 优势能延伸到端到端训练的大模型。

主实验¶

下表为 T5-small 激活上、高强度高斯噪声（\(\sigma=2.0\)）下各方法的性能下降百分比（越低越好）。把 Ridge / Elastic Net 也作为基线很关键——它能区分鲁棒性增益究竟来自「模块化稀疏」还是泛泛的「正则化」。

数据集	Lasso	Ridge	Elastic Net	MoE
SST-2	10.78	12.27	10.55	8.60
CoLA	10.25	12.39	12.19	7.67
MNLI	11.61	10.45	9.31	7.98
AG News	5.19	5.98	3.92	7.75

MoE 在多数任务（尤其高噪声）下掉点最小，证明是「结构化稀疏」而非「正则化」在起鲁棒性作用；AG News 上稠密正则方法更优，说明优势并非无条件成立。

消融实验¶

下表是对「块对角结构只是近似」这一假设的敏感性分析：逐步加入跨块重叠 \(\alpha\)（在所有维度叠加幅度为 \(\alpha\) 的干扰信号），把理想模块结构慢慢揉成稠密结构，用 oracle 路由隔离结构效应。

跨块重叠 \(\alpha\)	稠密 Acc.	稀疏 Acc.	差距 (稀疏−稠密)
0.00	0.6059	0.7025	+0.0966
0.10	0.6054	0.7036	+0.0982
0.30	0.5987	0.6991	+0.1004
0.50	0.5921	0.6894	+0.0973
1.00	0.5659	0.6571	+0.0912

即使重叠拉满到 \(\alpha=1.0\)，稀疏优势也没有崩塌、仍有约 +0.09 的准确率差距，说明 Theorem 4.2 的机制对「生成式失配」是渐变退化而非突然失效——这正对应「现实 LLM 介于理想稠密与理想稀疏之间」的判断。

关键发现¶

优势的根源是结构化稀疏，不是正则化：这是引入 Ridge/Elastic Net 对照的最大收获，否则很容易把鲁棒性误归因于正则。
块结构不必完美：跨块重叠 \(\alpha\) 从 0 到 1，稀疏优势稳定保持，证明机制对真实（近似模块化）激活有效。
优势随噪声强度放大：ImageNet-C 上 Sparse V-MoE-B/16 仅用 ViT-L/16 约 37% 激活参数（114M vs 307M），在高斯噪声严重度越高时鲁棒增益越大，把结论从合成数据/线性探针推到了端到端大模型。
误路由是边界：扰动大到改变路由时优势可反转，是该机制成立的明确前提。

亮点与洞察¶

把「等参数」做成硬约束：用总参数量精确对齐的设定，干净地把 MoE 的架构优势从参数优势里剥离出来，是这篇论文最值得借鉴的方法论。
一个 \(p_i\) 讲清整件事：泛化误差两式只差「信号项是否乘路由概率 \(p_i\)」，把「稀疏激活=噪声滤波器」压缩成一行矩阵不等式，极其干净。
诚实标注成立边界：没有把 MoE 吹成无条件更好，而是明确给出误路由会反转、AG News 上稠密更优等反例，可信度高。
可迁移的视角：把 MoE 看成「一组被路由的线性探针」，为 MoEfication、LLaMA-MoE 这类「稠密转稀疏」技术提供了理论依据，也启发用激活稀疏性指导专家划分。

局限与展望¶

线性 + 高斯假设：核心定理建立在线性回归、块对角结构、高斯特征噪声上，虽有非线性两层 MoE 的补充实验，但与真实 Transformer 仍有距离。
样本复杂度只是假设：稀疏估计器样本效率更优目前是 hypothesis + 经验拟合，因稠密/稀疏同为 \(O(n^{-2})\) 阶、无法靠收敛阶严格区分，缺完整证明。⚠️ 以原文为准。
完美路由是简化：主结论依赖「路由近乎完美」，虽用 QDA 可实现性与联合训练「专家引导路由」做了支撑，但现实路由器的误差如何精确传导进泛化界仍未闭合。
改进方向：把分析推广到非高斯噪声、专家容量不均、以及路由误差显式进入误差界的情形。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次在严格等参数下识别并量化「稀疏激活=特征噪声滤波器」机制
实验充分度: ⭐⭐⭐⭐ 合成/线性探针/端到端三层验证，但样本复杂度只有经验支撑
写作质量: ⭐⭐⭐⭐ 论证链清晰、边界诚实，定理较密集需耐心
价值: ⭐⭐⭐⭐⭐ 为 MoE 与稠密转稀疏提供了可解释的理论根基