Soft Modality-Guided Expert Specialization in MoE-VLMs¶

会议: CVPR 2026
论文: CVF Open Access
代码: 无
领域: 多模态VLM
关键词: MoE, 视觉-语言模型, 专家路由, 模态特化, 专家并行

一句话总结¶

针对 MoE-VLM 里"视觉/文本 token 该如何引导专家路由"这个被忽视的问题，本文提出 SMoES：用随层变化的"软模态分数"代替硬模态标签、把专家分成若干 bin、再用互信息正则把 bin 推向模态特化，从而在四个 MoE 骨干、16 个 benchmark 上同时拿到精度提升（多模态 +0.9%、纯语言 +4.2%）和部署效率提升（专家并行通信开销降 56.1%、吞吐 +12.3%）。

研究背景与动机¶

领域现状：MoE（Mixture-of-Experts）已经成为大型视觉-语言模型（VLM）的主流骨干——DeepSeek-VL2、Kimi-VL、GLM-4.5V、InternVL-3.5 都靠"条件计算"在几乎不增加每 token 算量的情况下把模型容量做大。MoE-VLM 路由 token 主要有两种范式：硬路由（把专家预先绑死到某个模态）和软路由（任何专家都能处理任何 token，是当前主流）。

现有痛点：硬路由特化很彻底，但边界僵硬，跨模态特征和"表征随层逐渐融合"的自然现象都没法适应；软路由灵活，但常常靠启发式先验或一个跟实际模态分布脱钩的辅助 loss，结果要么"过度混合"（专家学不出分工）、要么"特化不足"。混合路由（部分专家硬绑模态、部分共享）则依赖人工划分、且对所有层一刀切，跟特征逐层演化对不上。

核心矛盾：作者在 LLaVA-1.5 和一个 DeepSeekMoE-VLM 上分析模态融合，发现一个被现有路由忽略的事实——模态融合是多尺度异质的。宏观上，不同模型、不同层的视觉-文本 JS 散度轨迹差别很大；微观上，即便同一层同一模态内部，有的 token 仍是"纯模态"、有的已经"跨模态"。因此无论"强制硬分离"还是"统一混合"，都和模态真实的交互方式错位。更要命的是，视觉 token 数量多但信息密度低（空间冗余）、文本 token 少但语义集中，这种不对称在专家并行（EP）部署下还会让 token 散落到各设备，把跨设备通信开销撑大。

本文目标：① 让路由跟随"逐层演化的模态结构"而不是固定的模态身份；② 让专家分工的同时还能对齐 EP 部署粒度，把通信打下来。

切入角度：既然模态身份是连续、随层平滑过渡的，那就别再用 0/1 硬标签，而用一个 \([0,1]\) 的软模态分数去刻画每个 token 当前的融合状态，再用这个分数去引导专家特化。

核心 idea：用"软模态分数 + 专家分桶 + 桶间互信息正则"三件套，把模态特化从"人工硬指定"变成"数据驱动、随深度自适应学习"，并让特化结果天然对齐设备摆放，一举打通效果和效率。

方法详解¶

整体框架¶

SMoES 不改 MoE 的基本结构（vision encoder → projector → MoE-LLM），只在路由这一环动手，由三个互相咬合的部件组成。输入是每层的 token 特征 \(x_{ij}\in\mathbb{R}^D\)（\(i\) 是样本、\(j\) 是 token），先由 soft modality scores 把每个 token 当前的模态归属算成一个软分数 \(M^{(l)}_{ij,m}\in[0,1]\)（\(m\in\{\text{text},\text{vision}\}\)，两者和为 1）；专家则被 expert binning 分成若干 bin（桶），bin 是特化和设备摆放的基本单位；最后 inter-bin MI 正则最大化"模态分数 \(M\)"与"被选中 bin \(B\)"之间的互信息，逼着不同 bin 各自专攻不同模态。三者合到一起：软分数提供"token 此刻偏哪个模态"的连续信号，MI 把这个信号转成"bin 级别的模态偏好"，bin 又正好是 EP 里同设备共置的粒度——于是特化和部署效率被同一套机制串起来。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["每层 token 特征<br/>+ 硬模态 ID(0/1)"] --> B["软模态分数<br/>注意力累积 / 高斯统计<br/>M∈[0,1] 随层演化"]
    B --> C["专家分桶<br/>按文本偏好排序<br/>切成 Nbins 个桶"]
    C --> D["桶间互信息正则<br/>max I(M;B)<br/>逼桶各专一模态"]
    D -->|桶=设备共置粒度| E["EP 部署<br/>同偏好专家同设备<br/>通信↓ 吞吐↑"]

每层 MoE 路由的基础打底跟标准 MoE 一致：router 算 gating 分数 \(g_{ij,e}=\mathrm{softmax}(W_{\text{gate}}x_{ij})_e\)，top-\(k\) 选最高的 \(k\) 个专家，并配一个负载均衡 loss \(\mathcal{L}_{\text{bal}}=\sum_l N_e\sum_{e=1}^{N_e} f_e P_e\)（\(f_e\) 是路由到专家 \(e\) 的 token 比例、\(P_e\) 是平均 gating 分数）防止路由坍缩。SMoES 的三个设计都叠在这个基础之上。

关键设计¶

1. 软模态分数：用两个互补估计器把"硬模态标签"软化成随层演化的连续信号

硬模态标签（输入处给的 0/1）描述不了"token 表征随层逐渐融合"这件事，所以这里给每个 token、每层、每个模态算一个软分数 \(M^{(l)}_{ij,m}\in[0,1]\)。作者给了两个互补的估计器。

注意力累积分数盯的是局部、序列内的跨 token 交互——一个 token 注意别人时，会按注意力权重吸收别人的模态特性。第 0 层用硬标签初始化 \(M^{\text{attn},(0)}_{ij,m}=\mathbf{1}\{m=m(x_{ij})\}\)，之后两步更新：先按注意力权重聚合邻居分数 \(\tilde{M}^{\text{attn},(l)}_{ij,m}=\sum_{j'}\mathrm{Attn}^{(l)}_{j,j'}\cdot M^{\text{attn},(l)}_{ij',m}\)（\(\mathrm{Attn}^{(l)}\) 是该层跨头平均的注意力矩阵），再用特征范数加权把"聚合分"和"原分"残差式融合：

\[M^{\text{attn},(l+1)}_{ij,m}=\frac{\|x^{(l)}_{\text{attn},ij}\|\cdot\tilde{M}^{\text{attn},(l)}_{ij,m}+\|x^{(l)}_{ij}\|\cdot M^{\text{attn},(l)}_{ij,m}}{\|x^{(l)}_{\text{attn},ij}\|+\|x^{(l)}_{ij}\|}\]

这一步刻意对齐了 Transformer 的残差结构（\(x^{(l+1)}=x^{(l)}+x^{(l)}_{\text{attn}}\)），用特征范数当注意力支路和残差支路的贡献权重。

高斯统计分数则是全局、分布式的视角：不同模态 token 在嵌入空间里分布不同，那就为每层每模态维护一个对角协方差高斯 \((\mu_m,\sigma^2_m)\)，用 Welford 算法的 EMA 变体在线更新统计量（衰减因子 \(\beta\)）。对每个 token 算它在各模态分布下的对数似然 \(\mathrm{LL}_{ij,m}=-\tfrac12\sum_d\big(\log\sigma^2_{m,d}+\tfrac{(x_{ij,d}-\mu_{m,d})^2}{\sigma^2_{m,d}}\big)\)，再做温度缩放 softmax 得软分数 \(M^{\text{gauss}}_{ij,m}=\frac{\exp(\mathrm{LL}_{ij,m}/\tau)}{\sum_{m'}\exp(\mathrm{LL}_{ij,m'}/\tau)}\)。这个估计器不依赖第 0 层初始化，能"瞬时"判断模态归属。两者一个偏文本、一个在高融合区偏视觉，互为补充。

2. 专家分桶：把特化的粒度对齐到 EP 设备摆放单位

EP 部署下，模态无关的路由会把 token 散到各设备、放大通信。这里的做法是把每层 \(N_e\) 个专家切成 \(N_{\text{bins}}\) 个 bin（每 bin \(N_B=N_e/N_{\text{bins}}\) 个专家），\(N_{\text{bins}}\) 可以直接对齐设备数——这样"模态偏好相近的专家"能被放到同一设备，既减通信又保持负载均衡。关键在于 bin 不是按专家原始顺序死分，而是 momentum-adaptive binning：用 EMA 跟踪每个专家从各模态接到的 token 量 \(\bar{C}_{m,e,t}=\beta\bar{C}_{m,e,t-1}+(1-\beta)C_{m,e}\)，算出每个专家的"文本偏好分" \(f_{\text{spec}}(e)=\frac{\bar{C}_{\text{text},e}}{\bar{C}_{\text{text},e}+\bar{C}_{\text{vision},e}}\)，再按 \(f_{\text{spec}}\) 排序、切成连续的 \(N_{\text{bins}}\) 个 bin，让偏好相近的专家自然聚到一起。消融里 adaptive 分桶稳定优于固定分桶，证明"按模态偏好动态成桶"确实关键。

3. 桶间互信息正则：把"软模态信号"真正转成"bin 级模态特化"

光有软分数和 bin 还不够，得有目标函数把 bin 推向特化。直觉是：若模态 \(M\) 和被选 bin \(B\) 之间互信息高，就意味着"知道 token 进了哪个 bin，就能很大程度推断它的模态"——这正是特化的定义。所以最大化 \(I(M;B)\)。具体先对每个样本 \(i\)、模态 \(m\)、bin \(B_k\) 算平均 gating 分 \(\bar{S}_{i,m,B_k}=\frac{\sum_{e\in B_k}\sum_j M_{ij,m}g_{ij,e}}{N_B\sum_j M_{ij,m}}\)（软模态分数加权的 gating），归一化成联合概率 \(P_i(m,B_k)\)，再算逐样本互信息 \(I_i(M;B)=\sum_m\sum_k P_i(m,B_k)\log\frac{P_i(m,B_k)}{P_i(m)P_i(B_k)}\)，loss 取其负的全层平均 \(\mathcal{L}_{\text{MI}}=-\sum_l\frac{1}{N_{\text{batch}}}\sum_i I_i(M;B)\)。注意 MI 是在 bin 级而非专家级算的，正好匹配 EP 设备摆放粒度。这跟此前 SMAR 用 KL 散度把路由分布拉向"模态特定模式"形成对照——KL 正则和负载均衡约束打架（SMAR 最终模型甚至关掉了负载均衡），而 MI 目标能在维持负载均衡的同时驱动特化。

损失函数 / 训练策略¶

EP 下需要每设备内部负载均衡，所以负载均衡也改成 bin 级 \(\mathcal{L}_{\text{bal}}=\sum_l\sum_{k=1}^{N_{\text{bins}}}N_B\sum_{e\in B_k}f_e P_e\)。总目标是任务 loss + bin 级均衡 + 桶间互信息：

\[\mathcal{L}=\mathcal{L}_{\text{task}}+\alpha_{\text{bal}}\mathcal{L}_{\text{bal}}+\alpha_{\text{MI}}\mathcal{L}_{\text{MI}}\]

其中 \(\mathcal{L}_{\text{task}}\) 是语言建模 loss。实现细节：8×A800、\(N_{\text{bins}}=8\)，高斯软分数温度 \(\tau=0.5D\)，EMA 衰减 \(\beta=0.99\)（高斯更新和动量分桶共用），\(\alpha_{\text{bal}}=0.001\)、\(\alpha_{\text{MI}}=0.0001\)。训练沿用 LLaVA 两阶段协议（Pretrain-558K + Instruct-665K）。

实验关键数据¶

主实验¶

在四个 MoE 骨干（DeepSeekMoE、OLMoE、Moonlight-MoE、Qwen3-MoE）、16 个 benchmark（10 多模态 + 6 纯语言）上对比，相对 soft routing 基线平均提升 2.2%（多模态 +0.9%、纯语言 +4.2%）。下表取 DeepSeekMoE 上的 Overall 相对增益（以 No Specialization 为 100% 基准）：

方法	MSI	多模态	纯语言	Overall
No Specialization（soft 基线）	.177	100%	100%	100%
Hard Routing (t48-v16)	1.0	-1.8%	-14.5%	-6.6%
MoIIE（混合, t32-v16-s16）	.800	-1.9%	-9.6%	-4.8%
SMAR（KL, dKL-[0.5,1.0]）	.543	+0.6%	-11.3%	-3.9%
SMoES attention-soft	.487	+1.8%	+6.2%	+3.5%
SMoES gaussian-soft	.440	+1.3%	+4.2%	+2.4%

关键对照：硬路由 MSI 近乎 1（特化彻底）却严重掉点（纯语言最多 -26.2%），印证"刚性特化不能盲目硬上"；SMAR 虽改善 MSI，但 KL 与负载均衡不兼容、纯语言仍大幅掉点。只有 SMoES 在拉高特化的同时还涨点。

消融实验¶

配置	MSI	多模态	纯语言	Overall	说明
No Specialization	.177	100%	100%	100%	基线
hard-score + MI	.904	-0.8%	+0.5%	-0.3%	硬分数即便配 MI 也不涨多模态
w/ binning（仅分桶）	.415	+0.9%	+3.0%	+1.7%	分桶本身就提供特化结构
w/ inter-bin KL	.724	-1.5%	-8.5%	-4.1%	KL 正则反而掉点
MI + attention-soft	.487	+1.8%	+6.2%	+3.5%	完整模型（最佳）
MI + gaussian-soft	.440	+1.3%	+4.2%	+2.4%	完整模型
固定分桶 + attention-soft	.450	+2.0%	+0.2%	+1.3%	adaptive 分桶纯语言显著更好

关键发现¶

软分数 > 硬分数：hard-score MSI 高达 .904 却几乎不涨多模态，attention-soft / gaussian-soft 才真正带来增益——说明特化要"软"、要随层演化才有用。
MI 目标是涨点关键：仅分桶 +1.7%，加桶间 MI 升到 +3.5%（attention）；换成 KL 正则反而 -4.1%，正面验证 MI 比 KL 更适配"多个小专家 + 负载均衡"的场景。
adaptive 分桶 > 固定分桶：固定分桶 attention-soft 纯语言只有 +0.2%，adaptive 升到 +6.2%；bin 数量需折中——太多 bin 部署不均、太少 bin 特化不足。
效率：在两张 Orin GPU（10Gb 以太网，模拟车端 EP）上，跨 GPU EP 传输比大幅下降（如 MMMU prefill V+T 从 98.0% 降到 31.1%、↓68.3%），TTFT/TPOT 在 batch=1 时降约 10%、batch=8 prefill 最高 ↓22.0%。摘要汇报整体 EP 通信开销降 56.1%、吞吐 +12.3%。

亮点与洞察¶

把"特化"和"部署效率"用同一套机制打通：bin 既是特化单位又是 EP 设备共置粒度，MI 一拉，模态偏好相近的专家自动聚到同设备——这是本文最巧的地方，效果和效率不再是两条独立优化线。
MI vs KL 的对照很有说服力：作者直接给出"换成 KL 就掉点"的消融，点明 KL 正则与负载均衡天然冲突，而 MI 能在保均衡的前提下驱动特化，这个 trick 可迁移到其它需要"特化但别牺牲均衡"的 MoE 场景。
软模态分数的两个估计器互补：注意力累积（局部、序列内）+ 高斯统计（全局、分布式），一个偏文本一个偏视觉，给"模态身份是连续量"提供了两种可落地的量化方式。
MSI 这个指标本身有复用价值：用"专家级模态归属概率偏离均匀分布的程度"量化特化强度，可作为分析任何 MoE-VLM 路由特化的通用探针。

局限与展望¶

主表只完整给了 DeepSeekMoE 和 OLMoE，Moonlight-MoE / Qwen3-MoE 结果放在补充材料，正文不便直接核对。⚠️ 具体数值以原文/补充为准。
软模态分数目前只区分 vision/text 二元模态，扩展到音频、视频等更多模态时，分桶和 MI 是否还稳定有效未验证。
效率实验聚焦车端两卡 Orin 的边缘场景，更大规模多卡集群下通信收益是否同比例保持，论文未充分展开。
引入了 \(\tau\)、\(\beta\)、\(\alpha_{\text{bal}}\)、\(\alpha_{\text{MI}}\)、\(N_{\text{bins}}\) 等多个超参，bin 数量已知敏感，实际迁移到新骨干时调参成本可能不低。

评分¶

新颖性: ⭐⭐⭐⭐ 软模态分数 + bin 级 MI 正则把模态特化与 EP 部署粒度统一，切入点新颖且实用。
实验充分度: ⭐⭐⭐⭐ 四骨干 16 benchmark + 多组消融 + 真实边缘 EP 效率测试，较全面；部分骨干结果在补充材料。
写作质量: ⭐⭐⭐⭐ 动机分析（多尺度异质融合）有图有据，方法三件套层次清晰。
价值: ⭐⭐⭐⭐ 同时改善 MoE-VLM 效果与部署效率，对工业级 EP 部署有直接参考意义。