SegMoTE: Token-Level Mixture of Experts for Medical Image Segmentation¶
会议: CVPR 2026
论文: CVF Open Access
代码: 无
领域: 医学图像
关键词: 医学图像分割, SAM 适配, token 级专家混合, 模态自适应, 低标注成本
一句话总结¶
SegMoTE 冻结整个 SAM、只在掩码解码器里塞进一组可学习"专家 token"和一个 token 级 MoE 路由(MoTE),按成像模态动态选专家,再配一个渐进式提示 tokenization(PPT)实现免交互分割;仅训练 17M 参数、用不到现有数据集 1% 规模的 MedSeg-HQ(约 0.15M mask),就在多模态医学分割上达到 SOTA。
研究背景与动机¶
领域现状:把 SAM 这类自然图像基础模型迁到医学分割是当前主流,做法是 MedSAM 全参微调、IMIS 微调解码器层、或各种参数高效微调(PEFT),再堆超大数据集(SAM-Med2D 4.6M 图、IMed-361M)。
现有痛点:两个瓶颈。其一,缺模态/任务自适应——CT、MRI、X 光异质性大,把多模态数据不加区分地灌进 SAM,原始输出 token 在训练中逐渐"同质化",模态间的判别力被磨平,OOD 泛化差。其二,无差别堆数据——为追性能而扩数据集会引入大量监督噪声和冗余,表征被拽向新分布、损害 SAM 原有能力(distribution shift / 负迁移),进步沦为"比谁数据多"而非表征设计。
核心矛盾:想要模态特异的判别表征,却用统一的输出 token 去硬扛所有模态;想要泛化,却靠扩数据反而破坏了预训练能力。本质是"用一套表征服务异质模态"和"保住 SAM 原能力"之间的冲突。
本文目标:在几乎不动 SAM、极低标注成本的前提下,让模型对不同模态/解剖任务做自适应处理,并尽量减少对人工提示的依赖。
切入角度:MoE 的"按输入选专家"天然适配"按模态选表征"——既能模态特异,又只加少量参数、保住冻结主干。再把稀疏前景类任务的"提示"也学出来,就能进一步免交互。
核心 idea:用 token 级 MoE(MoTE)替代统一输出 token,按模态动态激活专家 token;用渐进式提示 tokenization(PPT)把"人给提示"换成"模型自己学提示"。
方法详解¶
整体框架¶
SegMoTE 在冻结的 SAM 上扩出 token 级专家路由。冻结的 SAM 编码器先抽取模态无关的图像 embedding;对前景-背景清晰的少类数据集(如皮肤镜 ISIC、胸片 SZ-CXR),PPT 模块把潜在特征图转成语义对齐的"特征 token"(多类任务不用 PPT)。这些 token 与一组可学习专家 token、原始 prompt token 拼接,送进掩码解码器的 decoder layer 1/2:每层先做自注意力、再做 token↔image 双向注意力与图像 embedding 交互,然后把专家 token 交给 MoTE 做动态专家选择与 token 更新;更新后的专家 token 回灌解码器,最终只用被选中的强化 token 与图像特征逐点相乘出分割掩码。训练时 SAM 主干全冻,只更新 MoTE(10M)和 PPT(7M)共 17M 参数,损失由分割 Dice 和路由负载均衡损失加权而成。
%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
A["输入:医学图像 X<br/>(CT/MRI/X光…)"] --> B["冻结 SAM 编码器<br/>模态无关 image embedding"]
B --> C["渐进式提示 tokenization PPT<br/>(仅少类任务)学出特征 token"]
C --> D["专家 token + prompt token 拼接<br/>送入冻结掩码解码器"]
D --> E["Token 级专家混合 MoTE<br/>noisy top-k 路由 + 置信度加权选专家"]
E -->|更新后专家 token 回灌解码器| F["选中专家 token × 图像特征"]
F --> G["输出:分割掩码"]
关键设计¶
1. 专家 token:给每个模态一支专属 token,替代 SAM 同质化的统一输出 token
痛点是 SAM 原始 mask 预测只靠少数 output token、面对异质医学模态适配能力有限,训练中还会同质化。SegMoTE 引入一组 \([N\times 256]\) 的可学习专家 token(\(N\) 取决于模态数/任务复杂度),与原始 SAM output token \([4\times256]\) 和 prompt token 沿序列维拼接送进解码器。专家 token 先在每个解码层做自注意力,再经双向注意力(token→image 吸收视觉特征、image→token)更新:token→image 阶段它整合图像视觉特征、prompt token 的几何语义、其他 token 的掩码表征,然后交给 MoTE 动态更新权重。最终只用被选中的那支专家 token做预测,从而在同一 batch 内对多模态图像做差异化处理——既保留 SAM 统一输出建模能力,又获得模态自适应。
2. MoTE 混合 token 专家:noisy top-k 路由 + 置信度加权,按模态动态选专家
光有专家 token 还不够,关键是推理时为每张图选对那支 token。MoTE 在 token 级做动态专家选择与融合。给定专家 token \(x\in\mathbb{R}^{B\times T\times D}\),路由先算 logits \(L=XW_g\in\mathbb{R}^{B\times T\times E}\)(\(E\) 为专家数);训练时用 noisy top-k 门控注入噪声防止过早收敛到单一专家:\(\tilde{L}=L+(\text{softplus}(XW_n)+\varepsilon)\odot Z,\ Z\sim\mathcal{N}(0,1)\)。对每个 token 取 top-k 专家分数 \(s_{b,t}\),用其最大 logit 作 token 置信度 \(c_{b,t}=\max_j s_{b,t}[j]\)、对应索引 \(\text{idx}_{b,t}=\arg\max_j s_{b,t}[j]\),再 softmax 得 token 权重 \(G(\cdot)_{b,t}\) 作可靠性度量去显式加权表征 \(\tilde{z}_{b,t}=G(\cdot)_{b,t}\cdot h^{(\text{idx}_{b,t})}_{b,t}\),放大高置信 token、抑制低置信 token。最终预测只走被强化的路由 token,由确定性路由(\(\text{idx}\))和置信加权路由(\(G\))共同驱动专家选择与信息聚焦。消融显示不同模态确实学到偏好(CHAOS-T1 多激活 token 0、ISIC 偏 token 2、SZ-CXR 偏 token 1、AMOS-CT 偏 token 3),印证专家学到了判别性的模态-任务表征。
3. 负载均衡损失:用平方变异系数约束,防专家"过载/闲置"
token 级路由容易让少数专家被挤爆、其余长期闲置,损害训练稳定与泛化。SegMoTE 定义专家 \(e\) 的重要度 \(\text{imp}_e=\sum_{b,t}G_{b,t,e}\) 和负载 \(\text{load}_e=\sum_{b,t}\mathbb{1}(G_{b,t,e}>0)\),用平方变异系数 \(CV^2=\text{std}(x)^2/(\frac{1}{N}\sum_i x_i)^2\) 构造均衡损失 \(\mathcal{L}_{balance}=CV^2(\{\text{imp}_e\})+CV^2(\{\text{load}_e\})\)。\(CV^2\) 越小代表各专家被用得越均匀,从而鼓励均衡利用、提升稳定性与泛化;该项以小权重 \(\lambda_{balance}=0.01\) 并入总损失,保证不喧宾夺主、分割任务仍是主目标。
4. 渐进式提示 tokenization(PPT):把"人给提示"学成"模型自生提示",实现免交互分割
像 ISIC、SZ-CXR 这类只有背景 + 单一目标的稀疏类任务,传统交互分割仍要用户点/框,操作负担大。PPT 把 mask 和 text prompt 当作前景信息的具体载体,随机采样 mask/text prompt,用可学习 query \(Q\) 经多头注意力去关注归一化后的图像特征,让特征 token 在训练中逐步学会区分前景/背景、捕捉关键分布线索;注意力增强表征再经 MLP 投影 + 残差融合,生成"特征条件化"的 prompt token,作为与模态/解剖结构上下文对齐的自适应提示,从而在推理时无需任何人工干预完成分割。作者明确把 PPT 限定在二分类(前景-背景清晰)任务,因为多类分割存在类间干扰会让 prompt token 映射变难。
损失函数 / 训练策略¶
分割用 Dice 损失 \(\mathcal{L}_{seg}(y^E,y)=1-\frac{2\sum_i y^E_i y_i}{\sum_i y^E_i+\sum_i y_i}\),总损失把它和负载均衡损失加权:\(\mathcal{L}_{total}=\mathcal{L}_{seg}+\lambda_{balance}\cdot\mathcal{L}_{balance}\),\(\lambda_{balance}=0.01\)。训练数据为自建 MedSeg-HQ(整合 12 个公开数据集、约 154,569 个高质量 mask、6 种模态 100+ 语义类,经 5 位专家按清晰度/对比度/熵/前景比/连通区域质检筛选)。图像统一缩放到 512×512、9:1 划分且病人级独立,Adam(lr 1e-4,第 7/12 epoch 减半),8×RTX 4090、总 batch 10,默认 SAM-Base、主干全冻。
实验关键数据¶
主实验¶
OOD 零样本分割(box 提示,Dice,节选):
| 数据集 | 类别 | SAM | SAM-Med2D | IMIS | 本文 |
|---|---|---|---|---|---|
| ISLES | 缺血性卒中病灶 | 55.00 | 67.93 | 71.24 | 77.30 |
| SegThor | 平均(4 类) | 76.55 | 79.06 | 80.52 | 83.39 |
| TotalSeg(MRI) | 平均(12 腹部器官) | 67.11 | 66.72 | 70.62 | 71.48 |
二分类 ISLES 较次优提升约 7%,多类 SegThor / TotalSeg(MRI) 分别约 +1% / +2%;整体比第二名提升 1%~6%。
解冻解码器联合训练(box 提示,Dice,节选):
| 数据集 | SAM | SAM-Med2D | IMIS | 本文 |
|---|---|---|---|---|
| ISIC2018 | 86.15 | 88.32 | 88.93 | 93.02 |
| SZ-CXR | 86.72 | 88.72 | 92.03 | 95.04 |
| CHAOS(T1) | 82.67 | 86.14 | 86.92 | 89.00 |
| BTCV | 77.82 | 80.52 | 82.24 | 84.51 |
解冻后二分类任务比基线提升 3%~7%。
消融实验¶
参数规模与专家配置:
| 配置 | 关键指标 | 说明 |
|---|---|---|
| SAM(Large) | 308M 可学习 | 全量训练,资源重 |
| MedSAM(Base) | 93M | 全解码器微调 |
| IMIS(Base) | 29M | 微调解码器 |
| SegMoTE(Base) | 17M(MoTE 10M + PPT 7M) | 仅约 SAM 总参 1.4%,性能反超 |
| 专家数 N:M=4:1 | OOD 最优 | 4 模态时最佳;N=12 显著掉点(专家数 > 模态数) |
| PPT,Q=2 | ISIC2018 87.68 | 默认配置,Q=2 足够 |
| w/o PPT | ISIC2018 84.87 / ISLES 59.00 | 去 PPT,OOD ISLES 掉约 6% |
关键发现¶
- 少而精胜过多而杂:仅 0.15M mask(不足现有数据集 1%)训出的 SegMoTE,在 in/out-domain 都超过用超大混合数据训练的基线,验证"数据质量 + 表征设计 > 盲目扩数据"。
- 专家数要匹配模态数:N:M=4:1 最优,专家数远超模态数(N=12)反而退化——四个专家足以覆盖核心特征,多出来的模态(如 MR FLAIR)也能被吸收。
- 专家学到模态特异路由:不同数据集稳定偏好不同 token,热力图显示稀疏、离散的"责任区域",具备可解释性。
- PPT 在 OOD 上收益最大:ISLES(OOD 二分类)去掉 PPT 掉约 6%,说明用图像特征自生提示对跨域泛化尤其有效;\(Q=2\) 即够用。
亮点与洞察¶
- "冻主干 + 换 token"是低成本适配 SAM 的优雅范式:不碰编码器、不全量微调解码器,只把"统一输出 token"升级成"专家 token + MoE 路由",就拿到模态自适应,还保住 SAM 原能力,17M 参数打赢百兆级方法。
- 把 MoE 的"按输入选专家"对齐到"按模态选表征":这个映射很自然,且 noisy top-k + 置信加权让路由既探索又稳定,专家偏好可视化让"黑盒路由"变得可解释。
- PPT 把"提示"也学出来:随机采样 mask/text 当弱前景先验、用可学习 query 学到自适应 prompt token,实现二分类任务的免交互推理,思路可迁移到其他"想去掉人工提示"的交互式分割。
- 负载均衡用 \(CV^2\) 直接约束 importance 与 load 两条统计量,简单有效地避免专家坍缩。
局限与展望¶
- PPT 仅适用二分类:作者承认多类分割存在类间干扰、prompt token 映射变难,PPT 只在前景-背景清晰任务有效,多器官场景还得靠交互提示。
- 专家数需按模态预设:N 与模态数强相关(N=12 退化),换数据集/模态组合可能要重新调专家配置,缺自动确定 N 的机制。
- 仅 2D、SAM-Base:实验主要在 2D 切片、SAM-Base 上,作者展望但未验证 3D 数据与医学视频。
- 依赖自建 MedSeg-HQ 的质检:高性能部分归功于专家质检筛出的高质量 mask,该质量评估系统(清晰度/对比度/熵等 5 维 + 5 专家交叉验证)成本不低,复现门槛偏高。
相关工作与启发¶
- vs MedSAM / IMIS(全/部分微调 SAM): 它们靠全参或解码器微调 + 扩数据,参数大、易分布漂移损害原能力;本文冻结主干、只加 17M token 级模块,用 1% 数据反超,差别在"改表征 vs 堆数据"。
- vs 既有医学 MoE(MoSE、M4oE、PAMoE、ConvLoRA): 多数仍用统一输出表征、未直面模态/任务差异;本文做 token 级模态感知路由,把输入分配到专属专家路径,表征更判别。
- vs 传统交互式分割(点/框提示): 依赖用户逐张给提示、操作负担重;本文 PPT 在二分类任务自生提示、免交互推理,且 OOD 泛化更好。
评分¶
- 新颖性: ⭐⭐⭐⭐ token 级专家 token + MoE 路由适配 SAM、并把提示也学出来,组合新颖;MoE 与 SAM 适配各自非首创。
- 实验充分度: ⭐⭐⭐⭐ in/out-domain 多数据集、冻结/解冻两种设置、专家数/Q/PPT 多维消融较全;3D 与视频缺验证。
- 写作质量: ⭐⭐⭐⭐ 动机—模块—公式—可视化链条清晰,专家路由热力图和偏好统计有说服力。
- 价值: ⭐⭐⭐⭐ 极低标注/参数成本适配 SAM 到多模态医学分割,对落地很有吸引力。