跳转至

SemiTooth: a Generalizable Semi-supervised Framework for Multi-Source Tooth Segmentation

会议: CVPR 2026
arXiv: 2603.11616
代码: 无
领域: 医学影像分割
关键词: 半监督学习, 多源数据, 牙齿分割, CBCT, 伪标签

一句话总结

提出 SemiTooth 多教师多学生半监督框架与 Stricter Weighted-Confidence (SWC) 约束,在多源 CBCT 牙齿分割任务中有效利用多源未标注数据,实现跨源泛化。

研究背景与动机

CBCT(锥束CT)牙齿分割是临床牙科诊断的核心任务,但面临两大挑战:

  1. 标注数据稀缺:体素级标注成本极高,大量去标识化的 CBCT 数据未被利用
  2. 多源数据异质性:不同机构、不同设备采集的 CBCT 数据存在显著分布差异(密度分布、灰度强度、特征聚类均不同),导致统一模型训练困难

现有半监督医学图像分割方法(如 Mean Teacher、Co-training)大多针对单源数据设计,无法有效处理多源场景下的分布偏移。此外,公开的多源 CBCT 牙齿分割数据集极为匮乏,限制了方法验证。

方法详解

整体框架

SemiTooth 是一个多分支半监督框架,采用 三学生两教师 架构:

  • 将多源数据重构为三个子集:main(有标注的主源)、other(无标注的其他源)、mixed(与主源分布相似的无标注混合子集,通过 Wasserstein 距离度量筛选)
  • 三个学生网络分别负责一个子集的学习
  • 两个教师网络分别监督 mixed 和 other 子集上的学生,通过 EMA 更新提供稳定的伪标签

关键设计

  1. 多源子集划分策略

    • 利用源间 Wasserstein 距离将未标注数据分为 mixed(与有标注源分布相似)和 other(分布差异较大)两组
    • mixed 子集起到桥接不同源的作用,提升跨源训练鲁棒性
  2. 多教师多学生架构 (Multi-Teacher Multi-Student)

    • 三个学生网络结构相似但独立学习,促进有效知识迁移的同时保持多样性
    • 教师通过 EMA 更新:\(\theta_t^{(k)} \leftarrow \gamma \theta_t^{(k-1)} + (1-\gamma) \theta_s^{(k)}\),衰减率 \(\gamma = 0.99\)
    • 对比 Mean Teacher 的单教师单学生和 Co-training 的无教师多学生,SemiTooth 兼具教师监督的稳定性和多学生协作的跨源能力
  3. Stricter Weighted-Confidence (SWC) 约束

    • 将样本均匀分割为不重叠的立方区域 \(\{r\}\)
    • 区域置信度定义为区域内所有体素最大类概率的均值:\(c(r) = \mathbb{E}_{i \in r}[\max_c P_{i,c}^T]\)
    • 低置信度区域(\(c(r) < \tau\))被标记为不可靠并忽略
    • 在可靠区域内,体素级置信度 \(c_i = \max_c P_{i,c}^T\) 进一步加权教师-学生对齐
    • 结合了区域级门控与体素级加权,在结构可靠性和体素精度之间取得平衡

损失函数 / 训练策略

总损失由三部分组成:

  • 监督损失(主源有标注数据):\(\mathcal{L}_{sup} = CE(P^S(x^l), y)\)
  • SWC 一致性损失(其他源和混合源的无标注数据):
\[\mathcal{L}_{SWC} = \mathbb{E}_{r \in \mathcal{R}_\tau} \left[ \mathbb{E}_{i \in r} \left[ c_i \cdot CE(P_i^S, P_i^T) \right] \right]\]
  • 总损失\(\mathcal{L}_{total} = \mathcal{L}_{sup} + \alpha \mathcal{L}_{cons}^u + \beta \mathcal{L}_{cons}^h\)

其中 \(\alpha = \beta = 0.5\) 平衡不同源的贡献,阈值 \(\tau = 0.9\)

训练细节:V-Net 作为 backbone,Adam 优化器,学习率 \(10^{-4}\),batch size 4,在 4 块 NVIDIA A4500 上训练 300 epochs。

实验关键数据

数据集:MS3Toothset

自建的多源半监督牙齿数据集,包含来自三个源(ShanghaiTech、PKU-SS、AFMC)的 98 个有标注样本(20 个用于测试)和 438 个无标注样本。不同源在密度、灰度和特征分布上存在显著差异。

主实验

方法 发表 年份 mIoU Dice Recall Acc
V-Net IEEE 3DV 2016 61.36 73.65 70.77 66.75
Mean Teacher NeurIPS 2017 67.69 78.72 78.06 73.68
UA-MT MICCAI 2019 68.37 79.18 80.42 76.17
ASDA IEEE TIP 2022 73.75 83.63 80.93 78.79
MLRPL MIA 2024 72.86 83.29 79.75 77.39
CMT ACM MM 2024 76.14 85.07 87.14 84.32
Uni-HSSL CVPR 2025 75.76 85.42 84.26 81.88
SemiTooth - 2025 76.67 85.69 88.66 86.44

消融实验

Exp V-Net MT ST SWC mIoU Dice Recall Acc
1 61.36 73.65 70.77 66.75
2 67.69 78.72 78.06 73.68
3 69.94 80.29 79.67 75.34
4 75.37 84.56 83.07 80.48
5 76.67 85.69 88.66 86.44

关键发现

  1. SemiTooth 多分支架构(Exp4 vs Exp2)贡献了最大提升,mIoU +7.68,说明多教师多学生结构对跨源学习至关重要
  2. SWC 约束在 MT 基础上带来 +2.25 mIoU 提升(Exp3 vs Exp2),在 SemiTooth 上带来 +1.30 mIoU 提升(Exp5 vs Exp4)
  3. t-SNE 可视化显示经 SemiTooth 训练后,不同源的特征分布更加聚拢,验证了跨源泛化的改善

亮点与洞察

  • 问题定义清晰:首次系统性解决多源半监督 CBCT 牙齿分割问题,并构建了专用数据集
  • 架构设计合理:三学生两教师的非对称结构比简单的多学生框架更有效,因为教师提供了稳定的伪标签训练信号
  • SWC 约束巧妙:区域级门控 + 体素级加权的双层筛选策略,比简单的置信度阈值更适合 3D CBCT 的空间结构特点
  • Wasserstein 距离划分子集:利用分布距离度量来桥接有标注源和无标注源是一个实用且有效的策略

局限与展望

  1. 数据规模较小:仅 98 个有标注 + 438 个无标注样本,更大规模数据验证有待补充
  2. 源数量有限:只有三个源,更多源场景下的可扩展性未验证
  3. Backbone 单一:仅使用 V-Net,更先进的 3D 分割网络(如 nnU-Net、SwinUNETR)可能进一步提升
  4. 未验证域外泛化:模型在完全未见过的新源数据上的表现未知
  5. SWC 中立方区域大小为固定超参:自适应的区域划分可能更优

相关工作与启发

  • Mean Teacher 系列是 SSMIS 的基础范式,SemiTooth 通过多分支扩展了该范式
  • CMT (ACM MM 2024)Uni-HSSL (CVPR 2025) 是最近的多源半监督方法,SemiTooth 优于二者
  • 跨域医学分割启发:Wasserstein 距离用于源分布度量、多教师结构用于跨域知识迁移

评分

维度 评分
创新性 ⭐⭐⭐
理论深度 ⭐⭐⭐
实验充分性 ⭐⭐⭐
实用价值 ⭐⭐⭐⭐
写作质量 ⭐⭐⭐
总体 ⭐⭐⭐