SemiTooth: a Generalizable Semi-supervised Framework for Multi-Source Tooth Segmentation¶

会议: CVPR 2026
arXiv: 2603.11616
代码: 无
领域: 分割 / 医学图像
关键词: 半监督学习, 多源数据, 牙齿分割, CBCT, 伪标签

一句话总结¶

本文提出SemiTooth框架，通过多教师-多学生架构和更严格的加权置信度约束（SWC），解决多源CBCT数据在半监督牙齿分割中的分布差异问题，在构建的MS3Toothset数据集上取得SOTA。

研究背景与动机¶

领域现状：CBCT（锥束CT）牙齿结构分割是临床口腔诊疗的基础任务，全监督方法取得了不错进展，但体素级标注耗时昂贵，大量去标识化的未标注CBCT数据未能有效利用。
现有痛点：半监督医学图像分割（SSMIS）方法如Mean Teacher可以利用无标签数据，但主要针对单源数据设计。实际中不同医院/设备采集的CBCT存在显著分布差异（密度、强度、特征分布都不同），直接混用会导致模型泛化能力差。且公开的多源CBCT牙齿分割数据集稀缺。
核心矛盾：多源数据之间的域差距（domain gap）导致统一训练困难——单教师-单学生的简单框架无法同时兼顾多个数据源的特征差异，伪标签质量在跨源场景下严重退化。
本文目标 ①构建一个多源半监督CBCT牙齿分割数据集；②设计一个能处理多源分布差异的半监督框架。
切入角度：针对不同数据源分配不同的学生网络进行专门学习，用各自对应的教师网络提供监督，同时设计区域级置信度约束过滤噪声伪标签。
核心 idea：多教师-多学生分支式框架 + 区域级严格置信度约束，让每个数据源都能在半监督学习中被有效利用。

方法详解¶

整体框架¶

SemiTooth将所有数据源重构为三个子集：main（有标签的主源数据）、other（其他源的无标签数据）、mixed（分布与主源相似的无标签样本，通过Wasserstein距离度量源间相似度归入）。设置3个学生网络分别处理三个子集，2个教师网络分别监督mixed和other子集的学生网络。教师通过EMA更新：\(\theta_t^{(k)} \leftarrow \gamma \theta_t^{(k-1)} + (1-\gamma) \theta_s^{(k)}\)。

关键设计¶

多教师-多学生架构（SemiTooth）
- 功能：让不同源的数据在各自的学生网络中进行专门化学习，避免多源混合训练干扰。
- 核心思路：与Mean Teacher（单教师-单学生）不同，SemiTooth为每个数据子集配备独立的学生网络，同时两个教师以EMA方式从相应学生更新参数，提供稳定的伪标签监督。学生网络共享相似架构促进知识迁移，但保持足够的多样性。mixed子集作为分布桥梁连接主源和其他源。
- 设计动机：单一教师-学生框架在多源场景下伪标签质量不稳定，且无法区分不同源的特征风格。通过"专人专事"的分支设计，每个学生可以学到源感知的知识表示。
更严格的加权置信度约束（SWC）
- 功能：在多源异构数据上提供可靠的一致性正则化信号，过滤噪声伪标签。
- 核心思路：将预测概率图均匀划分为不重叠的立方体区域 \(\{r\}\)，对每个区域计算教师的区域置信度 \(c(r) = \mathbb{E}_{i \in r}[\max_c P_{i,c}^T]\)，低于阈值 \(\tau\) 的区域直接丢弃。在保留的可靠区域内，用体素级置信度加权教师-学生对齐损失：\(\mathcal{SWC}(P^S, P^T) = \mathbb{E}_{r \in \mathcal{R}_\tau}[\mathbb{E}_{i \in r}[c_i \cdot \mathcal{A}(P_i^S, P_i^T)]]\)。
- 设计动机：CBCT数据异构性导致普通一致性正则化引入大量噪声，尤其在牙齿边界等难区域。SWC先做区域级门控排除不可靠区域，再在体素级加权精炼对齐信号，兼顾结构可靠性和体素精度，特别适合3D CBCT分割。
MS3Toothset数据集
- 功能：提供标准化的多源半监督CBCT牙齿分割评测基准。
- 核心思路：融合ShanghaiTech的半标注数据与PKU-SS和AFMC的无标注私有数据，筛选处理后包含98个有标签样本（20个测试集）和438个无标签样本。
- 设计动机：现有公开CBCT牙齿数据集稀缺且通常单源，无法支撑多源半监督方法的开发和验证。

损失函数 / 训练策略¶

总损失为三部分之和：有标签数据的监督损失 \(\mathcal{L}_{sup} = CE(P^S(x^l), y)\)，以及两个SWC一致性损失对应other源和mixed源：

\[\mathcal{L}_{total} = \mathcal{L}_{sup} + \alpha \mathcal{L}_{cons}^u + \beta \mathcal{L}_{cons}^h\]

其中 \(\alpha = \beta = 0.5\)，SWC阈值 \(\tau = 0.9\)，EMA衰减率 \(\gamma = 0.99\)。backbone使用V-Net，Adam优化器，学习率0.0001，训练300 epochs。

实验关键数据¶

主实验¶

方法	发表	年份	mIoU	Dice	Recall	Acc
V-Net	IEEE 3DV	2016	61.36	73.65	70.77	66.75
MT	NeurIPS	2017	67.69	78.72	78.06	73.68
UA-MT	MICCAI	2019	68.37	79.18	80.42	76.17
ASDA	IEEE TIP	2022	73.75	83.63	80.93	78.79
CMT	ACM MM	2024	76.14	85.07	87.14	84.32
Uni-HSSL	CVPR	2025	75.76	85.42	84.26	81.88
SemiTooth	-	2025	76.67	85.69	88.66	86.44

消融实验¶

Exp	V-Net	MT	ST	SWC	mIoU	Dice	Recall	Acc
1	✓				61.36	73.65	70.77	66.75
2	✓	✓			67.69	78.72	78.06	73.68
3	✓	✓		✓	69.94	80.29	79.67	75.34
4	✓	✓	✓		75.37	84.56	83.07	80.48
5	✓	✓	✓	✓	76.67	85.69	88.66	86.44

关键发现¶

从Exp2到Exp4看，SemiTooth的多教师-多学生架构贡献最大（mIoU +7.68%），说明多分支设计是核心。
SWC约束在MT基础上提升2.25% mIoU（Exp2 vs Exp3），在SemiTooth基础上提升1.3%（Exp4 vs Exp5），说明SWC在已有强框架上仍有稳定增益。
t-SNE可视化证实SemiTooth能有效压缩多源特征分布的差距，实现跨源域泛化。
定性结果显示SemiTooth在牙根区域和相邻牙齿边界粘连问题上效果最好。

亮点与洞察¶

区域级 + 体素级的分层置信度过滤是最精巧的设计：先用区域级粗粒度排除噪声密集区，再在可靠区域内用体素级细粒度加权。这种层次化过滤思路可以迁移到其他3D半监督分割任务中。
mixed子集作为分布桥梁的设计值得注意：通过Wasserstein距离从无标签数据中找出与有标签源分布相似的样本，作为连接不同源的纽带。
整体框架相对简洁，没有引入过多复杂组件，但通过合理的分支设计和约束机制取得了不错效果。

局限与展望¶

数据集规模偏小（98有标签 + 438无标签），实验验证的说服力有限。
仅验证了V-Net作为backbone，未测试更强的3D分割backbone（如nnU-Net、Swin UNETR）。
多教师-多学生架构的计算和内存开销相对单教师更大（3个学生 + 2个教师），实际部署需考虑资源限制。
mixed子集的划分依赖Wasserstein距离阈值的选取，文中未详细讨论这一超参的敏感性。
可以考虑引入对比学习进一步拉近跨源特征表示。

评分¶

新颖性: ⭐⭐⭐ 多教师-多学生思路属于合理推进，SWC约束有新意但改进幅度有限
实验充分度: ⭐⭐⭐ 消融和对比较完整，但数据集偏小、backbone单一
写作质量: ⭐⭐⭐⭐ 结构清晰，图示丰富直观
价值: ⭐⭐⭐ 对多源半监督医学分割有参考意义，但泛化性待更多验证