SemiTooth: a Generalizable Semi-supervised Framework for Multi-Source Tooth Segmentation¶
会议: CVPR2025
arXiv: 2603.11616
代码: 待确认
领域: 医学图像
关键词: semi-supervised learning, multi-source, tooth segmentation, CBCT, multi-teacher-student
一句话总结¶
提出 SemiTooth 多教师多学生半监督框架,通过 Stricter Weighted-Confidence Constraint 实现多源 CBCT 牙齿分割的跨域泛化。
研究背景与动机¶
CBCT(锥形束CT)是牙科临床中广泛使用的影像模态,牙齿结构分割是正畸、种植规划和病灶分析的基础任务。然而,体素级标注成本极高,大量去标识化的 CBCT 数据未被充分利用。体素级标注成本极高,大量去标识化的 CBCT 数据未被充分利用。现有半监督医学图像分割(SSMIS)方法大多针对单源数据设计,而不同机构/设备采集的 CBCT 数据存在显著的分布差异(密度分布、特征空间聚类完全不同),导致跨源泛化困难。此外,公开可用的多源 CBCT 牙齿分割数据集十分稀缺。
论文的核心动机是:(1) 构建多源半监督 CBCT 牙齿数据集;(2) 设计能有效利用多源无标注数据的半监督方法。
方法详解¶
MS3Toothset 数据集¶
整合来自三个机构的 CBCT 数据: - ShanghaiTech:提供半标注数据(主源,含标注) - PKU-SS:私有无标注数据 - AFMC:私有无标注数据
共包含 98 个有标注样本(20 个用于测试)和 438 个无标注样本。通过核密度估计曲线、中间切片强度分布和 t-SNE 可视化确认三源数据存在显著分布差异。通过 Wasserstein 距离度量源间相似性,将无标注数据划分为 mixed(与有标注源分布接近)和 other(分布差异大)两类子集。
SemiTooth 框架¶
采用多分支架构,包含三个学生网络和两个教师网络: - 主学生(Main Student):在有标注的主源数据上接受监督训练,使用标准交叉熵损失 - 混合学生(Mixed Student):学习与主源分布相近的无标注数据,由对应教师通过伪标签监督 - 其他学生(Other Student):学习分布差异大的无标注数据,由另一教师监督 - 教师网络通过 EMA(指数移动平均,衰减率 γ=0.99)更新参数,提供稳定的伪标签
与 Mean Teacher 单教师-学生范式和 Co-training 共享权重方案不同,SemiTooth 通过源感知的多分支设计实现更好的跨源知识迁移。学生网络共享相似架构以促进知识迁移,同时保持足够的多样性。
Stricter Weighted-Confidence (SWC) Constraint¶
针对多源 CBCT 数据异质性引入的噪声问题,提出区域级+体素级双层置信度约束:
- 将样本均匀分割为不重叠的立方体区域 {r}
- 区域级门控:计算每个区域的平均置信度 c(r),低于阈值 τ=0.9 的区域被视为不可靠,直接丢弃(记为 R_u)
- 体素级加权:在可靠区域 R_τ 内,用每个体素的最大类别概率 c_i 加权教师-学生输出的对齐损失
- 最终 SWC 损失为所有可靠区域加权交叉熵的均值
这种双层设计同时具备结构可靠性和体素级精度,特别适合 3D CBCT 的空间结构特性。与简单的全局置信度阈值相比,区域级门控能更好地处理局部噪声。
总损失函数¶
其中 α=β=0.5,分别平衡不同源的一致性损失贡献。训练 300 epochs,使用 Adam 优化器,学习率 1e-4。
实验关键数据¶
| 方法 | mIoU | Dice | Recall | Acc |
|---|---|---|---|---|
| V-Net (基线) | 61.36 | 73.65 | 70.77 | 66.75 |
| Mean Teacher | 67.69 | 78.72 | 78.06 | 73.68 |
| UA-MT | 68.37 | 79.18 | 80.42 | 76.17 |
| CMT | 76.14 | 85.07 | 87.14 | 84.32 |
| Uni-HSSL (CVPR2025) | 75.76 | 85.42 | 84.26 | 81.88 |
| SemiTooth (Ours) | 76.67 | 85.69 | 88.66 | 86.44 |
消融实验各组件贡献分解:
| 实验 | 模块 | mIoU | Dice |
|---|---|---|---|
| Exp1 | V-Net only | 61.36 | 73.65 |
| Exp2 | +MT | 67.69 | 78.72 |
| Exp3 | +MT+SWC | 69.94 | 80.29 |
| Exp4 | +V-Net+MT+ST | 75.37 | 84.56 |
| Exp5 | 完整模型 | 76.67 | 85.69 |
从 Exp4→5 可见,SWC 约束在 SemiTooth 框架下带来 1.3 mIoU 的额外提升。可视化对比显示完整模型生成更自然的牙齿形态,特别是在牙根区域和相邻牙齿边界处减少了粘连。
t-SNE 可视化证实 SemiTooth 学生输出的多源特征比原始数据更加聚集,验证了跨源泛化能力的提升。训练使用 4×NVIDIA A4500,batch size 4,300 epochs,Adam 优化器 lr=1e-4。
亮点¶
- 问题定义精准:首次系统性地将多源半监督学习应用于 CBCT 牙齿分割,构建 MS3Toothset 填补数据空白
- SWC 约束设计巧妙:区域级门控 + 体素级加权的双层机制,既过滤了不可靠区域,又在可靠区域内精细加权,特别适合 3D CBCT 的结构特性
- 框架设计合理:多教师多学生架构自然匹配多源场景,通过 Wasserstein 距离划分 mixed/other 子集体现源感知
- 超越同期方法:在同一实验设置下优于 Uni-HSSL(CVPR2025)和 CMT(ACM MM 2024)等最新方法
- t-SNE 特征可视化:直观展示多源特征在训练后的聚集效果,为跨域泛化提供了可视证据
局限性¶
- 数据集规模较小(98 标注 + 438 无标注),仅三个源(ShanghaiTech、PKU-SS、AFMC),泛化到更多源/更大规模的能力未验证
- 骨干网络仅用 V-Net,未探索更强的 3D 分割架构(如 nnU-Net、Swin UNETR、MedNeXt)
- 源间相似度用 Wasserstein 距离度量,mixed/other 的划分标准缺乏深入分析,阈值选择可能影响结果
- 仅在自建数据集上评估,缺少在公开标准数据集(如 STS 挑战赛)上的验证
- 多教师多学生框架训练开销较大,4×A4500 GPU,实际部署时仅需单学生但推理效率未讨论
- 未分析标注比例对性能的影响,仅报告了固定标注量的结果
- SWC 阈值 τ=0.9 的选择未做敏感性分析
- 仅报告 mIoU/Dice/Recall/Acc 四个指标,未包含 HD95 等边界距离指标
评分¶
- 新颖性: 3/5 — 多教师多学生和置信度约束的组合有新意,但各组件并非全新
- 实验充分度: 3/5 — 消融和可视化充分,但仅在自建数据集上评估
- 写作质量: 3/5 — 结构清晰但部分细节(如 Wasserstein 距离的使用方式、mixed 子集划分阈值)交代不够
- 价值: 3/5 — 临床牙科场景有实用价值,但方法的通用性有待更多实验验证