跳转至

SemiTooth: a Generalizable Semi-supervised Framework for Multi-Source Tooth Segmentation

会议: CVPR2025
arXiv: 2603.11616
代码: 待确认
领域: 医学图像
关键词: semi-supervised learning, multi-source, tooth segmentation, CBCT, multi-teacher-student

一句话总结

提出 SemiTooth 多教师多学生半监督框架,通过 Stricter Weighted-Confidence Constraint 实现多源 CBCT 牙齿分割的跨域泛化。

研究背景与动机

CBCT(锥形束CT)是牙科临床中广泛使用的影像模态,牙齿结构分割是正畸、种植规划和病灶分析的基础任务。然而,体素级标注成本极高,大量去标识化的 CBCT 数据未被充分利用。体素级标注成本极高,大量去标识化的 CBCT 数据未被充分利用。现有半监督医学图像分割(SSMIS)方法大多针对单源数据设计,而不同机构/设备采集的 CBCT 数据存在显著的分布差异(密度分布、特征空间聚类完全不同),导致跨源泛化困难。此外,公开可用的多源 CBCT 牙齿分割数据集十分稀缺。

论文的核心动机是:(1) 构建多源半监督 CBCT 牙齿数据集;(2) 设计能有效利用多源无标注数据的半监督方法。

方法详解

MS3Toothset 数据集

整合来自三个机构的 CBCT 数据: - ShanghaiTech:提供半标注数据(主源,含标注) - PKU-SS:私有无标注数据 - AFMC:私有无标注数据

共包含 98 个有标注样本(20 个用于测试)和 438 个无标注样本。通过核密度估计曲线、中间切片强度分布和 t-SNE 可视化确认三源数据存在显著分布差异。通过 Wasserstein 距离度量源间相似性,将无标注数据划分为 mixed(与有标注源分布接近)和 other(分布差异大)两类子集。

SemiTooth 框架

采用多分支架构,包含三个学生网络和两个教师网络: - 主学生(Main Student):在有标注的主源数据上接受监督训练,使用标准交叉熵损失 - 混合学生(Mixed Student):学习与主源分布相近的无标注数据,由对应教师通过伪标签监督 - 其他学生(Other Student):学习分布差异大的无标注数据,由另一教师监督 - 教师网络通过 EMA(指数移动平均,衰减率 γ=0.99)更新参数,提供稳定的伪标签

与 Mean Teacher 单教师-学生范式和 Co-training 共享权重方案不同,SemiTooth 通过源感知的多分支设计实现更好的跨源知识迁移。学生网络共享相似架构以促进知识迁移,同时保持足够的多样性。

Stricter Weighted-Confidence (SWC) Constraint

针对多源 CBCT 数据异质性引入的噪声问题,提出区域级+体素级双层置信度约束:

  1. 将样本均匀分割为不重叠的立方体区域 {r}
  2. 区域级门控:计算每个区域的平均置信度 c(r),低于阈值 τ=0.9 的区域被视为不可靠,直接丢弃(记为 R_u)
  3. 体素级加权:在可靠区域 R_τ 内,用每个体素的最大类别概率 c_i 加权教师-学生输出的对齐损失
  4. 最终 SWC 损失为所有可靠区域加权交叉熵的均值

这种双层设计同时具备结构可靠性和体素级精度,特别适合 3D CBCT 的空间结构特性。与简单的全局置信度阈值相比,区域级门控能更好地处理局部噪声。

总损失函数

\[\mathcal{L}_{total} = \mathcal{L}_{sup} + \alpha \mathcal{L}_{cons}^{u} + \beta \mathcal{L}_{cons}^{h}\]

其中 α=β=0.5,分别平衡不同源的一致性损失贡献。训练 300 epochs,使用 Adam 优化器,学习率 1e-4。

实验关键数据

方法 mIoU Dice Recall Acc
V-Net (基线) 61.36 73.65 70.77 66.75
Mean Teacher 67.69 78.72 78.06 73.68
UA-MT 68.37 79.18 80.42 76.17
CMT 76.14 85.07 87.14 84.32
Uni-HSSL (CVPR2025) 75.76 85.42 84.26 81.88
SemiTooth (Ours) 76.67 85.69 88.66 86.44

消融实验各组件贡献分解:

实验 模块 mIoU Dice
Exp1 V-Net only 61.36 73.65
Exp2 +MT 67.69 78.72
Exp3 +MT+SWC 69.94 80.29
Exp4 +V-Net+MT+ST 75.37 84.56
Exp5 完整模型 76.67 85.69

从 Exp4→5 可见,SWC 约束在 SemiTooth 框架下带来 1.3 mIoU 的额外提升。可视化对比显示完整模型生成更自然的牙齿形态,特别是在牙根区域和相邻牙齿边界处减少了粘连。

t-SNE 可视化证实 SemiTooth 学生输出的多源特征比原始数据更加聚集,验证了跨源泛化能力的提升。训练使用 4×NVIDIA A4500,batch size 4,300 epochs,Adam 优化器 lr=1e-4。

亮点

  1. 问题定义精准:首次系统性地将多源半监督学习应用于 CBCT 牙齿分割,构建 MS3Toothset 填补数据空白
  2. SWC 约束设计巧妙:区域级门控 + 体素级加权的双层机制,既过滤了不可靠区域,又在可靠区域内精细加权,特别适合 3D CBCT 的结构特性
  3. 框架设计合理:多教师多学生架构自然匹配多源场景,通过 Wasserstein 距离划分 mixed/other 子集体现源感知
  4. 超越同期方法:在同一实验设置下优于 Uni-HSSL(CVPR2025)和 CMT(ACM MM 2024)等最新方法
  5. t-SNE 特征可视化:直观展示多源特征在训练后的聚集效果,为跨域泛化提供了可视证据

局限性

  1. 数据集规模较小(98 标注 + 438 无标注),仅三个源(ShanghaiTech、PKU-SS、AFMC),泛化到更多源/更大规模的能力未验证
  2. 骨干网络仅用 V-Net,未探索更强的 3D 分割架构(如 nnU-Net、Swin UNETR、MedNeXt)
  3. 源间相似度用 Wasserstein 距离度量,mixed/other 的划分标准缺乏深入分析,阈值选择可能影响结果
  4. 仅在自建数据集上评估,缺少在公开标准数据集(如 STS 挑战赛)上的验证
  5. 多教师多学生框架训练开销较大,4×A4500 GPU,实际部署时仅需单学生但推理效率未讨论
  6. 未分析标注比例对性能的影响,仅报告了固定标注量的结果
  7. SWC 阈值 τ=0.9 的选择未做敏感性分析
  8. 仅报告 mIoU/Dice/Recall/Acc 四个指标,未包含 HD95 等边界距离指标

评分

  • 新颖性: 3/5 — 多教师多学生和置信度约束的组合有新意,但各组件并非全新
  • 实验充分度: 3/5 — 消融和可视化充分,但仅在自建数据集上评估
  • 写作质量: 3/5 — 结构清晰但部分细节(如 Wasserstein 距离的使用方式、mixed 子集划分阈值)交代不够
  • 价值: 3/5 — 临床牙科场景有实用价值,但方法的通用性有待更多实验验证