SemiTooth: a Generalizable Semi-supervised Framework for Multi-Source Tooth Segmentation¶

会议: CVPR2025
arXiv: 2603.11616
代码: 待确认
领域: 医学图像
关键词: semi-supervised learning, multi-source, tooth segmentation, CBCT, multi-teacher-student

一句话总结¶

提出 SemiTooth 多教师多学生半监督框架，通过 Stricter Weighted-Confidence Constraint 实现多源 CBCT 牙齿分割的跨域泛化。

研究背景与动机¶

CBCT（锥形束CT）是牙科临床中广泛使用的影像模态，牙齿结构分割是正畸、种植规划和病灶分析的基础任务。然而，体素级标注成本极高，大量去标识化的 CBCT 数据未被充分利用。体素级标注成本极高，大量去标识化的 CBCT 数据未被充分利用。现有半监督医学图像分割（SSMIS）方法大多针对单源数据设计，而不同机构/设备采集的 CBCT 数据存在显著的分布差异（密度分布、特征空间聚类完全不同），导致跨源泛化困难。此外，公开可用的多源 CBCT 牙齿分割数据集十分稀缺。

论文的核心动机是：(1) 构建多源半监督 CBCT 牙齿数据集；(2) 设计能有效利用多源无标注数据的半监督方法。

方法详解¶

MS3Toothset 数据集¶

整合来自三个机构的 CBCT 数据： - ShanghaiTech：提供半标注数据（主源，含标注） - PKU-SS：私有无标注数据 - AFMC：私有无标注数据

共包含 98 个有标注样本（20 个用于测试）和 438 个无标注样本。通过核密度估计曲线、中间切片强度分布和 t-SNE 可视化确认三源数据存在显著分布差异。通过 Wasserstein 距离度量源间相似性，将无标注数据划分为 mixed（与有标注源分布接近）和 other（分布差异大）两类子集。

SemiTooth 框架¶

采用多分支架构，包含三个学生网络和两个教师网络： - 主学生（Main Student）：在有标注的主源数据上接受监督训练，使用标准交叉熵损失 - 混合学生（Mixed Student）：学习与主源分布相近的无标注数据，由对应教师通过伪标签监督 - 其他学生（Other Student）：学习分布差异大的无标注数据，由另一教师监督 - 教师网络通过 EMA（指数移动平均，衰减率 γ=0.99）更新参数，提供稳定的伪标签

与 Mean Teacher 单教师-学生范式和 Co-training 共享权重方案不同，SemiTooth 通过源感知的多分支设计实现更好的跨源知识迁移。学生网络共享相似架构以促进知识迁移，同时保持足够的多样性。

Stricter Weighted-Confidence (SWC) Constraint¶

针对多源 CBCT 数据异质性引入的噪声问题，提出区域级+体素级双层置信度约束：

将样本均匀分割为不重叠的立方体区域 {r}
区域级门控：计算每个区域的平均置信度 c(r)，低于阈值 τ=0.9 的区域被视为不可靠，直接丢弃（记为 R_u）
体素级加权：在可靠区域 R_τ 内，用每个体素的最大类别概率 c_i 加权教师-学生输出的对齐损失
最终 SWC 损失为所有可靠区域加权交叉熵的均值

这种双层设计同时具备结构可靠性和体素级精度，特别适合 3D CBCT 的空间结构特性。与简单的全局置信度阈值相比，区域级门控能更好地处理局部噪声。

总损失函数¶

\[\mathcal{L}_{total} = \mathcal{L}_{sup} + \alpha \mathcal{L}_{cons}^{u} + \beta \mathcal{L}_{cons}^{h}\]

其中 α=β=0.5，分别平衡不同源的一致性损失贡献。训练 300 epochs，使用 Adam 优化器，学习率 1e-4。

实验关键数据¶

方法	mIoU	Dice	Recall	Acc
V-Net (基线)	61.36	73.65	70.77	66.75
Mean Teacher	67.69	78.72	78.06	73.68
UA-MT	68.37	79.18	80.42	76.17
CMT	76.14	85.07	87.14	84.32
Uni-HSSL (CVPR2025)	75.76	85.42	84.26	81.88
SemiTooth (Ours)	76.67	85.69	88.66	86.44

消融实验各组件贡献分解：

实验	模块	mIoU	Dice
Exp1	V-Net only	61.36	73.65
Exp2	+MT	67.69	78.72
Exp3	+MT+SWC	69.94	80.29
Exp4	+V-Net+MT+ST	75.37	84.56
Exp5	完整模型	76.67	85.69

从 Exp4→5 可见，SWC 约束在 SemiTooth 框架下带来 1.3 mIoU 的额外提升。可视化对比显示完整模型生成更自然的牙齿形态，特别是在牙根区域和相邻牙齿边界处减少了粘连。

t-SNE 可视化证实 SemiTooth 学生输出的多源特征比原始数据更加聚集，验证了跨源泛化能力的提升。训练使用 4×NVIDIA A4500，batch size 4，300 epochs，Adam 优化器 lr=1e-4。

亮点¶

问题定义精准：首次系统性地将多源半监督学习应用于 CBCT 牙齿分割，构建 MS3Toothset 填补数据空白
SWC 约束设计巧妙：区域级门控 + 体素级加权的双层机制，既过滤了不可靠区域，又在可靠区域内精细加权，特别适合 3D CBCT 的结构特性
框架设计合理：多教师多学生架构自然匹配多源场景，通过 Wasserstein 距离划分 mixed/other 子集体现源感知
超越同期方法：在同一实验设置下优于 Uni-HSSL（CVPR2025）和 CMT（ACM MM 2024）等最新方法
t-SNE 特征可视化：直观展示多源特征在训练后的聚集效果，为跨域泛化提供了可视证据

局限性¶

数据集规模较小（98 标注 + 438 无标注），仅三个源（ShanghaiTech、PKU-SS、AFMC），泛化到更多源/更大规模的能力未验证
骨干网络仅用 V-Net，未探索更强的 3D 分割架构（如 nnU-Net、Swin UNETR、MedNeXt）
源间相似度用 Wasserstein 距离度量，mixed/other 的划分标准缺乏深入分析，阈值选择可能影响结果
仅在自建数据集上评估，缺少在公开标准数据集（如 STS 挑战赛）上的验证
多教师多学生框架训练开销较大，4×A4500 GPU，实际部署时仅需单学生但推理效率未讨论
未分析标注比例对性能的影响，仅报告了固定标注量的结果
SWC 阈值 τ=0.9 的选择未做敏感性分析
仅报告 mIoU/Dice/Recall/Acc 四个指标，未包含 HD95 等边界距离指标

评分¶

新颖性: 3/5 — 多教师多学生和置信度约束的组合有新意，但各组件并非全新
实验充分度: 3/5 — 消融和可视化充分，但仅在自建数据集上评估
写作质量: 3/5 — 结构清晰但部分细节（如 Wasserstein 距离的使用方式、mixed 子集划分阈值）交代不够
价值: 3/5 — 临床牙科场景有实用价值，但方法的通用性有待更多实验验证