跳转至

Addressing Data Scarcity in 3D Trauma Detection through Self-Supervised and Semi-Supervised Learning with Vertex Relative Position Encoding

会议: CVPR 2026
arXiv: 2603.12514
代码: GitHub
领域: 医学图像 / 3D创伤检测
关键词: 自监督学习, 半监督学习, Masked Image Modeling, 3D目标检测, VDETR, Vertex Relative Position Encoding, 腹部CT, 创伤检测

一句话总结

提出两阶段标签高效框架:先用 patch-based MIM 在1,206个无标注CT上自监督预训练3D U-Net编码器,再用VDETR+3D顶点相对位置编码做3D损伤检测,配合Mean Teacher半监督一致性正则化利用2,000个无标注体数据,仅用144个有标注样本即实现56.57% val mAP@0.50(比纯监督提升115%)。

研究背景与动机

腹部CT创伤检测临床需求紧迫: 急诊场景下需要快速准确地检测内伤,但人工分析3D医学体数据耗时且受主观因素影响大

标注数据极度稀缺: RSNA腹部创伤数据集中4,711个序列仅206个(4.4%)有分割标注,传统全监督方法根本不够用

2D逐层分析丢失3D空间关系: 传统方法把CT当2D切片处理,无法捕获体数据中复杂的空间结构关系

中心点距离度量不适合不规则器官: 常规DETR用中心点到像素的距离计算位置编码,对不规则形状的器官和损伤区域描述能力不足

自然域预训练特征迁移差: 在自然图像/视频上预训练的3D特征提取器对医学影像(HU值、特殊强度分布)迁移效果有限

自监督+半监督+Transformer检测在3D医学影像中尚未充分探索: 三者的系统整合是空白

方法详解

整体框架

输入:原始DICOM CT序列 → 预处理标准化为512×336×336体素(各向异性spacing 2.0×1.0×1.0mm) → 阶段一:patch-based MIM自监督预训练3D U-Net编码器 → 阶段二:冻结/解冻编码器 + VDETR解码器做3D检测 + Mean Teacher半监督 → 输出:3D bounding box + 分类标签

关键设计1:Patch-based Masked Image Modeling 自监督预训练

  • 功能: 从1,206个CT体数据(含206个有标注+1,000个无标注)中提取128³ patch,将每个patch划分为8³子块,随机遮蔽75%子块,训练3D U-Net重建被遮蔽区域
  • 核心思路: 利用MAE思想,通过重建任务迫使编码器学习有意义的解剖结构模式和空间关系,无需任何人工标注
  • 设计动机: 医学数据标注成本极高(仅4.4%有标注),但无标注数据充足。patch级操作大幅降低计算开销(128³ vs 512×336×336),同时通过多patch采样保证解剖结构覆盖率。50 epoch训练后冻结编码器权重,作为下游任务的固定特征提取骨架

关键设计2:VDETR + 3D Vertex Relative Position Encoding

  • 功能: 预训练编码器输出32×21×21×256特征图,采样4,096个token送入VDETR解码器,通过3D RPE计算每个体素到预测框8个顶点的几何关系
  • 核心思路: 对每个query q和体素位置,计算到预测box全部8个顶点的偏移向量 \(\Delta\mathbf{P}_i \in \mathbb{R}^{K \times N \times 3}\),经非线性变换和MLP生成位置偏置 \(\mathbf{R} = \sum_{i=1}^{8}\mathbf{P}_i\),叠加到标准attention分数上:\(\mathbf{A} = \text{softmax}(\mathbf{QK}^T + \mathbf{R})\)
  • 设计动机: 医学器官/损伤形状高度不规则,单一中心点距离无法判断体素是在目标内部、外部还是边界上。8-corner编码提供完整的几何包含/排斥信息,即使有限训练数据也能学到正确的locality归纳偏置

关键设计3:两阶段训练 + Mean Teacher半监督

  • 功能: Phase I(epoch 0-20)冻结编码器只训练解码器;Phase II(epoch 20-100)解冻编码器联合微调(学习率10×低于解码器),同时引入Mean Teacher半监督利用2,000个额外无标注体数据
  • 核心思路: Teacher模型用弱增强(Gaussian noise σ=0.01, 强度偏移±2%)生成伪标签,Student模型用强增强(σ=0.05, 偏移±10%, blur, elastic deformation)训练,通过一致性损失强制预测一致
  • 设计动机: Phase I防止随机初始化的解码器梯度破坏预训练特征;Phase II的差异学习率(编码器1e-5 vs 解码器1e-4)防止灾难性遗忘。半监督在epoch 20才启动(λ从0线性升至0.3),避免解码器未收敛时pseudo-label质量太差导致训练崩溃

关键设计4:多标签损伤分类(下游任务II)

  • 功能: 冻结编码器 bottleneck特征(32×21×21×256)经 global average pooling → 两层FC(256→128→7) → 7个独立二分类
  • 核心思路: Linear probe评估——仅训练33,799参数的分类头(vs编码器5.6M参数),直接检验自监督特征的判别力
  • 设计动机: 类别严重不均衡(如bowel injury仅18%阳性),使用加权BCE损失 \(w_i^{pos} = N_i^{neg}/N_i^{pos}\) 对稀有类别的假阴性施加更重惩罚

损失函数

检测任务总损失:

\[\mathcal{L}_{total} = \mathcal{L}_{supervised} + \lambda(t) \times (\mathcal{L}_{center} + \mathcal{L}_{size} + \mathcal{L}_{cls})\]

其中一致性损失包含三部分:center MSE、size MSE、分类KL散度(温度T=2.0);\(\lambda(t)\) 在epoch 20-60线性从0升至0.3。

分类任务损失: 带正样本权重的Binary Cross-Entropy \(\mathcal{L}_{cls} = \frac{1}{7}\sum_{i=1}^{7}\mathcal{L}_{BCE}^i\),权重如 \(w_{bowel\ injury}^{pos}=4.45\)

实验关键数据

表1:检测性能对比 (验证集)

指标 VDETR (无半监督) VDETR + SSL 提升
Best Epoch 5 99
mAP@0.10 27.27% 56.57% +107%
mAP@0.25 27.27% 56.57% +107%
mAP@0.50 26.36% 56.57% +115%
mAP@0.75 6.82% 45.12% +562%

关键发现:无半监督时模型在epoch 5即达到峰值后灾难性崩溃(至~8%),说明仅144个标注样本完全不足以支撑稳定训练;加入半监督后收敛稳定。

表2:检测性能对比 (测试集, 32个体数据)

指标 VDETR (无半监督) VDETR + SSL 提升
mAP@0.10 23.03% 45.30% +97%
mAP@0.25 23.03% 45.30% +97%
mAP@0.50 23.03% 45.30% +97%
mAP@0.75 16.67% 28.72% +72%

表3:分类消融实验

方法 编码器 测试Acc 测试AUC
微调+增强 (144样本) 解冻 77.7% 57.7%
微调+增强+SSL (144样本) 解冻 75.4% 57.3%
微调+增强+Focal Loss 解冻 75.9% 56.0%
Linear probe (2,244样本) 冻结 94.07% 51.4%

关键发现:半监督分类反而掉点(伪标签噪声);扩大有标注数据量(144→2,244) + 冻结编码器linear probe达94.07%,证明高质量标签>伪标签。

表4:分类各类测试性能 (482个体数据)

损伤类别 测试Acc 测试AUC
Bowel healthy 97.5% 0.577
Bowel injury 97.5% 0.584
Liver healthy 87.6% 0.500
Liver high-grade 98.3% 0.429
Kidney high-grade 96.1% 0.470
Spleen healthy 87.1% 0.518
Extravasation 94.4% 0.521
Overall 94.07% 0.514

亮点

  • Self-supervised + Semi-supervised的系统整合: 两阶段设计清晰——MIM预训练提供强特征基础,Mean Teacher半监督解决检测阶段的标签不足。这种管线设计可复用到其他标注稀缺的医学检测场景
  • 半监督带来的稳定性提升是最大亮点: 从epoch 5就崩溃 → 稳定收敛100 epoch,mAP@0.75提升562%,说明一致性正则化的正则化效果远超性能提升本身
  • 3D RPE的医学场景适配: 将V-DETR的8顶点位置编码引入医学3D检测,对不规则器官形状的建模比中心点距离有本质优势
  • Linear probe在epoch 0就达到94.07%: 说明自监督预训练学到的特征具备即时可迁移性,无需任何微调
  • 代码开源,完整pipeline可复现

局限与展望

  • 绝对检测性能仍有提升空间: 测试集45.30% mAP@0.50距离临床部署还有差距,特别是mAP@0.75仅28.72%表明定位精度不够
  • 分类AUC很低(51.4%): 虽然准确率高(94.07%),但概率校准严重不足,sigmoid输出置信度与真实概率不对齐。作者归因于calibration问题但未在论文中解决
  • 数据规模偏小: 仅206个有标注+1,000个无标注做预训练,在当今大规模预训练时代偏少
  • 半监督对分类任务无效甚至有害: 从144→2,244有标注样本的收益(+16.37%)远大于半监督(反而-2.3%),说明该方法的半监督策略在分类任务上泛化不好
  • 只评估了单一数据集(RSNA): 缺乏跨数据集/跨域泛化验证
  • 未与其他3D医学检测方法(nnDetection等)直接对比: 缺少与领域内SOTA的head-to-head比较
  • → 可扩展到多器官检测、CT-MRI跨模态迁移、更大规模预训练数据

与相关工作的对比

  • vs MAE (He 2022): MAE用于2D自然图像,本文将其扩展到3D医学体数据的patch-based MIM,证明重建任务在CT语境下同样有效(PSNR 19.39dB, linear probe 76%)
  • vs V-DETR (2024): V-DETR在室内场景ScanNetV2上达到SOTA,本文首次将3D RPE引入医学影像检测。核心贡献不在RPE本身而在与自监督/半监督的系统整合
  • vs Eckstein et al. (2024) 3D医学目标检测预训练: 该工作证明了预训练对3D医学检测的重要性,本文在此基础上进一步整合半监督学习
  • vs Mean Teacher (Tarvainen 2017): 经典半监督框架,本文将其从2D图像分类适配到3D体数据检测,增加了center/size/cls三路一致性损失
  • vs RSNA 2023竞赛获胜方案: 竞赛冠军用两阶段pipeline+模型集成达98% AUC,本文用单模型冻结编码器达94.07% Acc(少29%数据,复杂度低得多)

评分

  • 新颖性: ⭐⭐⭐ 各个组件(MIM, V-DETR, Mean Teacher)都不新,创新在于系统整合和面向标签稀缺场景的完整pipeline设计
  • 实验充分度: ⭐⭐⭐ 消融实验覆盖了自监督/半监督/分类/检测,但缺少跨数据集验证和与领域SOTA的直接对比,测试集规模偏小(32个)
  • 写作质量: ⭐⭐⭐⭐ 论文结构清晰,两阶段训练策略的设计动机阐述得当,公式推导完整
  • 对我的价值: ⭐⭐⭐ 标签稀缺场景下自监督+半监督的整合范式可借鉴,3D RPE在医学检测中的应用有参考意义
  • 价值: 待评