CVPR 2026 医学图像自监督学习半监督学习 Masked Image Modeling 3D目标检测 VDETR Vertex Relative Position Encoding 腹部CT 创伤检测

Addressing Data Scarcity in 3D Trauma Detection through Self-Supervised and Semi-Supervised Learning with Vertex Relative Position Encoding¶

会议: CVPR 2026
arXiv: 2603.12514
代码: GitHub
领域: 医学图像 / 3D创伤检测
关键词: 自监督学习, 半监督学习, Masked Image Modeling, 3D目标检测, VDETR, Vertex Relative Position Encoding, 腹部CT, 创伤检测

一句话总结¶

提出两阶段标签高效框架：先用 patch-based MIM 在1,206个无标注CT上自监督预训练3D U-Net编码器，再用VDETR+3D顶点相对位置编码做3D损伤检测，配合Mean Teacher半监督一致性正则化利用2,000个无标注体数据，仅用144个有标注样本即实现56.57% val mAP@0.50（比纯监督提升115%）。

研究背景与动机¶

腹部CT创伤检测临床需求紧迫: 急诊场景下需要快速准确地检测内伤，但人工分析3D医学体数据耗时且受主观因素影响大

标注数据极度稀缺: RSNA腹部创伤数据集中4,711个序列仅206个(4.4%)有分割标注，传统全监督方法根本不够用

2D逐层分析丢失3D空间关系: 传统方法把CT当2D切片处理，无法捕获体数据中复杂的空间结构关系

中心点距离度量不适合不规则器官: 常规DETR用中心点到像素的距离计算位置编码，对不规则形状的器官和损伤区域描述能力不足

自然域预训练特征迁移差: 在自然图像/视频上预训练的3D特征提取器对医学影像(HU值、特殊强度分布)迁移效果有限

自监督+半监督+Transformer检测在3D医学影像中尚未充分探索: 三者的系统整合是空白

方法详解¶

整体框架¶

输入：原始DICOM CT序列 → 预处理标准化为512×336×336体素(各向异性spacing 2.0×1.0×1.0mm) → 阶段一：patch-based MIM自监督预训练3D U-Net编码器 → 阶段二：冻结/解冻编码器 + VDETR解码器做3D检测 + Mean Teacher半监督 → 输出：3D bounding box + 分类标签

关键设计1：Patch-based Masked Image Modeling 自监督预训练¶

功能: 从1,206个CT体数据(含206个有标注+1,000个无标注)中提取128³ patch，将每个patch划分为8³子块，随机遮蔽75%子块，训练3D U-Net重建被遮蔽区域
核心思路: 利用MAE思想，通过重建任务迫使编码器学习有意义的解剖结构模式和空间关系，无需任何人工标注
设计动机: 医学数据标注成本极高(仅4.4%有标注)，但无标注数据充足。patch级操作大幅降低计算开销(128³ vs 512×336×336)，同时通过多patch采样保证解剖结构覆盖率。50 epoch训练后冻结编码器权重，作为下游任务的固定特征提取骨架

关键设计2：VDETR + 3D Vertex Relative Position Encoding¶

功能: 预训练编码器输出32×21×21×256特征图，采样4,096个token送入VDETR解码器，通过3D RPE计算每个体素到预测框8个顶点的几何关系
核心思路: 对每个query q和体素位置，计算到预测box全部8个顶点的偏移向量 \(\Delta\mathbf{P}_i \in \mathbb{R}^{K \times N \times 3}\)，经非线性变换和MLP生成位置偏置 \(\mathbf{R} = \sum_{i=1}^{8}\mathbf{P}_i\)，叠加到标准attention分数上：\(\mathbf{A} = \text{softmax}(\mathbf{QK}^T + \mathbf{R})\)
设计动机: 医学器官/损伤形状高度不规则，单一中心点距离无法判断体素是在目标内部、外部还是边界上。8-corner编码提供完整的几何包含/排斥信息，即使有限训练数据也能学到正确的locality归纳偏置

关键设计3：两阶段训练 + Mean Teacher半监督¶

功能: Phase I(epoch 0-20)冻结编码器只训练解码器；Phase II(epoch 20-100)解冻编码器联合微调(学习率10×低于解码器)，同时引入Mean Teacher半监督利用2,000个额外无标注体数据
核心思路: Teacher模型用弱增强(Gaussian noise σ=0.01, 强度偏移±2%)生成伪标签，Student模型用强增强(σ=0.05, 偏移±10%, blur, elastic deformation)训练，通过一致性损失强制预测一致
设计动机: Phase I防止随机初始化的解码器梯度破坏预训练特征；Phase II的差异学习率(编码器1e-5 vs 解码器1e-4)防止灾难性遗忘。半监督在epoch 20才启动(λ从0线性升至0.3)，避免解码器未收敛时pseudo-label质量太差导致训练崩溃

关键设计4：多标签损伤分类(下游任务II)¶

功能: 冻结编码器 bottleneck特征(32×21×21×256)经 global average pooling → 两层FC(256→128→7) → 7个独立二分类
核心思路: Linear probe评估——仅训练33,799参数的分类头(vs编码器5.6M参数)，直接检验自监督特征的判别力
设计动机: 类别严重不均衡(如bowel injury仅18%阳性)，使用加权BCE损失 \(w_i^{pos} = N_i^{neg}/N_i^{pos}\) 对稀有类别的假阴性施加更重惩罚

损失函数¶

检测任务总损失:

\[\mathcal{L}_{total} = \mathcal{L}_{supervised} + \lambda(t) \times (\mathcal{L}_{center} + \mathcal{L}_{size} + \mathcal{L}_{cls})\]

其中一致性损失包含三部分：center MSE、size MSE、分类KL散度(温度T=2.0)；\(\lambda(t)\) 在epoch 20-60线性从0升至0.3。

分类任务损失: 带正样本权重的Binary Cross-Entropy \(\mathcal{L}_{cls} = \frac{1}{7}\sum_{i=1}^{7}\mathcal{L}_{BCE}^i\)，权重如 \(w_{bowel\ injury}^{pos}=4.45\)。

实验关键数据¶

表1：检测性能对比 (验证集)¶

指标	VDETR (无半监督)	VDETR + SSL	提升
Best Epoch	5	99	—
mAP@0.10	27.27%	56.57%	+107%
mAP@0.25	27.27%	56.57%	+107%
mAP@0.50	26.36%	56.57%	+115%
mAP@0.75	6.82%	45.12%	+562%

关键发现：无半监督时模型在epoch 5即达到峰值后灾难性崩溃(至~8%)，说明仅144个标注样本完全不足以支撑稳定训练；加入半监督后收敛稳定。

表2：检测性能对比 (测试集, 32个体数据)¶

指标	VDETR (无半监督)	VDETR + SSL	提升
mAP@0.10	23.03%	45.30%	+97%
mAP@0.25	23.03%	45.30%	+97%
mAP@0.50	23.03%	45.30%	+97%
mAP@0.75	16.67%	28.72%	+72%

表3：分类消融实验¶

方法	编码器	测试Acc	测试AUC
微调+增强 (144样本)	解冻	77.7%	57.7%
微调+增强+SSL (144样本)	解冻	75.4%	57.3%
微调+增强+Focal Loss	解冻	75.9%	56.0%
Linear probe (2,244样本)	冻结	94.07%	51.4%

关键发现：半监督分类反而掉点(伪标签噪声)；扩大有标注数据量(144→2,244) + 冻结编码器linear probe达94.07%，证明高质量标签>伪标签。

表4：分类各类测试性能 (482个体数据)¶

损伤类别	测试Acc	测试AUC
Bowel healthy	97.5%	0.577
Bowel injury	97.5%	0.584
Liver healthy	87.6%	0.500
Liver high-grade	98.3%	0.429
Kidney high-grade	96.1%	0.470
Spleen healthy	87.1%	0.518
Extravasation	94.4%	0.521
Overall	94.07%	0.514

亮点¶

Self-supervised + Semi-supervised的系统整合: 两阶段设计清晰——MIM预训练提供强特征基础，Mean Teacher半监督解决检测阶段的标签不足。这种管线设计可复用到其他标注稀缺的医学检测场景
半监督带来的稳定性提升是最大亮点: 从epoch 5就崩溃 → 稳定收敛100 epoch，mAP@0.75提升562%，说明一致性正则化的正则化效果远超性能提升本身
3D RPE的医学场景适配: 将V-DETR的8顶点位置编码引入医学3D检测，对不规则器官形状的建模比中心点距离有本质优势
Linear probe在epoch 0就达到94.07%: 说明自监督预训练学到的特征具备即时可迁移性，无需任何微调
代码开源，完整pipeline可复现

局限与展望¶

绝对检测性能仍有提升空间: 测试集45.30% mAP@0.50距离临床部署还有差距，特别是mAP@0.75仅28.72%表明定位精度不够
分类AUC很低(51.4%): 虽然准确率高(94.07%)，但概率校准严重不足，sigmoid输出置信度与真实概率不对齐。作者归因于calibration问题但未在论文中解决
数据规模偏小: 仅206个有标注+1,000个无标注做预训练，在当今大规模预训练时代偏少
半监督对分类任务无效甚至有害: 从144→2,244有标注样本的收益(+16.37%)远大于半监督(反而-2.3%)，说明该方法的半监督策略在分类任务上泛化不好
只评估了单一数据集(RSNA): 缺乏跨数据集/跨域泛化验证
未与其他3D医学检测方法(nnDetection等)直接对比: 缺少与领域内SOTA的head-to-head比较
→ 可扩展到多器官检测、CT-MRI跨模态迁移、更大规模预训练数据

与相关工作的对比¶

vs MAE (He 2022): MAE用于2D自然图像，本文将其扩展到3D医学体数据的patch-based MIM，证明重建任务在CT语境下同样有效(PSNR 19.39dB, linear probe 76%)
vs V-DETR (2024): V-DETR在室内场景ScanNetV2上达到SOTA，本文首次将3D RPE引入医学影像检测。核心贡献不在RPE本身而在与自监督/半监督的系统整合
vs Eckstein et al. (2024) 3D医学目标检测预训练: 该工作证明了预训练对3D医学检测的重要性，本文在此基础上进一步整合半监督学习
vs Mean Teacher (Tarvainen 2017): 经典半监督框架，本文将其从2D图像分类适配到3D体数据检测，增加了center/size/cls三路一致性损失
vs RSNA 2023竞赛获胜方案: 竞赛冠军用两阶段pipeline+模型集成达98% AUC，本文用单模型冻结编码器达94.07% Acc(少29%数据，复杂度低得多)

评分¶

新颖性: ⭐⭐⭐ 各个组件(MIM, V-DETR, Mean Teacher)都不新，创新在于系统整合和面向标签稀缺场景的完整pipeline设计
实验充分度: ⭐⭐⭐ 消融实验覆盖了自监督/半监督/分类/检测，但缺少跨数据集验证和与领域SOTA的直接对比，测试集规模偏小(32个)
写作质量: ⭐⭐⭐⭐ 论文结构清晰，两阶段训练策略的设计动机阐述得当，公式推导完整
对我的价值: ⭐⭐⭐ 标签稀缺场景下自监督+半监督的整合范式可借鉴，3D RPE在医学检测中的应用有参考意义
价值: 待评