Learning Generalizable 3D Medical Image Representations from Mask-Guided Self-Supervision¶
会议: CVPR 2026
arXiv: 2603.13660
代码: 有(论文中提到 Code is available)
领域: 医学图像
关键词: 自监督学习, 3D医学图像, mask引导预训练, in-context分割, 基础模型
一句话总结¶
提出 MASS(MAsk-guided Self-Supervised learning),利用 SAM2 自动生成的类别无关 mask 作为伪标注,以 in-context 分割为 pretext task 进行自监督预训练,无需任何人工标注即可学到语义丰富、泛化性强的 3D 医学图像表征,在 few-shot 分割和冻结编码器分类上均取得优异表现。
研究背景与动机¶
基础模型缺位:GPT、CLIP、DINO 等在自然图像/语言领域已通过大规模无标注数据学到通用表征,但 3D 医学图像领域尚无对应的基础模型范式。
现有自监督方法不足:对比学习(SimCLR、MoCo)侧重全局特征,MAE 等重建方法侧重低层纹理,均无法捕获医学影像所需的解剖语义和空间精确性。
监督预训练的局限:SuPreM、STU-Net 等依赖大量专家标注,受限于预定义类别体系(如 25 个器官 + 7 种肿瘤),无法扩展到临床实践中数千种解剖变体和病理。
医学图像的独特挑战:与自然图像不同,医学扫描中几乎所有体素都有临床意义(骨密度→骨折、软组织纹理→肿瘤、血管模式→缺血),且空间精度至关重要。
标注成本障碍:3D 医学图像的像素级标注需要专业知识且极其昂贵,限制了以分割为 pretext task 的预训练方法的扩展性。
核心洞察:语义分割是最符合临床推理方式的 pretext task(临床医生通过识别结构"是什么"和"在哪里"进行推理),而自动生成的类别无关 mask 虽无语义标签且含噪声,但足以捕获解剖和病理上有意义的区域。
方法详解¶
整体框架¶
MASS 要解决的是 3D 医学图像没有"基础模型"的窘境:对比学习只学全局特征、MAE 只学低层纹理,监督预训练又被昂贵标注和预定义类别体系卡住。它的核心赌注是——语义分割才是最贴近临床推理的 pretext task,而且分割用的 mask 不必有语义标签、甚至可以很糙。
整个方法分两阶段。第一阶段做无标注 mask 生成:把在自然图像上训练、毫无医学知识的 SAM2 拿来当"免费标注机"——先给 3D 体积造 3 通道输入(CT 用不同窗宽窗位,MRI/PET 用分位数归一化),沿最优成像轴均匀采 2D 切片,跑 SAM2 的自动 mask 生成(密集点提示),再借 SAM2 的视频预测能力把 mask 传播到整个体积,每个体积能生成数百到数千个覆盖器官、血管、肿瘤、病灶的 3D mask。第二阶段做 mask 引导的自监督学习:沿用 Iris 的 in-context segmentation(ICS)架构,模型含图像编码器 \(E_\theta\)、任务编码模块 \(T_\phi\)、mask 解码器 \(D_\psi\);每次迭代采一张图 \(x\) 及其自动 mask \(m\),造出参考视图 \((x_s, y_s)\) 和查询视图 \((x_q, y_q)\),参考视图给"在哪里"的位置信息,外观变换则逼模型跨不同视觉表现学到"是什么"的语义一致性。
%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400, 'subGraphTitleMargin': {'top': 8, 'bottom': 16}}}}%%
flowchart TD
subgraph S1["SAM2 自动 mask 生成(零人工标注)"]
direction TB
A["3D 体积 CT/MRI/PET<br/>多模态预处理 → 3 通道 2D 切片"] --> B["SAM2 自动 mask 生成<br/>密集点提示"]
B --> C["SAM2 视频预测<br/>2D mask 传播回 3D 体积"]
end
C --> D["数千个类别无关 3D mask<br/>器官/血管/肿瘤/病灶 · 开放集多样性"]
D --> E["采样图 x 及 mask m<br/>外观+空间增强 → 参考/查询视图"]
subgraph S2["mask 引导的 in-context 分割(自监督)"]
direction TB
E --> F["图像编码器 Eθ + 任务编码 Tφ<br/>从参考 (F_s, y_s) 提任务嵌入 T"]
F --> G["mask 解码器 Dψ<br/>据 T 预测查询 mask ŷ_q"]
end
G --> H["Dice + BCE 分割损失<br/>增强不变性逼出解剖语义"]
关键设计¶
1. SAM2 当"免费标注机":把无医学知识的自然图像模型变成 3D mask 生成器
要绕开昂贵的像素级人工标注,MASS 直接征用在自然图像上训练、对医学一无所知的 SAM2。流程分三步:先把 3D 体积造成 3 通道 2D 输入(CT 用不同窗宽窗位分别凸显软组织、骨、肺,MRI/PET 用分位数归一化),沿最优成像轴均匀采样 2D 切片;对每张切片跑 SAM2 的自动 mask 生成(密集点提示)拿到类别无关的 2D mask;再借 SAM2 的视频预测能力,把 2D mask 沿层间传播回整个 3D 体积。一套流程跨 CT、MRI、PET 统一处理,无需为每种模态单独设计,每个体积能产出数百到数千个覆盖器官、血管、肿瘤、病灶的 3D mask,全程零人工标注。
2. 开放集 mask 多样性:用数千个糙 mask 覆盖从器官到病理的多粒度概念
上一步产出的数千个 mask 本身就是关键资产:预定义类别体系(如 25 器官 + 7 肿瘤)撑不起临床上数千种解剖变体。MASS 训练时直接喂这些类别无关 mask,粒度从器官级到亚解剖区域到病理一应俱全,逼模型学一套广谱、可组合的视觉原语——纹理模式、边界特征、空间配置、强度分布。正因为不受闭集类别约束,在 taxonomy 不匹配的场景下它比依赖固定类别的方案更稳。
3. in-context 分割任务嵌入:用一对"参考-查询"把分割变成自监督信号
有了 mask 还得设计一个能学语义的任务。要在没有语义标签的情况下学语义,得让模型自己从一个例子推断"该分割什么"。MASS 沿用 Iris 的 in-context 分割架构:先编码参考图像 \(F_s = E_\theta(x_s)\),再用任务编码模块提取任务嵌入 \(\mathcal{T} = T_\phi(F_s, y_s)\),把"要分割哪个解剖结构"的信息压进 \(\mathcal{T}\),最后让解码器据此预测查询 mask \(\hat{y}_q = D_\psi(E_\theta(x_q), \mathcal{T})\)。这样每个自动 mask 都变成一道"看参考、分查询"的小任务,无需任何人工语义标签。
4. 隐式语义学习:靠不变性逼出语义,而不是靠标签教
自动 mask 没有语义名字,模型怎么知道学到的是"肝脏"而不是某种纹理捷径?MASS 的答案是在构造参考/查询视图时用增强切断捷径:外观增强(亮度、对比度、gamma、高斯噪声)破坏强度匹配和纹理模式,空间增强(旋转、缩放、平移)抹掉位置和方向线索。当所有表层线索都被扰乱,模型唯一能稳定依赖的就只剩解剖结构的本质语义身份——语义于是从不变性里"涌现"出来。
损失函数 / 训练策略¶
- 损失函数:\(\mathcal{L}_{Seg} = \mathcal{L}_{Dice}(\hat{y}_q, y_q) + \mathcal{L}_{BCE}(\hat{y}_q, y_q)\),Dice Loss + 二值交叉熵联合优化
- 数据增强:空间变换(旋转、缩放、平移)同时作用于图像和 mask 以保持对应关系;外观变换(亮度、对比度、gamma、高斯噪声)仅作用于图像
- 默认骨干:3D ResUNet
- 预训练规模:小规模(单数据集 20-200 扫描)到大规模(5K 多模态 CT/MRI/PET 体积,12 个数据集)
- 下游使用三种模式:(1) 免训练 in-context 分割(无需参数更新);(2) 任务特定微调;(3) 冻结编码器做分类
实验关键数据¶
主实验¶
表1:单数据集 few-shot 分割(Dice %)
| 方法 | BCV 1-shot | BCV 10-shot | AMOS MR 1-shot | AMOS MR 10-shot | SS H&N 1-shot | KiTS 30-shot |
|---|---|---|---|---|---|---|
| Scratch | 27.3 | 75.2 | 32.8 | 75.9 | 51.8 | 35.7 |
| SimCLR | 44.9 | 78.4 | 35.9 | 78.0 | 53.6 | 41.5 |
| MASS-IC | 65.5 | 73.6 | 62.1 | 71.6 | 59.3 | 3.8 |
| MASS-FT | 68.8 | 83.7 | 65.9 | 84.7 | 66.9 | 64.3 |
| 全监督 | 83.6 | — | 85.5 | — | 78.2 | 81.7 |
表2:大规模多模态预训练分割(Dice %,5K 体积预训练)
| 方法 | BCV 1-shot | AMOS MR 1-shot | KiTS 30-shot | Pelvic 1-shot |
|---|---|---|---|---|
| SuPreM (监督) | 63.9 | 55.1 | 64.1 | 85.4 |
| Iris-FT (监督) | 83.4 | 83.6 | 78.3 | 86.9 |
| AnatoMix | 53.1 | 35.9 | 40.6 | 82.2 |
| Merlin | 50.1 | 37.9 | 51.1 | 79.3 |
| MASS-FT | 70.2 | 74.3 | 68.5 | 92.8 |
表3:分类性能(AUC %,冻结编码器)
| 方法 | RSNA ICH 5% | RSNA ICH 100% | Liver Trauma 30% | Kidney Trauma 30% |
|---|---|---|---|---|
| Scratch (全训练) | 72.8 | 89.5 | 74.4 | 75.0 |
| SuPreM | 73.5 | 78.3 | 68.3 | 54.9 |
| Merlin | 57.3 | 65.5 | 60.1 | 58.0 |
| MASS | 75.4 | 81.5 | 86.7 | 82.9 |
消融实验¶
Mask 质量分析:自动 mask 与 GT 的平均 Dice 仅 15.2%(BCV)和 7.1%(SS H&N),仅 14%/13% 的 mask Dice > 40,但 MASS 仍取得 65.5% 和 59.3% 的 1-shot 性能——说明弱监督即足够。
Mask 生成方法对比:
| Mask 来源 | BCV 1-shot | SS H&N 1-shot |
|---|---|---|
| TotalSegmentator | 80.7 | 13.5(类别不覆盖) |
| SAM2 | 65.5 | 59.3 |
| SLIC 超像素 | 54.3 | 43.8 |
数据多样性 > 数量:从单器官腹部 CT(BCV,42.7%)扩展到全身 CT + 多模态达到 73.9%。解剖和模态多样性驱动性能提升,而同域数据堆叠迅速饱和。
架构泛化:ResUNet 和 I3DResNet152 在相同设置下性能相当(分割 73.87 vs 72.56,分类 75.42 vs 75.98),验证方法与具体编码器设计无关。
关键发现¶
- 解剖 vs 病理:MASS-IC 在解剖结构(器官)上有强 few-shot 能力,但在高变异性肿瘤上 in-context 性能有限(KiTS 仅 2.7%);微调后 MASS-FT 显著超越基线(64.3% vs 42.2%)
- 20-40% 标注即匹配全监督:在解剖结构数据集上,MASS-FT 仅用 10-shot(25-40% 训练数据)即可达到全监督性能
- 冻结编码器超越全训练:在 RSNA ICH 5% 数据上,MASS 冻结编码器(75.4%)超越从头全训练(72.8%);Trauma 30% 数据上提升更显著(肝 86.7 vs 74.4、肾 82.9 vs 75.0)
- OOD 泛化:在完全未见的数据集上(BraTS、ACDC、Pelvic),MASS 展现竞争力甚至超越监督预训练(Pelvic 92.8 vs Iris 86.9)
亮点与洞察¶
- 范式创新:首次将"类别无关 mask 引导的 in-context 分割"确立为 3D 医学图像自监督预训练的 pretext task,绕开了标注瓶颈
- 从弱到强:自动 mask 与 GT 平均重叠仅 7-15%,但通过在数千个"大致正确"的分割任务上训练,模型学到了超越单个 mask 边界的语义概念
- 数据效率极高:仅用 5K 体积(远少于 OpenMind 的 114K)就超越所有自监督基线,且 BCV 单数据集(23 scans)预训练在 ICH 分类上已接近 SuPreM
- 语义从不变性中涌现:不需要语义标签,增强引起的外观/空间变化迫使模型学到唯一不变的因素——解剖结构的本质语义身份
- 开放集优势:不受预定义类别约束,SAM2 mask 天然覆盖多粒度多结构,在 taxonomy 不匹配的场景下(如 SS H&N)远优于 TotalSegmentator
局限性¶
- 病理结构 in-context 能力弱:高变异性肿瘤(如 KiTS)的 zero-shot in-context 分割效果差(2.7%),必须通过微调才能有效处理
- 未探索弱 mask + 专家标注的协同:刻意排除了有标注数据,未研究自动 mask 与少量专家标注结合的潜力
- 依赖 SAM2 的边界检测能力:mask 质量受限于 SAM2 在医学图像上的域迁移性能,对边界模糊的结构可能效果不佳
- 缺少视觉-语言对齐:未与放射学报告等文本模态对齐,限制了在报告生成等任务上的应用
- 与监督预训练的差距:在评估目标与监督标注一致时(如 BCV),监督方法(Iris 83.2)仍领先 MASS(70.2)约 10-15 点
相关工作¶
- 自监督学习:Model Genesis(图像恢复)、MAE/SimMIM(mask 重建)、DINO(自蒸馏)、SimCLR/MoCo(对比学习)——侧重通用视觉特征,缺乏语义分割的空间精度
- 监督预训练:SuPreM(25M 标注体素)、STU-Net(TotalSegmentator 全身 CT)——受限于标注规模和预定义类别
- 合成数据:AnatoMix(从 TotalSegmentator mask 生成合成 CT)——分布差异限制迁移性能
- 通用分割与交互模型:UniverSeg、Iris(in-context 学习但需标注)、SAM 医学适配版——仍需标注或推理时人工交互
- MASS 的差异:唯一的无标注 + 开放集 mask + 语义自涌现 + 多模态兼容的自监督方案
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ — 首次用类别无关自动 mask 做医学图像自监督预训练,pretext task 设计巧妙且直觉清晰
- 实验充分度: ⭐⭐⭐⭐⭐ — 覆盖 4 模态 12+ 数据集、分割+分类两大任务线、从 20 scans 到 5K volumes 的规模实验、多维消融
- 写作质量: ⭐⭐⭐⭐⭐ — 动机-方法-实验逻辑链完整,"不变性→语义涌现"的解释优雅且有说服力
- 价值: ⭐⭐⭐⭐⭐ — 为 3D 医学图像基础模型提供了无标注可扩展的新路径,实用性极强