跳转至

Learning Generalizable 3D Medical Image Representations from Mask-Guided Self-Supervision

会议: CVPR 2026
arXiv: 2603.13660
代码: 有(论文中提到 Code is available)
领域: 医学图像
关键词: 自监督学习, 3D医学图像, mask引导预训练, in-context分割, 基础模型

一句话总结

提出 MASS(MAsk-guided Self-Supervised learning),利用 SAM2 自动生成的类别无关 mask 作为伪标注,以 in-context 分割为 pretext task 进行自监督预训练,无需任何人工标注即可学到语义丰富、泛化性强的 3D 医学图像表征,在 few-shot 分割和冻结编码器分类上均取得优异表现。

研究背景与动机

基础模型缺位:GPT、CLIP、DINO 等在自然图像/语言领域已通过大规模无标注数据学到通用表征,但 3D 医学图像领域尚无对应的基础模型范式。

现有自监督方法不足:对比学习(SimCLR、MoCo)侧重全局特征,MAE 等重建方法侧重低层纹理,均无法捕获医学影像所需的解剖语义和空间精确性。

监督预训练的局限:SuPreM、STU-Net 等依赖大量专家标注,受限于预定义类别体系(如 25 个器官 + 7 种肿瘤),无法扩展到临床实践中数千种解剖变体和病理。

医学图像的独特挑战:与自然图像不同,医学扫描中几乎所有体素都有临床意义(骨密度→骨折、软组织纹理→肿瘤、血管模式→缺血),且空间精度至关重要。

标注成本障碍:3D 医学图像的像素级标注需要专业知识且极其昂贵,限制了以分割为 pretext task 的预训练方法的扩展性。

核心洞察:语义分割是最符合临床推理方式的 pretext task(临床医生通过识别结构"是什么"和"在哪里"进行推理),而自动生成的类别无关 mask 虽无语义标签且含噪声,但足以捕获解剖和病理上有意义的区域。

方法详解

整体框架

MASS 要解决的是 3D 医学图像没有"基础模型"的窘境:对比学习只学全局特征、MAE 只学低层纹理,监督预训练又被昂贵标注和预定义类别体系卡住。它的核心赌注是——语义分割才是最贴近临床推理的 pretext task,而且分割用的 mask 不必有语义标签、甚至可以很糙。

整个方法分两阶段。第一阶段做无标注 mask 生成:把在自然图像上训练、毫无医学知识的 SAM2 拿来当"免费标注机"——先给 3D 体积造 3 通道输入(CT 用不同窗宽窗位,MRI/PET 用分位数归一化),沿最优成像轴均匀采 2D 切片,跑 SAM2 的自动 mask 生成(密集点提示),再借 SAM2 的视频预测能力把 mask 传播到整个体积,每个体积能生成数百到数千个覆盖器官、血管、肿瘤、病灶的 3D mask。第二阶段做 mask 引导的自监督学习:沿用 Iris 的 in-context segmentation(ICS)架构,模型含图像编码器 \(E_\theta\)、任务编码模块 \(T_\phi\)、mask 解码器 \(D_\psi\);每次迭代采一张图 \(x\) 及其自动 mask \(m\),造出参考视图 \((x_s, y_s)\) 和查询视图 \((x_q, y_q)\),参考视图给"在哪里"的位置信息,外观变换则逼模型跨不同视觉表现学到"是什么"的语义一致性。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400, 'subGraphTitleMargin': {'top': 8, 'bottom': 16}}}}%%
flowchart TD
    subgraph S1["SAM2 自动 mask 生成(零人工标注)"]
        direction TB
        A["3D 体积 CT/MRI/PET<br/>多模态预处理 → 3 通道 2D 切片"] --> B["SAM2 自动 mask 生成<br/>密集点提示"]
        B --> C["SAM2 视频预测<br/>2D mask 传播回 3D 体积"]
    end
    C --> D["数千个类别无关 3D mask<br/>器官/血管/肿瘤/病灶 · 开放集多样性"]
    D --> E["采样图 x 及 mask m<br/>外观+空间增强 → 参考/查询视图"]
    subgraph S2["mask 引导的 in-context 分割(自监督)"]
        direction TB
        E --> F["图像编码器 Eθ + 任务编码 Tφ<br/>从参考 (F_s, y_s) 提任务嵌入 T"]
        F --> G["mask 解码器 Dψ<br/>据 T 预测查询 mask ŷ_q"]
    end
    G --> H["Dice + BCE 分割损失<br/>增强不变性逼出解剖语义"]

关键设计

1. SAM2 当"免费标注机":把无医学知识的自然图像模型变成 3D mask 生成器

要绕开昂贵的像素级人工标注,MASS 直接征用在自然图像上训练、对医学一无所知的 SAM2。流程分三步:先把 3D 体积造成 3 通道 2D 输入(CT 用不同窗宽窗位分别凸显软组织、骨、肺,MRI/PET 用分位数归一化),沿最优成像轴均匀采样 2D 切片;对每张切片跑 SAM2 的自动 mask 生成(密集点提示)拿到类别无关的 2D mask;再借 SAM2 的视频预测能力,把 2D mask 沿层间传播回整个 3D 体积。一套流程跨 CT、MRI、PET 统一处理,无需为每种模态单独设计,每个体积能产出数百到数千个覆盖器官、血管、肿瘤、病灶的 3D mask,全程零人工标注。

2. 开放集 mask 多样性:用数千个糙 mask 覆盖从器官到病理的多粒度概念

上一步产出的数千个 mask 本身就是关键资产:预定义类别体系(如 25 器官 + 7 肿瘤)撑不起临床上数千种解剖变体。MASS 训练时直接喂这些类别无关 mask,粒度从器官级到亚解剖区域到病理一应俱全,逼模型学一套广谱、可组合的视觉原语——纹理模式、边界特征、空间配置、强度分布。正因为不受闭集类别约束,在 taxonomy 不匹配的场景下它比依赖固定类别的方案更稳。

3. in-context 分割任务嵌入:用一对"参考-查询"把分割变成自监督信号

有了 mask 还得设计一个能学语义的任务。要在没有语义标签的情况下学语义,得让模型自己从一个例子推断"该分割什么"。MASS 沿用 Iris 的 in-context 分割架构:先编码参考图像 \(F_s = E_\theta(x_s)\),再用任务编码模块提取任务嵌入 \(\mathcal{T} = T_\phi(F_s, y_s)\),把"要分割哪个解剖结构"的信息压进 \(\mathcal{T}\),最后让解码器据此预测查询 mask \(\hat{y}_q = D_\psi(E_\theta(x_q), \mathcal{T})\)。这样每个自动 mask 都变成一道"看参考、分查询"的小任务,无需任何人工语义标签。

4. 隐式语义学习:靠不变性逼出语义,而不是靠标签教

自动 mask 没有语义名字,模型怎么知道学到的是"肝脏"而不是某种纹理捷径?MASS 的答案是在构造参考/查询视图时用增强切断捷径:外观增强(亮度、对比度、gamma、高斯噪声)破坏强度匹配和纹理模式,空间增强(旋转、缩放、平移)抹掉位置和方向线索。当所有表层线索都被扰乱,模型唯一能稳定依赖的就只剩解剖结构的本质语义身份——语义于是从不变性里"涌现"出来。

损失函数 / 训练策略

  • 损失函数\(\mathcal{L}_{Seg} = \mathcal{L}_{Dice}(\hat{y}_q, y_q) + \mathcal{L}_{BCE}(\hat{y}_q, y_q)\),Dice Loss + 二值交叉熵联合优化
  • 数据增强:空间变换(旋转、缩放、平移)同时作用于图像和 mask 以保持对应关系;外观变换(亮度、对比度、gamma、高斯噪声)仅作用于图像
  • 默认骨干:3D ResUNet
  • 预训练规模:小规模(单数据集 20-200 扫描)到大规模(5K 多模态 CT/MRI/PET 体积,12 个数据集)
  • 下游使用三种模式:(1) 免训练 in-context 分割(无需参数更新);(2) 任务特定微调;(3) 冻结编码器做分类

实验关键数据

主实验

表1:单数据集 few-shot 分割(Dice %)

方法 BCV 1-shot BCV 10-shot AMOS MR 1-shot AMOS MR 10-shot SS H&N 1-shot KiTS 30-shot
Scratch 27.3 75.2 32.8 75.9 51.8 35.7
SimCLR 44.9 78.4 35.9 78.0 53.6 41.5
MASS-IC 65.5 73.6 62.1 71.6 59.3 3.8
MASS-FT 68.8 83.7 65.9 84.7 66.9 64.3
全监督 83.6 85.5 78.2 81.7

表2:大规模多模态预训练分割(Dice %,5K 体积预训练)

方法 BCV 1-shot AMOS MR 1-shot KiTS 30-shot Pelvic 1-shot
SuPreM (监督) 63.9 55.1 64.1 85.4
Iris-FT (监督) 83.4 83.6 78.3 86.9
AnatoMix 53.1 35.9 40.6 82.2
Merlin 50.1 37.9 51.1 79.3
MASS-FT 70.2 74.3 68.5 92.8

表3:分类性能(AUC %,冻结编码器)

方法 RSNA ICH 5% RSNA ICH 100% Liver Trauma 30% Kidney Trauma 30%
Scratch (全训练) 72.8 89.5 74.4 75.0
SuPreM 73.5 78.3 68.3 54.9
Merlin 57.3 65.5 60.1 58.0
MASS 75.4 81.5 86.7 82.9

消融实验

Mask 质量分析:自动 mask 与 GT 的平均 Dice 仅 15.2%(BCV)和 7.1%(SS H&N),仅 14%/13% 的 mask Dice > 40,但 MASS 仍取得 65.5% 和 59.3% 的 1-shot 性能——说明弱监督即足够。

Mask 生成方法对比

Mask 来源 BCV 1-shot SS H&N 1-shot
TotalSegmentator 80.7 13.5(类别不覆盖)
SAM2 65.5 59.3
SLIC 超像素 54.3 43.8

数据多样性 > 数量:从单器官腹部 CT(BCV,42.7%)扩展到全身 CT + 多模态达到 73.9%。解剖和模态多样性驱动性能提升,而同域数据堆叠迅速饱和。

架构泛化:ResUNet 和 I3DResNet152 在相同设置下性能相当(分割 73.87 vs 72.56,分类 75.42 vs 75.98),验证方法与具体编码器设计无关。

关键发现

  1. 解剖 vs 病理:MASS-IC 在解剖结构(器官)上有强 few-shot 能力,但在高变异性肿瘤上 in-context 性能有限(KiTS 仅 2.7%);微调后 MASS-FT 显著超越基线(64.3% vs 42.2%)
  2. 20-40% 标注即匹配全监督:在解剖结构数据集上,MASS-FT 仅用 10-shot(25-40% 训练数据)即可达到全监督性能
  3. 冻结编码器超越全训练:在 RSNA ICH 5% 数据上,MASS 冻结编码器(75.4%)超越从头全训练(72.8%);Trauma 30% 数据上提升更显著(肝 86.7 vs 74.4、肾 82.9 vs 75.0)
  4. OOD 泛化:在完全未见的数据集上(BraTS、ACDC、Pelvic),MASS 展现竞争力甚至超越监督预训练(Pelvic 92.8 vs Iris 86.9)

亮点与洞察

  • 范式创新:首次将"类别无关 mask 引导的 in-context 分割"确立为 3D 医学图像自监督预训练的 pretext task,绕开了标注瓶颈
  • 从弱到强:自动 mask 与 GT 平均重叠仅 7-15%,但通过在数千个"大致正确"的分割任务上训练,模型学到了超越单个 mask 边界的语义概念
  • 数据效率极高:仅用 5K 体积(远少于 OpenMind 的 114K)就超越所有自监督基线,且 BCV 单数据集(23 scans)预训练在 ICH 分类上已接近 SuPreM
  • 语义从不变性中涌现:不需要语义标签,增强引起的外观/空间变化迫使模型学到唯一不变的因素——解剖结构的本质语义身份
  • 开放集优势:不受预定义类别约束,SAM2 mask 天然覆盖多粒度多结构,在 taxonomy 不匹配的场景下(如 SS H&N)远优于 TotalSegmentator

局限性

  1. 病理结构 in-context 能力弱:高变异性肿瘤(如 KiTS)的 zero-shot in-context 分割效果差(2.7%),必须通过微调才能有效处理
  2. 未探索弱 mask + 专家标注的协同:刻意排除了有标注数据,未研究自动 mask 与少量专家标注结合的潜力
  3. 依赖 SAM2 的边界检测能力:mask 质量受限于 SAM2 在医学图像上的域迁移性能,对边界模糊的结构可能效果不佳
  4. 缺少视觉-语言对齐:未与放射学报告等文本模态对齐,限制了在报告生成等任务上的应用
  5. 与监督预训练的差距:在评估目标与监督标注一致时(如 BCV),监督方法(Iris 83.2)仍领先 MASS(70.2)约 10-15 点

相关工作

  • 自监督学习:Model Genesis(图像恢复)、MAE/SimMIM(mask 重建)、DINO(自蒸馏)、SimCLR/MoCo(对比学习)——侧重通用视觉特征,缺乏语义分割的空间精度
  • 监督预训练:SuPreM(25M 标注体素)、STU-Net(TotalSegmentator 全身 CT)——受限于标注规模和预定义类别
  • 合成数据:AnatoMix(从 TotalSegmentator mask 生成合成 CT)——分布差异限制迁移性能
  • 通用分割与交互模型:UniverSeg、Iris(in-context 学习但需标注)、SAM 医学适配版——仍需标注或推理时人工交互
  • MASS 的差异:唯一的无标注 + 开放集 mask + 语义自涌现 + 多模态兼容的自监督方案

评分

  • 新颖性: ⭐⭐⭐⭐⭐ — 首次用类别无关自动 mask 做医学图像自监督预训练,pretext task 设计巧妙且直觉清晰
  • 实验充分度: ⭐⭐⭐⭐⭐ — 覆盖 4 模态 12+ 数据集、分割+分类两大任务线、从 20 scans 到 5K volumes 的规模实验、多维消融
  • 写作质量: ⭐⭐⭐⭐⭐ — 动机-方法-实验逻辑链完整,"不变性→语义涌现"的解释优雅且有说服力
  • 价值: ⭐⭐⭐⭐⭐ — 为 3D 医学图像基础模型提供了无标注可扩展的新路径,实用性极强