Learning Generalizable 3D Medical Image Representations from Mask-Guided Self-Supervision¶

会议: CVPR 2026
arXiv: 2603.13660
代码: 有（论文中提到 Code is available）
领域: 医学图像
关键词: 自监督学习, 3D医学图像, mask引导预训练, in-context分割, 基础模型

一句话总结¶

提出 MASS（MAsk-guided Self-Supervised learning），利用 SAM2 自动生成的类别无关 mask 作为伪标注，以 in-context 分割为 pretext task 进行自监督预训练，无需任何人工标注即可学到语义丰富、泛化性强的 3D 医学图像表征，在 few-shot 分割和冻结编码器分类上均取得优异表现。

研究背景与动机¶

基础模型缺位：GPT、CLIP、DINO 等在自然图像/语言领域已通过大规模无标注数据学到通用表征，但 3D 医学图像领域尚无对应的基础模型范式。

现有自监督方法不足：对比学习（SimCLR、MoCo）侧重全局特征，MAE 等重建方法侧重低层纹理，均无法捕获医学影像所需的解剖语义和空间精确性。

监督预训练的局限：SuPreM、STU-Net 等依赖大量专家标注，受限于预定义类别体系（如 25 个器官 + 7 种肿瘤），无法扩展到临床实践中数千种解剖变体和病理。

医学图像的独特挑战：与自然图像不同，医学扫描中几乎所有体素都有临床意义（骨密度→骨折、软组织纹理→肿瘤、血管模式→缺血），且空间精度至关重要。

标注成本障碍：3D 医学图像的像素级标注需要专业知识且极其昂贵，限制了以分割为 pretext task 的预训练方法的扩展性。

核心洞察：语义分割是最符合临床推理方式的 pretext task（临床医生通过识别结构"是什么"和"在哪里"进行推理），而自动生成的类别无关 mask 虽无语义标签且含噪声，但足以捕获解剖和病理上有意义的区域。

方法详解¶

整体框架¶

MASS 要解决的是 3D 医学图像没有"基础模型"的窘境：对比学习只学全局特征、MAE 只学低层纹理，监督预训练又被昂贵标注和预定义类别体系卡住。它的核心赌注是——语义分割才是最贴近临床推理的 pretext task，而且分割用的 mask 不必有语义标签、甚至可以很糙。

整个方法分两阶段。第一阶段做无标注 mask 生成：把在自然图像上训练、毫无医学知识的 SAM2 拿来当"免费标注机"——先给 3D 体积造 3 通道输入（CT 用不同窗宽窗位，MRI/PET 用分位数归一化），沿最优成像轴均匀采 2D 切片，跑 SAM2 的自动 mask 生成（密集点提示），再借 SAM2 的视频预测能力把 mask 传播到整个体积，每个体积能生成数百到数千个覆盖器官、血管、肿瘤、病灶的 3D mask。第二阶段做 mask 引导的自监督学习：沿用 Iris 的 in-context segmentation（ICS）架构，模型含图像编码器 \(E_\theta\)、任务编码模块 \(T_\phi\)、mask 解码器 \(D_\psi\)；每次迭代采一张图 \(x\) 及其自动 mask \(m\)，造出参考视图 \((x_s, y_s)\) 和查询视图 \((x_q, y_q)\)，参考视图给"在哪里"的位置信息，外观变换则逼模型跨不同视觉表现学到"是什么"的语义一致性。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400, 'subGraphTitleMargin': {'top': 8, 'bottom': 16}}}}%%
flowchart TD
    subgraph S1["SAM2 自动 mask 生成（零人工标注）"]
        direction TB
        A["3D 体积 CT/MRI/PET<br/>多模态预处理 → 3 通道 2D 切片"] --> B["SAM2 自动 mask 生成<br/>密集点提示"]
        B --> C["SAM2 视频预测<br/>2D mask 传播回 3D 体积"]
    end
    C --> D["数千个类别无关 3D mask<br/>器官/血管/肿瘤/病灶 · 开放集多样性"]
    D --> E["采样图 x 及 mask m<br/>外观+空间增强 → 参考/查询视图"]
    subgraph S2["mask 引导的 in-context 分割（自监督）"]
        direction TB
        E --> F["图像编码器 Eθ + 任务编码 Tφ<br/>从参考 (F_s, y_s) 提任务嵌入 T"]
        F --> G["mask 解码器 Dψ<br/>据 T 预测查询 mask ŷ_q"]
    end
    G --> H["Dice + BCE 分割损失<br/>增强不变性逼出解剖语义"]

关键设计¶

1. SAM2 当"免费标注机"：把无医学知识的自然图像模型变成 3D mask 生成器

要绕开昂贵的像素级人工标注，MASS 直接征用在自然图像上训练、对医学一无所知的 SAM2。流程分三步：先把 3D 体积造成 3 通道 2D 输入（CT 用不同窗宽窗位分别凸显软组织、骨、肺，MRI/PET 用分位数归一化），沿最优成像轴均匀采样 2D 切片；对每张切片跑 SAM2 的自动 mask 生成（密集点提示）拿到类别无关的 2D mask；再借 SAM2 的视频预测能力，把 2D mask 沿层间传播回整个 3D 体积。一套流程跨 CT、MRI、PET 统一处理，无需为每种模态单独设计，每个体积能产出数百到数千个覆盖器官、血管、肿瘤、病灶的 3D mask，全程零人工标注。

2. 开放集 mask 多样性：用数千个糙 mask 覆盖从器官到病理的多粒度概念

上一步产出的数千个 mask 本身就是关键资产：预定义类别体系（如 25 器官 + 7 肿瘤）撑不起临床上数千种解剖变体。MASS 训练时直接喂这些类别无关 mask，粒度从器官级到亚解剖区域到病理一应俱全，逼模型学一套广谱、可组合的视觉原语——纹理模式、边界特征、空间配置、强度分布。正因为不受闭集类别约束，在 taxonomy 不匹配的场景下它比依赖固定类别的方案更稳。

3. in-context 分割任务嵌入：用一对"参考-查询"把分割变成自监督信号

有了 mask 还得设计一个能学语义的任务。要在没有语义标签的情况下学语义，得让模型自己从一个例子推断"该分割什么"。MASS 沿用 Iris 的 in-context 分割架构：先编码参考图像 \(F_s = E_\theta(x_s)\)，再用任务编码模块提取任务嵌入 \(\mathcal{T} = T_\phi(F_s, y_s)\)，把"要分割哪个解剖结构"的信息压进 \(\mathcal{T}\)，最后让解码器据此预测查询 mask \(\hat{y}_q = D_\psi(E_\theta(x_q), \mathcal{T})\)。这样每个自动 mask 都变成一道"看参考、分查询"的小任务，无需任何人工语义标签。

4. 隐式语义学习：靠不变性逼出语义，而不是靠标签教

自动 mask 没有语义名字，模型怎么知道学到的是"肝脏"而不是某种纹理捷径？MASS 的答案是在构造参考/查询视图时用增强切断捷径：外观增强（亮度、对比度、gamma、高斯噪声）破坏强度匹配和纹理模式，空间增强（旋转、缩放、平移）抹掉位置和方向线索。当所有表层线索都被扰乱，模型唯一能稳定依赖的就只剩解剖结构的本质语义身份——语义于是从不变性里"涌现"出来。

损失函数 / 训练策略¶

损失函数：\(\mathcal{L}_{Seg} = \mathcal{L}_{Dice}(\hat{y}_q, y_q) + \mathcal{L}_{BCE}(\hat{y}_q, y_q)\)，Dice Loss + 二值交叉熵联合优化
数据增强：空间变换（旋转、缩放、平移）同时作用于图像和 mask 以保持对应关系；外观变换（亮度、对比度、gamma、高斯噪声）仅作用于图像
默认骨干：3D ResUNet
预训练规模：小规模（单数据集 20-200 扫描）到大规模（5K 多模态 CT/MRI/PET 体积，12 个数据集）
下游使用三种模式：(1) 免训练 in-context 分割（无需参数更新）；(2) 任务特定微调；(3) 冻结编码器做分类

实验关键数据¶

主实验¶

表1：单数据集 few-shot 分割（Dice %）

方法	BCV 1-shot	BCV 10-shot	AMOS MR 1-shot	AMOS MR 10-shot	SS H&N 1-shot	KiTS 30-shot
Scratch	27.3	75.2	32.8	75.9	51.8	35.7
SimCLR	44.9	78.4	35.9	78.0	53.6	41.5
MASS-IC	65.5	73.6	62.1	71.6	59.3	3.8
MASS-FT	68.8	83.7	65.9	84.7	66.9	64.3
全监督	83.6	—	85.5	—	78.2	81.7

表2：大规模多模态预训练分割（Dice %，5K 体积预训练）

方法	BCV 1-shot	AMOS MR 1-shot	KiTS 30-shot	Pelvic 1-shot
SuPreM (监督)	63.9	55.1	64.1	85.4
Iris-FT (监督)	83.4	83.6	78.3	86.9
AnatoMix	53.1	35.9	40.6	82.2
Merlin	50.1	37.9	51.1	79.3
MASS-FT	70.2	74.3	68.5	92.8

表3：分类性能（AUC %，冻结编码器）

方法	RSNA ICH 5%	RSNA ICH 100%	Liver Trauma 30%	Kidney Trauma 30%
Scratch (全训练)	72.8	89.5	74.4	75.0
SuPreM	73.5	78.3	68.3	54.9
Merlin	57.3	65.5	60.1	58.0
MASS	75.4	81.5	86.7	82.9

消融实验¶

Mask 质量分析：自动 mask 与 GT 的平均 Dice 仅 15.2%（BCV）和 7.1%（SS H&N），仅 14%/13% 的 mask Dice > 40，但 MASS 仍取得 65.5% 和 59.3% 的 1-shot 性能——说明弱监督即足够。

Mask 生成方法对比：

Mask 来源	BCV 1-shot	SS H&N 1-shot
TotalSegmentator	80.7	13.5（类别不覆盖）
SAM2	65.5	59.3
SLIC 超像素	54.3	43.8

数据多样性 > 数量：从单器官腹部 CT（BCV，42.7%）扩展到全身 CT + 多模态达到 73.9%。解剖和模态多样性驱动性能提升，而同域数据堆叠迅速饱和。

架构泛化：ResUNet 和 I3DResNet152 在相同设置下性能相当（分割 73.87 vs 72.56，分类 75.42 vs 75.98），验证方法与具体编码器设计无关。

关键发现¶

解剖 vs 病理：MASS-IC 在解剖结构（器官）上有强 few-shot 能力，但在高变异性肿瘤上 in-context 性能有限（KiTS 仅 2.7%）；微调后 MASS-FT 显著超越基线（64.3% vs 42.2%）
20-40% 标注即匹配全监督：在解剖结构数据集上，MASS-FT 仅用 10-shot（25-40% 训练数据）即可达到全监督性能
冻结编码器超越全训练：在 RSNA ICH 5% 数据上，MASS 冻结编码器（75.4%）超越从头全训练（72.8%）；Trauma 30% 数据上提升更显著（肝 86.7 vs 74.4、肾 82.9 vs 75.0）
OOD 泛化：在完全未见的数据集上（BraTS、ACDC、Pelvic），MASS 展现竞争力甚至超越监督预训练（Pelvic 92.8 vs Iris 86.9）

亮点与洞察¶

范式创新：首次将"类别无关 mask 引导的 in-context 分割"确立为 3D 医学图像自监督预训练的 pretext task，绕开了标注瓶颈
从弱到强：自动 mask 与 GT 平均重叠仅 7-15%，但通过在数千个"大致正确"的分割任务上训练，模型学到了超越单个 mask 边界的语义概念
数据效率极高：仅用 5K 体积（远少于 OpenMind 的 114K）就超越所有自监督基线，且 BCV 单数据集（23 scans）预训练在 ICH 分类上已接近 SuPreM
语义从不变性中涌现：不需要语义标签，增强引起的外观/空间变化迫使模型学到唯一不变的因素——解剖结构的本质语义身份
开放集优势：不受预定义类别约束，SAM2 mask 天然覆盖多粒度多结构，在 taxonomy 不匹配的场景下（如 SS H&N）远优于 TotalSegmentator

局限性¶

病理结构 in-context 能力弱：高变异性肿瘤（如 KiTS）的 zero-shot in-context 分割效果差（2.7%），必须通过微调才能有效处理
未探索弱 mask + 专家标注的协同：刻意排除了有标注数据，未研究自动 mask 与少量专家标注结合的潜力
依赖 SAM2 的边界检测能力：mask 质量受限于 SAM2 在医学图像上的域迁移性能，对边界模糊的结构可能效果不佳
缺少视觉-语言对齐：未与放射学报告等文本模态对齐，限制了在报告生成等任务上的应用
与监督预训练的差距：在评估目标与监督标注一致时（如 BCV），监督方法（Iris 83.2）仍领先 MASS（70.2）约 10-15 点

评分¶

新颖性: ⭐⭐⭐⭐⭐ — 首次用类别无关自动 mask 做医学图像自监督预训练，pretext task 设计巧妙且直觉清晰
实验充分度: ⭐⭐⭐⭐⭐ — 覆盖 4 模态 12+ 数据集、分割+分类两大任务线、从 20 scans 到 5K volumes 的规模实验、多维消融
写作质量: ⭐⭐⭐⭐⭐ — 动机-方法-实验逻辑链完整，"不变性→语义涌现"的解释优雅且有说服力
价值: ⭐⭐⭐⭐⭐ — 为 3D 医学图像基础模型提供了无标注可扩展的新路径，实用性极强