跳转至

MIL-PF: Multiple Instance Learning on Precomputed Features for Mammography Classification

会议: CVPR 2026
arXiv: 2603.09374
代码: 有(已开源)
领域: 医学图像
关键词: 多实例学习, 乳腺X线摄影, 预计算特征, 冻结基础模型, 弱监督分类

一句话总结

将冻结的通用基础编码器(DINOv2 ViT-Giant / MedSigLIP)与仅 ~40k 参数的轻量 MIL 聚合头结合,通过预计算特征 + 双流聚合(全局均值 + 局部 Perceiver 交叉注意力),在 EMBED 等大规模乳腺 X 线分类基准上以 5-7 分钟训练达到 SOTA(AUC 0.916, Spec@Sens=0.9 达 0.762),可训练参数比基线少 35-458 倍。

研究背景与动机

领域现状:乳腺癌是女性最常见恶性肿瘤和首位癌症死因,乳腺 X 线摄影是首选筛查方式。现有方法要么端到端微调大骨干(14-23M 参数,计算昂贵),要么使用领域特定预训练编码器(如 MammoCLIP)但泛化受限。

现有痛点:乳腺 X 线有三个独特挑战——(1) 分辨率极高(最高 4708×5844 像素),端到端微调大模型不现实;(2) 标注仅乳房级别(BI-RADS 分级),缺乏像素级标注,属弱监督;(3) 单次检查包含多视角(CC、MLO),需跨视图联合推理。

核心矛盾:强大的通用基础模型(如 DINOv2)是否能零样本泛化到分布外的乳腺 X 线领域?如果行,就能通过预计算特征大幅降低实验成本,但这挑战了"医学影像必须领域特定预训练"的普遍假设。

本文目标 在不微调大型视觉编码器的前提下,利用冻结基础模型特征,设计同时建模全局组织结构和稀疏局部病变信号的轻量级分类框架。

切入角度:作者发现 DINOv2 ViT-Giant 和 MedSigLIP 在乳腺 X 线上零样本泛化出奇地好,大幅超越领域特定的 MammoCLIP(AUC 0.897 vs 0.870),验证了"冻结通用编码器 + 轻量任务头"的可行性。

核心 idea:冻结通用基础编码器预计算特征 + 双流 MIL 聚合头(全局均值 + 局部 Perceiver 注意力),40k 参数 5 分钟训练达到 SOTA。

方法详解

整体框架

MIL-PF 分两阶段:(1) 特征预计算——用冻结编码器 \(\mathcal{F}\)(DINOv2 ViT-Giant 或 MedSigLIP)分别提取每张乳腺图像的全局特征(整图编码 \(\mathcal{G}_i\))和局部特征(分块编码 \(\mathcal{T}_i\)),构建嵌入数据集 \(\mathcal{E} = \{(\mathcal{G}_i, \mathcal{T}_i, y_i)\}\);(2) MIL 头训练——在嵌入上训练 ~40k 参数的聚合头,包含全局流聚合器 \(\mathcal{A}_\psi^G\)、局部流 Perceiver 聚合器 \(\mathcal{A}_\omega^T\)、最终分类层 \(h_\theta\)。一个 bag 定义为同一乳房在同一检查中的所有视角图像。

关键设计

  1. 双流嵌入数据集构建

    • 功能:将每次乳腺检查拆解为全局组织上下文和局部病变候选两个信号源
    • 核心思路:全局流对每张完整图像编码 \(\mathcal{G}_i = \{\mathcal{F}(I_i^{(n)})\}_n\),捕捉整体组织密度。局部流将图像切为非重叠 tile 网格、丢弃纯背景 tile、对含乳腺组织的 tile 逐个编码,所有视角 tile 合并 \(\mathcal{T}_i = \bigcup_n \bigcup_k \{\mathcal{F}(C_i^{(n)(k)})\}\)。tile 大小需足够大以包含预期 ROI 但不超过编码器支持的最大分辨率(448/518 像素)
    • 设计动机:全局提供组织密度宏观信息,局部捕捉稀疏病变精细信号,两者互补
  2. Perceiver 风格局部注意力聚合器

    • 功能:从大量局部 tile 嵌入中"拉取"最相关病变信息到单个汇总向量
    • 核心思路:一个可训练 latent 向量 \(z\) 作为 query,所有 tile 嵌入投影为 Key 和 Value,计算 \(\text{softmax}(zK^T)V\) 加权和。仅用 1 个 latent query 即足够,增加更多无收益
    • 设计动机:Mean pooling 被背景 tile 稀释信号,Max pooling 只捕单个最显著 tile。交叉注意力学习关注哪些 tile 任务相关,且比 self-attention 更参数高效(不需建模 tile 间依赖)
  3. 晚期融合分类头

    • 功能:合并全局和局部两流为最终预测
    • 核心思路:两流各自聚合后的向量拼接,经分类层 \(\hat{y}_i = h_\theta(\text{concat}(\mathcal{A}_\psi^G(\mathcal{G}_i), \mathcal{A}_\omega^T(\mathcal{T}_i)))\)。聚合器内含 2 层 MLP(embedding_dim→16→8,ReLU)
    • 设计动机:晚期融合保持模块化和可解释性,更复杂的早期融合对此任务无必要收益

损失函数 / 训练策略

  • Binary Cross-Entropy 损失
  • 整个嵌入数据集可放入单个 A100 40GB 的一个 batch,单次训练 5-7 分钟,~2M FLOPS 每乳房前向
  • 每实验运行 36 次独立训练,选验证集 AUC 最高模型(利用低训练成本缓解方差)
  • 数据划分 70/10/20,按 BI-RADS 分层,无患者泄漏
  • 分类不用重叠 tile,注意力图计算时 75% 重叠

实验关键数据

主实验——EMBED + VinDr BI-RADS 分类

方法 可训练参数 级别 EMBED AUC↑ EMBED Spec@Sens=0.9↑ VinDr AUC↑
GMIC [Shen] 14.11M Image 0.816 0.380 0.899
SIL IL GMIC [Pathak] 22.49M Image 0.875 0.566 0.911
FPN-AbMIL [Mourão] 1.76M Image 0.802 0.367 0.920
FPN-AbMIL (mean) 1.76M Breast 0.835 0.403 0.911
MIL-PF (DINOv2 attn) 0.05M Breast 0.916 0.762 0.894
MIL-PF (MedSigLIP attn) 0.04M Breast 0.914 0.746 0.911

其他数据集结果

数据集 MIL-PF (DINOv2 attn) AUC MIL-PF (MedSigLIP attn) AUC 最佳基线 AUC
VinDr 钙化 0.967 0.967 0.954 (FPN-AbMIL)
VinDr 质块 0.800 0.814 0.808 (FPN-AbMIL mean)
RSNA Cancer 0.923 0.923 0.914 (FPN-AbMIL mean)

消融实验——编码器选择与聚合方式

编码器 分辨率 AUC (EMBED) Spec@Sens=0.9
DINOv2 ViT-Giant 518×518 0.897 0.655
MedSigLIP 448×448 0.897 0.691
MammoCLIP 1520×912 0.870 0.558
BiomedCLIP 224×224 0.872 0.606
DINOv3 ViT-Huge+ 512×512 0.831 0.497
聚合方式 DINOv2 AUC DINOv2 Spec@Sens=0.9
全局 max + 局部 max 0.905 0.703
全局 max + 局部 attn 0.916 0.762

关键发现

  • 通用基础模型(DINOv2/MedSigLIP)在乳腺 X 线零样本泛化上大幅超越领域特定 MammoCLIP(AUC 0.897 vs 0.870),挑战了"医学影像必须领域特定预训练"的假设
  • 注意力聚合在 Spec@Sens=0.9 上优势尤其明显(0.762 vs 0.703),这是临床更关键的指标
  • DINOv3 意外表现不佳(AUC 0.831),最新版本并非总是最好
  • 小病灶检测受限于 tile 尺寸(448-518 像素),mAPs(小病灶 mAP)最低仅 0.1-1.2

亮点与洞察

  • 核心洞见"通用基础模型冻结后直接用于乳腺 X 线效果出人意料地好"——挑战了领域特定预训练必要性假设,对整个医学影像社区有启示。验证了大规模通用预训练表示在分布外医学域的鲁棒泛化
  • 仅 40k 参数 5-7 分钟训练极大降低研究门槛——对资源受限团队尤其有价值,预计算特征使快速实验迭代和编码器比较成为可能
  • Perceiver 风格单 query 交叉注意力在 ROI 稀疏场景是巧妙选择——比 self-attention 更参数高效,比 mean/max 更能捕捉稀疏信号
  • MIL 层次化问题形式化具有普适性:嵌套结构 + 互补双流 + 弱标签框架可直接迁移到病理学、放射学等其他高分辨率弱监督场景

局限与展望

  • 在小型 VinDr 上 BI-RADS 分类不及端到端微调(AUC 0.894 vs 0.911),冻结编码器在小数据集优势不明显
  • 小病灶检测受限于 tile 尺寸,mAPs 极低(0.1-1.2)——可通过多尺度 tile 策略改进
  • 未利用患者历史检查或双侧对称性信息——作者指出这是重要未来方向
  • Run 间方差较大(Spec@Sens=0.9 高达 11%),需 36 次训练 + 选择策略增加使用复杂度
  • BI-RADS 标签本身噪声大且放射科医生间一致性有限,限制训练信号质量上限

相关工作与启发

  • vs FPN-AbMIL/SetTrans (Mourão et al.):需 1.76-5.38M 参数端到端训练。MIL-PF 在最大规模的 EMBED 上全面超越(AUC 0.916 vs 0.835),关键优势是训练效率(参数量少 35 倍以上)且乳房级建模更匹配临床流程
  • vs GMIC/SIL IL GMIC (Shen/Pathak et al.):需 14-23M 参数。SIL IL GMIC 在小规模 VinDr 上更强(0.911),但在最大最多样的 EMBED 上被 MIL-PF 超越,说明预计算方法在大数据集更鲁棒
  • vs MammoCLIP:领域特定预训练在分布外数据集反而不如通用 DINOv2/MedSigLIP,表明大规模通用预训练更具跨域鲁棒性

评分

⭐⭐⭐⭐

  • 新颖性 ⭐⭐⭐:方法是已有组件组合,核心发现是实验观察而非方法创新
  • 实验充分度 ⭐⭐⭐⭐⭐:三个数据集、多编码器对比、36 次运行、完整消融、检测可解释性
  • 写作质量 ⭐⭐⭐⭐:问题形式化清晰,实验设计严谨
  • 价值 ⭐⭐⭐⭐:对医学影像社区有重要实践价值——展示低资源高效研究路径