MIL-PF: Multiple Instance Learning on Precomputed Features for Mammography Classification¶

会议: CVPR 2026
arXiv: 2603.09374
代码: 有（已开源）
领域: 医学图像
关键词: 多实例学习, 乳腺X线摄影, 预计算特征, 冻结基础模型, 弱监督分类

一句话总结¶

将冻结的通用基础编码器（DINOv2 ViT-Giant / MedSigLIP）与仅 ~40k 参数的轻量 MIL 聚合头结合，通过预计算特征 + 双流聚合（全局均值 + 局部 Perceiver 交叉注意力），在 EMBED 等大规模乳腺 X 线分类基准上以 5-7 分钟训练达到 SOTA（AUC 0.916, Spec@Sens=0.9 达 0.762），可训练参数比基线少 35-458 倍。

研究背景与动机¶

领域现状：乳腺癌是女性最常见恶性肿瘤和首位癌症死因，乳腺 X 线摄影是首选筛查方式。现有方法要么端到端微调大骨干（14-23M 参数，计算昂贵），要么使用领域特定预训练编码器（如 MammoCLIP）但泛化受限。

现有痛点：乳腺 X 线有三个独特挑战——(1) 分辨率极高（最高 4708×5844 像素），端到端微调大模型不现实；(2) 标注仅乳房级别（BI-RADS 分级），缺乏像素级标注，属弱监督；(3) 单次检查包含多视角（CC、MLO），需跨视图联合推理。

核心矛盾：强大的通用基础模型（如 DINOv2）是否能零样本泛化到分布外的乳腺 X 线领域？如果行，就能通过预计算特征大幅降低实验成本，但这挑战了"医学影像必须领域特定预训练"的普遍假设。

本文目标 在不微调大型视觉编码器的前提下，利用冻结基础模型特征，设计同时建模全局组织结构和稀疏局部病变信号的轻量级分类框架。

切入角度：作者发现 DINOv2 ViT-Giant 和 MedSigLIP 在乳腺 X 线上零样本泛化出奇地好，大幅超越领域特定的 MammoCLIP（AUC 0.897 vs 0.870），验证了"冻结通用编码器 + 轻量任务头"的可行性。

核心 idea：冻结通用基础编码器预计算特征 + 双流 MIL 聚合头（全局均值 + 局部 Perceiver 注意力），40k 参数 5 分钟训练达到 SOTA。

方法详解¶

整体框架¶

MIL-PF 分两阶段：(1) 特征预计算——用冻结编码器 \(\mathcal{F}\)（DINOv2 ViT-Giant 或 MedSigLIP）分别提取每张乳腺图像的全局特征（整图编码 \(\mathcal{G}_i\)）和局部特征（分块编码 \(\mathcal{T}_i\)），构建嵌入数据集 \(\mathcal{E} = \{(\mathcal{G}_i, \mathcal{T}_i, y_i)\}\)；(2) MIL 头训练——在嵌入上训练 ~40k 参数的聚合头，包含全局流聚合器 \(\mathcal{A}_\psi^G\)、局部流 Perceiver 聚合器 \(\mathcal{A}_\omega^T\)、最终分类层 \(h_\theta\)。一个 bag 定义为同一乳房在同一检查中的所有视角图像。

关键设计¶

双流嵌入数据集构建
- 功能：将每次乳腺检查拆解为全局组织上下文和局部病变候选两个信号源
- 核心思路：全局流对每张完整图像编码 \(\mathcal{G}_i = \{\mathcal{F}(I_i^{(n)})\}_n\)，捕捉整体组织密度。局部流将图像切为非重叠 tile 网格、丢弃纯背景 tile、对含乳腺组织的 tile 逐个编码，所有视角 tile 合并 \(\mathcal{T}_i = \bigcup_n \bigcup_k \{\mathcal{F}(C_i^{(n)(k)})\}\)。tile 大小需足够大以包含预期 ROI 但不超过编码器支持的最大分辨率（448/518 像素）
- 设计动机：全局提供组织密度宏观信息，局部捕捉稀疏病变精细信号，两者互补
Perceiver 风格局部注意力聚合器
- 功能：从大量局部 tile 嵌入中"拉取"最相关病变信息到单个汇总向量
- 核心思路：一个可训练 latent 向量 \(z\) 作为 query，所有 tile 嵌入投影为 Key 和 Value，计算 \(\text{softmax}(zK^T)V\) 加权和。仅用 1 个 latent query 即足够，增加更多无收益
- 设计动机：Mean pooling 被背景 tile 稀释信号，Max pooling 只捕单个最显著 tile。交叉注意力学习关注哪些 tile 任务相关，且比 self-attention 更参数高效（不需建模 tile 间依赖）
晚期融合分类头
- 功能：合并全局和局部两流为最终预测
- 核心思路：两流各自聚合后的向量拼接，经分类层 \(\hat{y}_i = h_\theta(\text{concat}(\mathcal{A}_\psi^G(\mathcal{G}_i), \mathcal{A}_\omega^T(\mathcal{T}_i)))\)。聚合器内含 2 层 MLP（embedding_dim→16→8，ReLU）
- 设计动机：晚期融合保持模块化和可解释性，更复杂的早期融合对此任务无必要收益

损失函数 / 训练策略¶

Binary Cross-Entropy 损失
整个嵌入数据集可放入单个 A100 40GB 的一个 batch，单次训练 5-7 分钟，~2M FLOPS 每乳房前向
每实验运行 36 次独立训练，选验证集 AUC 最高模型（利用低训练成本缓解方差）
数据划分 70/10/20，按 BI-RADS 分层，无患者泄漏
分类不用重叠 tile，注意力图计算时 75% 重叠

实验关键数据¶

主实验——EMBED + VinDr BI-RADS 分类¶

方法	可训练参数	级别	EMBED AUC↑	EMBED Spec@Sens=0.9↑	VinDr AUC↑
GMIC [Shen]	14.11M	Image	0.816	0.380	0.899
SIL IL GMIC [Pathak]	22.49M	Image	0.875	0.566	0.911
FPN-AbMIL [Mourão]	1.76M	Image	0.802	0.367	0.920
FPN-AbMIL (mean)	1.76M	Breast	0.835	0.403	0.911
MIL-PF (DINOv2 attn)	0.05M	Breast	0.916	0.762	0.894
MIL-PF (MedSigLIP attn)	0.04M	Breast	0.914	0.746	0.911

其他数据集结果¶

数据集	MIL-PF (DINOv2 attn) AUC	MIL-PF (MedSigLIP attn) AUC	最佳基线 AUC
VinDr 钙化	0.967	0.967	0.954 (FPN-AbMIL)
VinDr 质块	0.800	0.814	0.808 (FPN-AbMIL mean)
RSNA Cancer	0.923	0.923	0.914 (FPN-AbMIL mean)

消融实验——编码器选择与聚合方式¶

编码器	分辨率	AUC (EMBED)	Spec@Sens=0.9
DINOv2 ViT-Giant	518×518	0.897	0.655
MedSigLIP	448×448	0.897	0.691
MammoCLIP	1520×912	0.870	0.558
BiomedCLIP	224×224	0.872	0.606
DINOv3 ViT-Huge+	512×512	0.831	0.497

聚合方式	DINOv2 AUC	DINOv2 Spec@Sens=0.9
全局 max + 局部 max	0.905	0.703
全局 max + 局部 attn	0.916	0.762

关键发现¶

通用基础模型（DINOv2/MedSigLIP）在乳腺 X 线零样本泛化上大幅超越领域特定 MammoCLIP（AUC 0.897 vs 0.870），挑战了"医学影像必须领域特定预训练"的假设
注意力聚合在 Spec@Sens=0.9 上优势尤其明显（0.762 vs 0.703），这是临床更关键的指标
DINOv3 意外表现不佳（AUC 0.831），最新版本并非总是最好
小病灶检测受限于 tile 尺寸（448-518 像素），mAPs（小病灶 mAP）最低仅 0.1-1.2

亮点与洞察¶

核心洞见"通用基础模型冻结后直接用于乳腺 X 线效果出人意料地好"——挑战了领域特定预训练必要性假设，对整个医学影像社区有启示。验证了大规模通用预训练表示在分布外医学域的鲁棒泛化
仅 40k 参数 5-7 分钟训练极大降低研究门槛——对资源受限团队尤其有价值，预计算特征使快速实验迭代和编码器比较成为可能
Perceiver 风格单 query 交叉注意力在 ROI 稀疏场景是巧妙选择——比 self-attention 更参数高效，比 mean/max 更能捕捉稀疏信号
MIL 层次化问题形式化具有普适性：嵌套结构 + 互补双流 + 弱标签框架可直接迁移到病理学、放射学等其他高分辨率弱监督场景

局限与展望¶

在小型 VinDr 上 BI-RADS 分类不及端到端微调（AUC 0.894 vs 0.911），冻结编码器在小数据集优势不明显
小病灶检测受限于 tile 尺寸，mAPs 极低（0.1-1.2）——可通过多尺度 tile 策略改进
未利用患者历史检查或双侧对称性信息——作者指出这是重要未来方向
Run 间方差较大（Spec@Sens=0.9 高达 11%），需 36 次训练 + 选择策略增加使用复杂度
BI-RADS 标签本身噪声大且放射科医生间一致性有限，限制训练信号质量上限

评分¶

⭐⭐⭐⭐

新颖性 ⭐⭐⭐：方法是已有组件组合，核心发现是实验观察而非方法创新
实验充分度 ⭐⭐⭐⭐⭐：三个数据集、多编码器对比、36 次运行、完整消融、检测可解释性
写作质量 ⭐⭐⭐⭐：问题形式化清晰，实验设计严谨
价值 ⭐⭐⭐⭐：对医学影像社区有重要实践价值——展示低资源高效研究路径