Automated Detection of Malignant Lesions in the Ovary Using Deep Learning Models and XAI¶

会议: CVPR 2026
arXiv: 2603.11818
代码: 无
领域: 医学图像分类 / 可解释AI
关键词: 卵巢癌检测, CNN对比, 可解释AI, 组织病理学, InceptionV3

一句话总结¶

系统对比 15 种 CNN 变体（LeNet/ResNet/VGG/Inception）在卵巢癌组织病理图像五分类上的表现，最终选出 InceptionV3-A（ReLU）达 94% 综合指标，并用 LIME/SHAP/Integrated Gradients 三种 XAI 方法做对比解释分析。

研究背景与动机¶

领域现状：卵巢癌是全球女性第 7 常见癌症，致死率极高，核心难题在于缺乏有效的早期筛查手段——不像乳腺癌有乳腺 X 光、宫颈癌有 Pap 试验，卵巢癌仅能通过侵入性活检确诊。深度学习已在多种癌症检测中取得进展，但卵巢癌的 DL 方案仍有限。

现有痛点：(1) 现有非侵入检测方法（经阴道超声、CA-125 血检、盆腔检查）准确率不足以作为可靠筛查手段；(2) 确诊依赖活检，过程侵入性强且耗时；(3) 已有 DL 方案多使用单一模型，缺乏系统性的多架构对比和 XAI 可解释性支持，临床采纳信任度低。

核心矛盾：需要一个准确率高且可解释的自动化检测系统，但可用的组织病理数据集极小（仅 498 张），且高分模型（VGG 迁移学习）由于特征层预训练冻结难以用 XAI 有效解释。

本文目标 在小规模卵巢癌组织病理数据上构建高准确率分类模型，并通过 XAI 为临床决策提供透明依据。

切入角度：广撒网式对比 15 种 CNN 变体，综合考虑准确率和 XAI 可行性来选模型，而非只追求最高精度。

核心 idea：模型选型不仅看精度，还要看可解释性——用 InceptionV3（从头训练）替代精度更高的 VGG（迁移学习），因为前者更易被 XAI 有效解释。

方法详解¶

整体框架¶

从 Mendeley 数据集获取 5 类组织病理图像（Clear Cell、Endometri、Mucinous、Non Cancerous、Serous）共 498 张 → 使用 Albumentations 数据增强扩充至 2490 张 → 系统训练 15 种 CNN 变体 → 综合评估选出最佳模型（InceptionV3-A）→ 叠加 LIME/SHAP/IG 三种 XAI 方法做对比解释分析。

关键设计¶

数据增强管线
- 使用 Albumentations 库做旋转（最高 180°）、水平/垂直翻转、亮度/对比度/饱和度/色调随机变换
- 每张原图产生 4 张增强图像，从 498 扩充至 2490 张（5 类各约 498 张，保持平衡）
- 图像转为 Tensor 后将 RGB 值从 0-255 归一化到 0-1 范围，显著提升训练稳定性
- 训练集-测试集 80:20 随机划分（1992 训练 / 498 测试）
15 种 CNN 变体系统对比
- LeNet 系列（3 种）：基础版（lr=0.001）/ +Dropout / +Step Decay，100 epoch
- ResNet 系列（4 种）：ResNet-34×2 分辨率（32×32 和 224×224）、ResNet-50、ResNet-101，通过随机搜索（10 次迭代 × 3 epoch）确定最优 lr 和 dropout rate
- VGG 系列（4 种）：VGG16-A/B/C 和 VGG19，均为 ImageNet 迁移学习冻结特征层只训练全连接层
- Inception 系列（4 种）：InceptionV1-A (ReLU) / V1-B (Tanh) / V3-A (ReLU + BatchNorm) / V3-B (Tanh + BatchNorm)，从头训练 80 epoch
XAI 三方法对比解释
- LIME：局部可解释，生成超像素级解释图（限制显示 10 个最重要特征），揭示预测的局部依据
- Integrated Gradients：梯度归因方法，沿从基线到输入的路径积分梯度，生成像素级重要性图
- SHAP：基于 Shapley 值的归因方法，量化每个像素对预测的边际贡献
- 三种方法生成的高亮区域存在显著共性，验证了黑盒解释的一致性和可靠性

损失函数 / 训练策略¶

Softmax 输出层 + 交叉熵损失。LeNet 系列训练 100 epoch；ResNet 通过随机搜索确定最优超参（lr 范围 0.0001-0.1，dropout 范围 0.0-0.9）；VGG 使用 ImageNet 预训练权重冻结卷积特征层仅训练全连接层；Inception 从头训练 80 epoch。选模型时排除 VGG 系列——虽然精度最高但迁移学习的冻结特征层使 XAI 难以有效工作。

实验关键数据¶

主实验¶

模型	Accuracy	Precision	Recall	F1-Score
VGG19 (迁移学习)	97.19%	97.31%	97.19%	97.20%
VGG16-A (迁移学习)	96.99%	96.98%	96.99%	96.97%
InceptionV3-A (选用)	94.58%	94.75%	94.58%	94.62%
InceptionV1-B	85.74%	86.26%	85.74%	85.42%
LeNet-A	61.85%	62.20%	61.85%	61.96%
ResNet-34 (224)	57.03%	59.39%	57.03%	57.70%
ResNet-50	34.14%	47.75%	34.14%	33.47%

VGG 系列虽分数最高，但因迁移学习的黑盒特征层使 XAI 难以有效解释而被排除。

消融实验¶

对比维度	结论
VGG16-A vs VGG16-O (Kasture et al.)	同数据集，本文 96.99% vs 对方 84.64%（增强数据），原始数据 77.78% vs 50% (+27.78pp)，归功于 Tensor 转换和归一化
InceptionV3-A (ReLU) vs InceptionV3-B (Tanh)	94.58% vs 82.13%，ReLU 显著优于 Tanh，差距 12.45pp
ResNet-34 32×32 vs 224×224	43.78% vs 57.03%，输入分辨率对 ResNet 影响大
三种 XAI 方法	LIME/SHAP/IG 高亮区域存在共性，验证解释一致性

关键发现¶

模型复杂度不等于性能：ResNet-50/101 表现极差（34-43%），可能与超参搜索和训练 epoch 不充分有关
数据预处理（Tensor 转换 + 归一化）对小数据集有显著提升，比对方工作高 27pp
XAI 可行性是模型选型的重要维度——精度差 2.4pp 但换来可解释性的代价值得

亮点与洞察¶

15 种模型的系统对比为医学影像领域的 CNN 选型提供了有价值的参考
选模型时综合考虑 XAI 可行性而非只追求最高精度，体现了部署导向和临床信任的考量
XAI 对比分析展示了 LIME/SHAP/IG 三种方法的互补性和一致性
数据增强和归一化策略在极小数据集上的效果值得借鉴

局限与展望¶

数据集极小（498 张原始 → 2490 张增强），泛化能力存疑，未做交叉验证
全部使用经典 CNN，未尝试 ViT、医学预训练模型（如 BiomedCLIP）或更现代的架构
缺少多中心/多机构数据验证和真实临床场景测试
ResNet 系列表现极差（34-57%），超参搜索策略（仅 10 次 × 3 epoch）可能严重不足
未报告 ROC-AUC 的类别级细节（Clear Cell vs Serous 等的混淆情况）
增强策略仅做简单几何/色彩变换，未用更先进的增强（如 MixUp、CutMix、Mosaic）

评分¶

新颖性: ⭐⭐ 方法组合均为标准套路，无新架构或新技术提出
实验充分度: ⭐⭐ 数据集过小，缺泛化验证、交叉验证和统计检验
写作质量: ⭐⭐⭐ 结构清晰但部分描述冗余，公式编号与正文对应不够紧密
价值: ⭐⭐ 作为医学 AI 入门工作有一定参考，但创新和实验深度不足以支撑顶会水平