Fair Lung Disease Diagnosis from Chest CT via Gender-Adversarial Attention Multiple Instance Learning¶
会议: CVPR 2026
arXiv: 2603.12988
代码: GitHub
领域: 医学图像
关键词: 公平性, 肺部疾病诊断, CT分类, 多实例学习, 对抗训练
一句话总结¶
提出基于注意力 MIL 和梯度反转层(GRL)的公平性框架,从胸部 CT 体积中进行多类肺部疾病诊断,在保证诊断准确性的同时消除性别偏差。
研究背景与动机¶
胸部 CT 的深度学习自动分析在肺癌筛查和 COVID-19 检测中具有重要临床意义,但模型可能编码并放大训练数据中的人口学差异,导致对少数群体的系统性不公平。CVPR 2026 PHAROS-AIF-MIH Workshop 举办的 Fair Disease Diagnosis Challenge 要求将 CT 扫描分为四类(健康、COVID-19、腺癌、鳞癌),评价指标为按性别分组的 macro F1 均值:
该设计显式惩罚性别不平等的预测。本文面临三大核心挑战:(1) CT 体积中病理信号稀疏(200+ 切片中仅少数包含病变);(2) 严重的人口学不平衡(女性鳞癌仅 18 例 vs 男性 91 例);(3) 性别可能作为隐性快捷特征被模型利用。
方法详解¶
整体框架¶
基于 ConvNeXt 骨干网络的注意力 MIL 模型,附加 GRL 对抗分支实现性别公平性约束。整个流程包含切片特征提取、注意力池化、疾病分类、对抗性别分类四个阶段。
关键设计¶
-
注意力 MIL 池化: 将 CT 体积视为切片 bag,每个切片通过 ConvNeXt-Base 提取 \(D\) 维嵌入 \(h_i = f_{\text{enc}}(x_i)\),然后两层 MLP 注意力网络为每个切片分配重要性权重 \(w_i = \frac{\exp(s_i)}{\sum_j \exp(s_j)}\),加权聚合得到 scan 级表示 \(H = \sum_i w_i h_i\)。使用 binary mask 屏蔽 zero-padded 位置,核心动机是无需切片级标注即可自动学习诊断性切片的重要性。
-
梯度反转层(GRL)对抗去偏: 在扫描嵌入 \(H\) 上附加性别分类器,通过 GRL 在反向传播时取反并缩放梯度:\(z_{\text{gen}} = c(\mathcal{R}_\lambda(H))\)。训练目标为 \(\mathcal{L} = \mathcal{L}_{\text{disease}} + \lambda_{\text{adv}} \mathcal{L}_{\text{gender}}\)。设计动机是即使性别不是显式输入,骨干网络也可能从 CT 采集参数和体型差异中编码性别信息作为伪相关特征。
-
子群过采样与分层 CV: 使用 WeightedRandomSampler 大幅提升女性鳞癌(Female G)的采样权重,确保每个 batch 都包含该最稀缺子群。5-fold 交叉验证在 (class, gender) 联合键上分层,保证所有 8 个子群在每个 fold 中都有代表。
损失函数 / 训练策略¶
- Focal Loss + Label Smoothing: \(\mathcal{L}_{\text{disease}} = -\alpha(1-p_t)^\gamma \log \tilde{p}_t\),其中 \(\gamma=2\),\(\alpha=0.25\),smoothing \(\varepsilon=0.1\),对困难样本和稀缺子群集中梯度
- 两阶段微调: Epoch 1-5 冻结骨干(LR \(10^{-3}\)),Epoch 6+ 解冻骨干(backbone LR \(10^{-5}\), heads LR \(10^{-4}\)),余弦退火
- 梯度累积: \(K=4\) 步,有效 batch size 为 16 个 volume
- 每 volume 限制最多 \(M=32\) 切片,训练时随机采样,推理时均匀采样
实验关键数据¶
数据集¶
889 例 3D 胸部 CT 扫描(734 训练 / 155 验证),4 类:腺癌(300)、COVID-19(240)、健康(240)、鳞癌(109)。总体性别比较均衡(481 男 / 408 女),但鳞癌中仅 18 女 vs 91 男,体积深度差异极大(20-800+ 切片/扫描)。
主实验¶
| 数据集 | 指标 | 本文 | 最佳单 Fold | 备注 |
|---|---|---|---|---|
| 889 CT scans (734 train) | 竞赛得分 P | 0.685 ± 0.030 | 0.759 (Fold 1) | 5-fold 均值 |
| 同上 | Male macro-F1 | 0.679 ± 0.068 | 0.754 | GRL 后性别差距缩小 |
| 同上 | Female macro-F1 | 0.691 ± 0.030 | 0.722 | 女性 F1 略高于男性 |
消融实验¶
| 配置 | 关键指标 | 说明 |
|---|---|---|
| Mean Pooling (Baseline) | 低 | 肿瘤信号被健康切片稀释 |
| + Max Pooling | 提升 | 恢复稀疏肿瘤切片的检测能力 |
| + Attention-MIL | 进一步提升 | 学习忽略空白肺区域 |
| + Subgroup Oversampling | 显著提升 F-F1 | 防止少数类崩溃 |
| + GRL | P=0.685 | 缩小公平性差距,男女性能持平 |
关键发现¶
- GRL 成功缩小性别公平性差距:女性 macro-F1 (0.691) 略高于男性 (0.679)
- 鳞癌(SCC)仍是最难类别(F1=0.366 ± 0.083),受限于数据稀缺和临床重叠
- OOF 阈值优化保持严格性别公平性(M-F1 0.679 vs F-F1 0.688)
亮点与洞察¶
- 将公平性问题分解为三个独立失败模式(信号稀疏、人口不平衡、隐性快捷特征),每个模块针对性解决
- GRL 对抗训练是消除特征空间中性别偏差的优雅方案,比简单的数据平衡更彻底
- OOF 阈值优化避免了对验证集的过拟合,是后处理公平性校准的实用技巧
局限与展望¶
- 女性鳞癌数据极度稀缺(仅 18 例),过采样无法完全弥补
- 未探索生成式数据增强(如 diffusion-based CT 合成稀缺子群)
- 公平性约束可扩展为更强的约束优化形式(fairness-constrained optimization)
- 注意力可视化和临床可解释性未深入讨论
- 推理阶段的 5-fold ensemble 计算成本较高,每个测试样本需通过所有 5 个模型
相关工作与启发¶
- Ganin & Lempitsky (2015) 的 GRL 域自适应方法被巧妙迁移到公平性场景
- Ilse et al. (2018) 的 Attention-MIL 框架适合处理 CT 体积中信号稀疏问题
- Focal Loss (Lin et al. 2017) + Label Smoothing 的组合对稀缺子群友好
- 推理端的 5-fold ensemble + TTA + OOF 阈值优化组合在 challenge 中表现稳健
评分¶
- 新颖性: ⭐⭐⭐ 各组件均为成熟方法的组合,但针对公平性诊断问题的集成设计有价值
- 实验充分度: ⭐⭐⭐ 5-fold CV + 消融较完整,但数据集较小且仅有定性消融
- 写作质量: ⭐⭐⭐⭐ 问题分解清晰,动机充分,challenge paper 格式规范
- 价值: ⭐⭐⭐ 面向医疗 AI 公平性的实用框架,但主要为 challenge solution
补充说明¶
本文是 CVPR 2026 PHAROS-AIF-MIH Workshop Challenge 的参赛方案,竞赛得分 0.685 表现稳健。整体方法学偏工程导向,但公平性约束的多层次设计(数据层面的过采样 + 特征层面的 GRL + 决策层面的 OOF 阈值)提供了可复用的医疗 AI 公平化工具包。