跳转至

Fair Lung Disease Diagnosis from Chest CT via Gender-Adversarial Attention Multiple Instance Learning

会议: CVPR 2026 (PHAROS-AIF-MIH Workshop)
arXiv: 2603.12988
代码: GitHub
领域: 医学图像
关键词: 公平性诊断, 胸部CT, 多示例学习, 梯度反转层, 肺疾病分类

一句话总结

在 ConvNeXt-Base 骨干上构建注意力 MIL 模型,用 GRL 对抗性消除扫描表示中的性别信息,配合 focal loss(\(\gamma=2\))+ 标签平滑(\(\varepsilon=0.1\))、子群过采样和 5-fold 集成,在 889 例胸部 CT 四类诊断中实现均值竞赛分数 0.685±0.030,女性 macro-F1(0.691)略高于男性(0.679),验证了 GRL 能有效闭合公平性差距。

研究背景与动机

领域现状:深度学习在胸部 CT 自动分析中取得巨大进展,可实现大规模肺恶性肿瘤和 COVID-19 筛查。然而公平性研究表明,模型容易编码并放大训练数据中的人口统计学偏差,对弱势群体产生系统性更差的诊断结果。

现有痛点:CVPR 2026 PHAROS-AIF-MIH 挑战赛数据集(889 例 CT:734 训练/155 验证,四类:Healthy/COVID-19/Adenocarcinoma/Squamous Cell Carcinoma)存在严重交叉不平衡——女性鳞癌仅 18 例 vs 男性 91 例,CT 深度从 <20 到 800+ 切片高度可变。竞赛指标为男女 macro-F1 均值 \(P = \frac{1}{2}(\text{MacroF1}_\text{male} + \text{MacroF1}_\text{female})\),直接惩罚性别不公平。

核心矛盾:三个相互纠缠的挑战——(1) 体积信号稀疏:百余张切片中仅数张含病变,mean pooling 被健康切片淹没;(2) 人口统计学不平衡:女性鳞癌极度稀缺,标准训练严重不足;(3) 性别作为隐式捷径:即使不输入性别,模型可从体型和采集参数编码性别特征并与疾病共现统计量耦合。

本文目标 在端到端框架中同时应对信号稀疏、子群不平衡和性别编码,实现性别公平的四类肺疾病诊断。

切入角度:将 CT 视为切片 bag 用 MIL 自动选择信息切片,用 GRL 对抗性解耦性别,用公平性协议平衡子群。

核心 idea:注意力 MIL 聚合信息切片 + GRL 消除性别捷径 + 子群过采样闭合公平性差距。

方法详解

整体框架

输入 CT 体积(限制最多 \(M=32\) 张切片),ConvNeXt-Base 提取每张切片的 \(D\) 维嵌入,两层 MLP 注意力网络计算切片权重并加权求和得扫描级表示 \(H\),随后分别送入 4 类疾病分类头和经 GRL 连接的性别对抗头(二分类),端到端联合训练。推理时 5-fold 全集成 + 水平翻转 TTA + OOF 阈值优化。

关键设计

  1. 注意力 MIL 聚合

    • 功能:从可变长度 CT 切片序列中学习哪些切片含诊断信息,加权聚合为扫描级表示
    • 核心思路:ConvNeXt-Base(去分类头)提取每张切片嵌入 \(h_i = f_\text{enc}(x_i) \in \mathbb{R}^D\),两层 MLP 产生重要性分数 \(s_i = a(h_i; \theta_a)\),softmax 归一化后加权 \(H = \sum_i w_i h_i\)。零填充位置施加 attention mask 屏蔽。训练时 \(N>M\) 的体积随机采样,推理均匀采样保持空间覆盖
    • 设计动机:Mean pooling 被健康切片稀释信号,Max pooling 对伪影敏感。注意力机制作为两者的学习型折中,且不需要切片级标注
  2. GRL 对抗性别去偏

    • 功能:从扫描表示中擦除性别预测信息,阻止模型利用性别作为诊断捷径
    • 核心思路:在 \(H\) 上挂接 GRL + 两层 MLP 二分类器 \(z_\text{gen} = c(\mathcal{R}_\lambda(H))\)。前向恒等,反向梯度取反并缩放 \(\lambda_\text{adv}\)。总损失 \(\mathcal{L} = \mathcal{L}_\text{disease} + \lambda_\text{adv} \cdot \mathcal{L}_\text{gender}\),性别头训练预测性别,反转梯度强迫骨干丢弃性别信息
    • 设计动机:骨干可从体型/采集参数等隐式编码性别特征。GRL 是最小侵入性的公平性约束——不改变主任务架构,仅增加对抗分支
  3. 公平性训练协议

    • 功能:多管齐下确保极端不平衡子群(女性鳞癌仅 18 例)不被忽略
    • 核心思路:(a) 按 (class, gender) 8 子群分层的 5-fold CV,保证每折含所有子群;(b) WeightedRandomSampler 大幅提升女性鳞癌采样权重,几乎每个 batch 均包含该子群;(c) 两阶段微调——前 5 epoch 冻结骨干只训练注意力和两个头(LR=1e-3),之后解冻骨干(骨干 LR=1e-5,头 LR=1e-4,cosine 退火)
    • 设计动机:单一策略在极端不平衡场景不够——过采样防崩塌,分层折保公平评估,两阶段让注意力先稳定

损失函数 / 训练策略

  • 疾病损失:focal loss(\(\gamma=2, \alpha=0.25\))+ 标签平滑(\(\varepsilon=0.1\)),\(\tilde{p}_t = (1-\varepsilon)p_t + \varepsilon/C\)
  • 性别损失:二元交叉熵
  • AdamW(\(\beta_1=0.9, \beta_2=0.999\), WD=0.05);梯度累积 \(K=4\)(等效 batch=16);50 epoch;单卡 RTX A4000
  • 推理:5-fold soft logit 投票 + 水平翻转 TTA;OOF per-class 阈值优化(dense grid \(\mathcal{T} \subset [0.05, 0.95]\)

实验关键数据

主实验——Per-Fold 验证结果

Fold 竞赛分数 P Male macro-F1 Female macro-F1 F1-腺癌 F1-鳞癌
0 0.698 0.673 0.722 0.807 0.258
1 0.727 0.754 0.699 0.796 0.378
2 0.674 0.658 0.690 0.692 0.500
3 0.688 0.743 0.634 0.803 0.303
4 0.637 0.565 0.709 0.681 0.389
Mean±Std 0.685±0.030 0.679±0.068 0.691±0.030 0.756±0.057 0.366±0.083

OOF 全局集成结果

模型 P M-F1 F-F1 F1-A F1-G F1-Cov
OOF Global Mean 0.683 0.679 0.688 0.755 0.366 0.813
OOF ± 0.032 0.066 0.029 0.056 0.083 0.070

消融实验(定性路径)

设计选择 解决的挑战 改进
Mean → Max Pooling 稀疏肿瘤信号被稀释 恢复对稀疏肿瘤切片正预测能力
Max → Attention-MIL 背景和边界切片噪声 学习动态忽略空肺区域,提升鲁棒性
+ 子群过采样 极端交叉稀缺(仅 18 例女性鳞癌) 防止类别崩塌,大幅提升 Female macro-F1
+ GRL 肿瘤特征与性别特征纠缠 闭合公平性差距(P=0.685,F-F1≈M-F1)

关键发现

  • GRL 成功解耦性别与肿瘤特征:Female macro-F1(0.691)略高于 Male(0.679),验证模型不再依赖性别偏差
  • 鳞癌 F1 最低(0.366±0.083),根本约束是数据稀缺(仅 18 例女性鳞癌)而非方法缺陷
  • 5-fold 集成 + TTA 有效缓解高方差折(如 Fold 4 的 0.637)的拖累
  • OOF 阈值优化比直接 argmax 更稳健,全局竞赛分数 0.683 且无泄漏风险

亮点与洞察

  • GRL 是极简但有效的公平性约束——不改变主任务架构,仅增加对抗分支。这种"最小侵入性公平性"可迁移到任何需要去偏的医学影像任务
  • 极端子群不平衡下 WeightedRandomSampler + focal loss + 标签平滑的组合是可行补救——单一策略不足,多管齐下才能避免崩塌
  • 两阶段微调(先稳定注意力头 → 再解冻骨干)对 MIL 训练稳定性至关重要
  • OOF 阈值优化被低估——在小数据集上直接在验证集调阈值容易过拟合,OOF 提供无泄漏的全局估计

局限与展望

  • 鳞癌 F1 仅 0.366±0.083,受限于 18 例女性鳞癌数据稀缺——作者建议用扩散模型生成合成 CT 增强稀有子群
  • 消融为定性路径描述而非定量逐步表格,缺少去掉单个组件后的精确数值下降
  • 仅考虑性别一种敏感属性,年龄、种族等其他公平性维度未涉及
  • 每个体积仅采样 32 张切片,800+ 切片体积可能丢失关键病变
  • 未使用 3D 卷积或 z 轴位置编码,忽略了切片间空间连续性
  • 仅在单一挑战赛数据集(889 例)验证,外部泛化性未知

相关工作与启发

  • vs Ilse et al. (ICML 2018) Attention-MIL:本文在其框架上增加 GRL 对抗分支和公平性协议,从弱监督聚合扩展到公平性感知诊断
  • vs Ganin & Lempitsky (2015) GRL:原始用于域适应消除域特征,本文转用于消除性别特征实现人口统计学公平
  • vs 3D CT 分类(3D ResNet 等):本文用 2D backbone + MIL 聚合,更适合切片数高度可变场景,但牺牲 z 轴空间建模

评分

⭐⭐⭐

  • 新颖性 ⭐⭐⭐:GRL 和 attention MIL 都是已有组件组合应用,缺乏架构层面原创
  • 实验充分度 ⭐⭐⭐:消融为定性描述,仅单一挑战赛数据集
  • 写作质量 ⭐⭐⭐⭐:方法描述清晰系统,公式完整,流程图直观
  • 价值 ⭐⭐⭐:为医学 AI 公平性提供端到端方案模板,但受限于挑战赛报告深度