Fair Lung Disease Diagnosis from Chest CT via Gender-Adversarial Attention Multiple Instance Learning¶

会议: CVPR 2026
arXiv: 2603.12988
代码: GitHub
领域: 医学图像
关键词: 公平性, 肺部疾病诊断, CT分类, 多实例学习, 对抗训练

一句话总结¶

提出基于注意力 MIL 和梯度反转层（GRL）的公平性框架，从胸部 CT 体积中进行多类肺部疾病诊断，在保证诊断准确性的同时消除性别偏差。

研究背景与动机¶

胸部 CT 的深度学习自动分析在肺癌筛查和 COVID-19 检测中具有重要临床意义，但模型可能编码并放大训练数据中的人口学差异，导致对少数群体的系统性不公平。CVPR 2026 PHAROS-AIF-MIH Workshop 举办的 Fair Disease Diagnosis Challenge 要求将 CT 扫描分为四类（健康、COVID-19、腺癌、鳞癌），评价指标为按性别分组的 macro F1 均值：

\[P = \frac{1}{2}(\text{MacroF1}_{\text{male}} + \text{MacroF1}_{\text{female}})\]

该设计显式惩罚性别不平等的预测。本文面临三大核心挑战：(1) CT 体积中病理信号稀疏（200+ 切片中仅少数包含病变）；(2) 严重的人口学不平衡（女性鳞癌仅 18 例 vs 男性 91 例）；(3) 性别可能作为隐性快捷特征被模型利用。

方法详解¶

整体框架¶

基于 ConvNeXt 骨干网络的注意力 MIL 模型，附加 GRL 对抗分支实现性别公平性约束。整个流程包含切片特征提取、注意力池化、疾病分类、对抗性别分类四个阶段。

关键设计¶

注意力 MIL 池化: 将 CT 体积视为切片 bag，每个切片通过 ConvNeXt-Base 提取 \(D\) 维嵌入 \(h_i = f_{\text{enc}}(x_i)\)，然后两层 MLP 注意力网络为每个切片分配重要性权重 \(w_i = \frac{\exp(s_i)}{\sum_j \exp(s_j)}\)，加权聚合得到 scan 级表示 \(H = \sum_i w_i h_i\)。使用 binary mask 屏蔽 zero-padded 位置，核心动机是无需切片级标注即可自动学习诊断性切片的重要性。
梯度反转层（GRL）对抗去偏: 在扫描嵌入 \(H\) 上附加性别分类器，通过 GRL 在反向传播时取反并缩放梯度：\(z_{\text{gen}} = c(\mathcal{R}_\lambda(H))\)。训练目标为 \(\mathcal{L} = \mathcal{L}_{\text{disease}} + \lambda_{\text{adv}} \mathcal{L}_{\text{gender}}\)。设计动机是即使性别不是显式输入，骨干网络也可能从 CT 采集参数和体型差异中编码性别信息作为伪相关特征。
子群过采样与分层 CV: 使用 WeightedRandomSampler 大幅提升女性鳞癌（Female G）的采样权重，确保每个 batch 都包含该最稀缺子群。5-fold 交叉验证在 (class, gender) 联合键上分层，保证所有 8 个子群在每个 fold 中都有代表。

损失函数 / 训练策略¶

Focal Loss + Label Smoothing: \(\mathcal{L}_{\text{disease}} = -\alpha(1-p_t)^\gamma \log \tilde{p}_t\)，其中 \(\gamma=2\)，\(\alpha=0.25\)，smoothing \(\varepsilon=0.1\)，对困难样本和稀缺子群集中梯度
两阶段微调: Epoch 1-5 冻结骨干（LR \(10^{-3}\)），Epoch 6+ 解冻骨干（backbone LR \(10^{-5}\), heads LR \(10^{-4}\)），余弦退火
梯度累积: \(K=4\) 步，有效 batch size 为 16 个 volume
每 volume 限制最多 \(M=32\) 切片，训练时随机采样，推理时均匀采样

实验关键数据¶

数据集¶

889 例 3D 胸部 CT 扫描（734 训练 / 155 验证），4 类：腺癌(300)、COVID-19(240)、健康(240)、鳞癌(109)。总体性别比较均衡（481 男 / 408 女），但鳞癌中仅 18 女 vs 91 男，体积深度差异极大（20-800+ 切片/扫描）。

主实验¶

数据集	指标	本文	最佳单 Fold	备注
889 CT scans (734 train)	竞赛得分 P	0.685 ± 0.030	0.759 (Fold 1)	5-fold 均值
同上	Male macro-F1	0.679 ± 0.068	0.754	GRL 后性别差距缩小
同上	Female macro-F1	0.691 ± 0.030	0.722	女性 F1 略高于男性

消融实验¶

配置	关键指标	说明
Mean Pooling (Baseline)	低	肿瘤信号被健康切片稀释
+ Max Pooling	提升	恢复稀疏肿瘤切片的检测能力
+ Attention-MIL	进一步提升	学习忽略空白肺区域
+ Subgroup Oversampling	显著提升 F-F1	防止少数类崩溃
+ GRL	P=0.685	缩小公平性差距，男女性能持平

关键发现¶

GRL 成功缩小性别公平性差距：女性 macro-F1 (0.691) 略高于男性 (0.679)
鳞癌（SCC）仍是最难类别（F1=0.366 ± 0.083），受限于数据稀缺和临床重叠
OOF 阈值优化保持严格性别公平性（M-F1 0.679 vs F-F1 0.688）

亮点与洞察¶

将公平性问题分解为三个独立失败模式（信号稀疏、人口不平衡、隐性快捷特征），每个模块针对性解决
GRL 对抗训练是消除特征空间中性别偏差的优雅方案，比简单的数据平衡更彻底
OOF 阈值优化避免了对验证集的过拟合，是后处理公平性校准的实用技巧

局限与展望¶

女性鳞癌数据极度稀缺（仅 18 例），过采样无法完全弥补
未探索生成式数据增强（如 diffusion-based CT 合成稀缺子群）
公平性约束可扩展为更强的约束优化形式（fairness-constrained optimization）
注意力可视化和临床可解释性未深入讨论
推理阶段的 5-fold ensemble 计算成本较高，每个测试样本需通过所有 5 个模型

评分¶

新颖性: ⭐⭐⭐ 各组件均为成熟方法的组合，但针对公平性诊断问题的集成设计有价值
实验充分度: ⭐⭐⭐ 5-fold CV + 消融较完整，但数据集较小且仅有定性消融
写作质量: ⭐⭐⭐⭐ 问题分解清晰，动机充分，challenge paper 格式规范
价值: ⭐⭐⭐ 面向医疗 AI 公平性的实用框架，但主要为 challenge solution

补充说明¶

本文是 CVPR 2026 PHAROS-AIF-MIH Workshop Challenge 的参赛方案，竞赛得分 0.685 表现稳健。整体方法学偏工程导向，但公平性约束的多层次设计（数据层面的过采样 + 特征层面的 GRL + 决策层面的 OOF 阈值）提供了可复用的医疗 AI 公平化工具包。