Fair Lung Disease Diagnosis from Chest CT via Gender-Adversarial Attention Multiple Instance Learning¶

会议: CVPR 2026 (PHAROS-AIF-MIH Workshop)
arXiv: 2603.12988
代码: GitHub
领域: 医学图像
关键词: 公平性诊断, 胸部CT, 多示例学习, 梯度反转层, 肺疾病分类

一句话总结¶

在 ConvNeXt-Base 骨干上构建注意力 MIL 模型，用 GRL 对抗性消除扫描表示中的性别信息，配合 focal loss（\(\gamma=2\)）+ 标签平滑（\(\varepsilon=0.1\)）、子群过采样和 5-fold 集成，在 889 例胸部 CT 四类诊断中实现均值竞赛分数 0.685±0.030，女性 macro-F1（0.691）略高于男性（0.679），验证了 GRL 能有效闭合公平性差距。

研究背景与动机¶

领域现状：深度学习在胸部 CT 自动分析中取得巨大进展，可实现大规模肺恶性肿瘤和 COVID-19 筛查。然而公平性研究表明，模型容易编码并放大训练数据中的人口统计学偏差，对弱势群体产生系统性更差的诊断结果。

现有痛点：CVPR 2026 PHAROS-AIF-MIH 挑战赛数据集（889 例 CT：734 训练/155 验证，四类：Healthy/COVID-19/Adenocarcinoma/Squamous Cell Carcinoma）存在严重交叉不平衡——女性鳞癌仅 18 例 vs 男性 91 例，CT 深度从 <20 到 800+ 切片高度可变。竞赛指标为男女 macro-F1 均值 \(P = \frac{1}{2}(\text{MacroF1}_\text{male} + \text{MacroF1}_\text{female})\)，直接惩罚性别不公平。

核心矛盾：三个相互纠缠的挑战——(1) 体积信号稀疏：百余张切片中仅数张含病变，mean pooling 被健康切片淹没；(2) 人口统计学不平衡：女性鳞癌极度稀缺，标准训练严重不足；(3) 性别作为隐式捷径：即使不输入性别，模型可从体型和采集参数编码性别特征并与疾病共现统计量耦合。

本文目标 在端到端框架中同时应对信号稀疏、子群不平衡和性别编码，实现性别公平的四类肺疾病诊断。

切入角度：将 CT 视为切片 bag 用 MIL 自动选择信息切片，用 GRL 对抗性解耦性别，用公平性协议平衡子群。

核心 idea：注意力 MIL 聚合信息切片 + GRL 消除性别捷径 + 子群过采样闭合公平性差距。

方法详解¶

整体框架¶

输入 CT 体积（限制最多 \(M=32\) 张切片），ConvNeXt-Base 提取每张切片的 \(D\) 维嵌入，两层 MLP 注意力网络计算切片权重并加权求和得扫描级表示 \(H\)，随后分别送入 4 类疾病分类头和经 GRL 连接的性别对抗头（二分类），端到端联合训练。推理时 5-fold 全集成 + 水平翻转 TTA + OOF 阈值优化。

关键设计¶

注意力 MIL 聚合
- 功能：从可变长度 CT 切片序列中学习哪些切片含诊断信息，加权聚合为扫描级表示
- 核心思路：ConvNeXt-Base（去分类头）提取每张切片嵌入 \(h_i = f_\text{enc}(x_i) \in \mathbb{R}^D\)，两层 MLP 产生重要性分数 \(s_i = a(h_i; \theta_a)\)，softmax 归一化后加权 \(H = \sum_i w_i h_i\)。零填充位置施加 attention mask 屏蔽。训练时 \(N>M\) 的体积随机采样，推理均匀采样保持空间覆盖
- 设计动机：Mean pooling 被健康切片稀释信号，Max pooling 对伪影敏感。注意力机制作为两者的学习型折中，且不需要切片级标注
GRL 对抗性别去偏
- 功能：从扫描表示中擦除性别预测信息，阻止模型利用性别作为诊断捷径
- 核心思路：在 \(H\) 上挂接 GRL + 两层 MLP 二分类器 \(z_\text{gen} = c(\mathcal{R}_\lambda(H))\)。前向恒等，反向梯度取反并缩放 \(\lambda_\text{adv}\)。总损失 \(\mathcal{L} = \mathcal{L}_\text{disease} + \lambda_\text{adv} \cdot \mathcal{L}_\text{gender}\)，性别头训练预测性别，反转梯度强迫骨干丢弃性别信息
- 设计动机：骨干可从体型/采集参数等隐式编码性别特征。GRL 是最小侵入性的公平性约束——不改变主任务架构，仅增加对抗分支
公平性训练协议
- 功能：多管齐下确保极端不平衡子群（女性鳞癌仅 18 例）不被忽略
- 核心思路：(a) 按 (class, gender) 8 子群分层的 5-fold CV，保证每折含所有子群；(b) WeightedRandomSampler 大幅提升女性鳞癌采样权重，几乎每个 batch 均包含该子群；(c) 两阶段微调——前 5 epoch 冻结骨干只训练注意力和两个头（LR=1e-3），之后解冻骨干（骨干 LR=1e-5，头 LR=1e-4，cosine 退火）
- 设计动机：单一策略在极端不平衡场景不够——过采样防崩塌，分层折保公平评估，两阶段让注意力先稳定

损失函数 / 训练策略¶

疾病损失：focal loss（\(\gamma=2, \alpha=0.25\)）+ 标签平滑（\(\varepsilon=0.1\)），\(\tilde{p}_t = (1-\varepsilon)p_t + \varepsilon/C\)
性别损失：二元交叉熵
AdamW（\(\beta_1=0.9, \beta_2=0.999\), WD=0.05）；梯度累积 \(K=4\)（等效 batch=16）；50 epoch；单卡 RTX A4000
推理：5-fold soft logit 投票 + 水平翻转 TTA；OOF per-class 阈值优化（dense grid \(\mathcal{T} \subset [0.05, 0.95]\)）

实验关键数据¶

主实验——Per-Fold 验证结果¶

Fold	竞赛分数 P	Male macro-F1	Female macro-F1	F1-腺癌	F1-鳞癌
0	0.698	0.673	0.722	0.807	0.258
1	0.727	0.754	0.699	0.796	0.378
2	0.674	0.658	0.690	0.692	0.500
3	0.688	0.743	0.634	0.803	0.303
4	0.637	0.565	0.709	0.681	0.389
Mean±Std	0.685±0.030	0.679±0.068	0.691±0.030	0.756±0.057	0.366±0.083

OOF 全局集成结果¶

模型	P	M-F1	F-F1	F1-A	F1-G	F1-Cov
OOF Global Mean	0.683	0.679	0.688	0.755	0.366	0.813
OOF ±	0.032	0.066	0.029	0.056	0.083	0.070

消融实验（定性路径）¶

设计选择	解决的挑战	改进
Mean → Max Pooling	稀疏肿瘤信号被稀释	恢复对稀疏肿瘤切片正预测能力
Max → Attention-MIL	背景和边界切片噪声	学习动态忽略空肺区域，提升鲁棒性
+ 子群过采样	极端交叉稀缺（仅 18 例女性鳞癌）	防止类别崩塌，大幅提升 Female macro-F1
+ GRL	肿瘤特征与性别特征纠缠	闭合公平性差距（P=0.685，F-F1≈M-F1）

关键发现¶

GRL 成功解耦性别与肿瘤特征：Female macro-F1（0.691）略高于 Male（0.679），验证模型不再依赖性别偏差
鳞癌 F1 最低（0.366±0.083），根本约束是数据稀缺（仅 18 例女性鳞癌）而非方法缺陷
5-fold 集成 + TTA 有效缓解高方差折（如 Fold 4 的 0.637）的拖累
OOF 阈值优化比直接 argmax 更稳健，全局竞赛分数 0.683 且无泄漏风险

亮点与洞察¶

GRL 是极简但有效的公平性约束——不改变主任务架构，仅增加对抗分支。这种"最小侵入性公平性"可迁移到任何需要去偏的医学影像任务
极端子群不平衡下 WeightedRandomSampler + focal loss + 标签平滑的组合是可行补救——单一策略不足，多管齐下才能避免崩塌
两阶段微调（先稳定注意力头 → 再解冻骨干）对 MIL 训练稳定性至关重要
OOF 阈值优化被低估——在小数据集上直接在验证集调阈值容易过拟合，OOF 提供无泄漏的全局估计

局限与展望¶

鳞癌 F1 仅 0.366±0.083，受限于 18 例女性鳞癌数据稀缺——作者建议用扩散模型生成合成 CT 增强稀有子群
消融为定性路径描述而非定量逐步表格，缺少去掉单个组件后的精确数值下降
仅考虑性别一种敏感属性，年龄、种族等其他公平性维度未涉及
每个体积仅采样 32 张切片，800+ 切片体积可能丢失关键病变
未使用 3D 卷积或 z 轴位置编码，忽略了切片间空间连续性
仅在单一挑战赛数据集（889 例）验证，外部泛化性未知

评分¶

⭐⭐⭐

新颖性 ⭐⭐⭐：GRL 和 attention MIL 都是已有组件组合应用，缺乏架构层面原创
实验充分度 ⭐⭐⭐：消融为定性描述，仅单一挑战赛数据集
写作质量 ⭐⭐⭐⭐：方法描述清晰系统，公式完整，流程图直观
价值 ⭐⭐⭐：为医学 AI 公平性提供端到端方案模板，但受限于挑战赛报告深度