跳转至

Federated Distillation for Whole Slide Image via Gaussian-Mixture Feature Alignment and Curriculum Integration

会议: ICML 2026
arXiv: 2605.00578
代码: 无公开链接
领域: 联邦学习 / 病理学 / 数据集蒸馏
关键词: WSI, 多实例学习, Gaussian Mixture, 联邦蒸馏, 课程学习

一句话总结

本文提出 FedHD:在异构联邦病理学场景下,用 Gaussian-mixture 特征对齐做「一对一」WSI 特征级蒸馏,再通过课程学习把跨机构合成特征逐步注入本地训练,使各机构能在不共享原始数据、不交换模型参数的前提下协作,且兼容异构 MIL 架构与特征提取器,在 TCGA-IDH / CAMELYON16 / CAMELYON17 上全面超越现有联邦与蒸馏基线。

研究背景与动机

领域现状:WSI(千万级像素全幅切片)的癌症诊断依赖 MIL(CLAM、TransMIL、ACMIL 等),但单中心数据稀缺、隐私法规又限制跨机构共享,联邦学习是天然解法。然而真实医院在算力与建模偏好上差异极大,常常各自用不同特征提取器(ResNet50/UNI/PhV2)和不同 MIL 架构,导致传统参数平均(FedAvg、FedMut、FedImpro)面对的是「不可对齐的参数空间」。

现有痛点:(1) FedDD(联邦数据蒸馏)改成共享合成数据集解决参数不兼容,但现有方法是为自然图像设计的:(a) 单 Gaussian/均值匹配假设无法刻画 WSI 内部 patch 特征的多组分分布(不同形态学组分共存);(b) 追求极致压缩,把几千 patch 压成几张合成图,对本就样本量小、slide 间高度异质的 WSI 来说反而过压,丢掉细粒度诊断 cue。

核心矛盾:在 WSI 上「样本量小 + 类内异质大 + 客户端模型异构」三件事撞一起,传统 DD 的「极致压缩 + 单组分匹配」假设全部失效,又没法用 FedAvg 类参数共享方法。

本文目标:(1) 让每个客户端独立产生既保留诊断细节、又能被任意 MIL 架构利用的合成特征;(2) 跨机构整合时避免直接拼接造成的 domain shift;(3) 保证可解释性(医学场景重要)。

切入角度:从 patch 级 embedding 出发而非 pixel 级——既贴合 MIL pipeline,又把蒸馏维度从 \(256\times 256\times 3\) 降到 \(\mathbb{R}^d\);引入「一对一」slide 级合成(每张真实 slide 对应一张合成 slide)替代「多对一」聚合,避免丢失 slide-level 多样性。

核心 idea:把 WSI patch 特征建模为 16-component GMM,对齐合成集每个组分的均值与协方差(而非单一全局均值),并以 slide 为单位做一对一蒸馏;联邦阶段用课程学习——先让本地模型在真实数据上收敛,再渐进加入其他客户端的合成特征作为辅助监督。

方法详解

整体框架

FedHD 跑「local distillation + curriculum federation」两段:(i) 在每个客户端 \(c\),对每张真实 slide \(x_i^{(c)}\)(含 \(K\) 个 patch embedding \(b_k^{i,c}\in\mathbb{R}^d\))通过 GMM 建模真实分布 \(P_\text{real}^{(c,i)}\approx \sum_m \pi_m \mathcal{N}(\mu_m^{(c,i)},\Sigma_m^{(c,i)})\),并优化一张同尺寸的合成 slide \(h_i^{(c)}\)(含 \(T\) 个可学 patch embedding)使其 GMM 与真实 GMM 在均值与协方差上 Frobenius 对齐;(ii) 客户端把 \(\{h_i^{(c)}\}\) 上传服务器,服务器把除自身外的所有合成切片聚合成 \(\mathcal{H}_\text{global}^{(c)}\) 下发;(iii) 客户端先用真实数据训本地 MIL 模型,到第 \(t_0\) 轮后逐步加入 \(\mathcal{H}_\text{global}^{(c)}\),用 GCE 抗噪 loss 联合训练;可选的 FastGAN 生成器把合成 embedding 反解为伪 patch 提供可视化。

关键设计

  1. Gaussian-Mixture Feature Alignment (代替单均值匹配):

    • 功能:捕捉 WSI 内部多形态组分(肿瘤区/正常区/边界区等)的复杂分布,避免单均值匹配把异质 patch 压成「灰色平均值」。
    • 核心思路:用 GMM 在每张真实 slide 的 patch 特征 \(\{b_k^{i,c}\}_{k=1}^K\) 上估出 \(M=16\) 个组分的 \(\{\mu_m,\Sigma_m,\pi_m\}\);合成 slide 的 patch \(\{p_j^{i,c}\}_{j=1}^T\) 也按同 GMM 分配组分,得到 \(\{\hat{\mu}_m,\hat{\Sigma}_m\}\);损失 \(\mathcal{L}_\text{align}^{(c)}=\sum_m(\|\mu_m-\hat{\mu}_m\|_2^2+\|\Sigma_m-\hat{\Sigma}_m\|_F^2)\) 同时对齐均值与协方差。
    • 设计动机:先前 DD 通用做法 \(\sum_y \|\Phi_{T_y}-\Phi_{S_y}\|^2\) 假设单 Gaussian/单中心;WSI patch 实证呈现多峰,单中心匹配会把诊断关键的少数组分(如肿瘤 patch)抹平,导致下游 MIL 分类掉点。
  2. 一对一 Slide 级蒸馏:

    • 功能:每张真实 slide 对应一张合成 slide,避免「多 slide 压成几张」的过压,保留诊断多样性。
    • 核心思路:客户端 \(c\) 维持 \(N\) 张合成 slide \(h_i^{(c)}\)\(N\)=本地真实 slide 数);每张合成 slide 持有 \(T=1000\) 个 patch embedding,与真实 slide 对齐对齐学习。上传时 payload 是 \(O(NTd)\) 浮点,与传输完整 patch 特征量级一致但不需要客户端真正分享 patch。
    • 设计动机:自然图像 DD 追求 IPC=1/10/50 的极致压缩可行,是因为类内样本相对同质;WSI 数据集本身小(几百例)+ slide 间高度异质,再压缩等于全员失真。
  3. 课程联邦集成 (Curriculum-based Federation):

    • 功能:让本地模型先稳健收敛,再逐步引入外来合成数据,防止训练早期被噪声拉偏。
    • 核心思路:本地总 loss \(\mathcal{L}_\text{local}^{(c)} = \mathcal{L}_\text{real}^{(c)} + \mathcal{L}_\text{GCE}^{(c)}\cdot \mathbb{I}(t\geq t_0)\),前 \(t_0=30\) epoch 只看真实数据;之后加入合成数据并用 Generalized Cross-Entropy \(\mathcal{L}_\text{GCE}=\frac{1-p_y^q}{q}\)\(q=0.7\))替代普通 CE 以抑制潜在 label noise。
    • 设计动机:直接 mix 跨机构合成数据会引入分布漂移;课程让模型先有「好底子」再吸收外部知识,类似教育中的 prerequisites;GCE 在 \(q\to 0\) 退化为 MAE,对噪声更稳健。

损失函数 / 训练策略

本地蒸馏 1000 iter;联邦单轮通信;本地 MIL 训练 50 epoch;GMM 组分 \(M=16\)(按 Song 2024 经验选);synthetic patch 数 \(T=1000\);GCE 参数 \(q=0.7\);课程阈值 \(t_0=30\);可选 FastGAN 生成器联合 \(\mathcal{L}_\text{GAN}^{(c)}+\lambda_\text{rec}\mathcal{L}_\text{rec}^{(c)}\) 做可视化。

实验关键数据

主实验

数据集 Client/setting FedHE DESA FedDGM HistoFS FedWSIDD FedHD
CAM16 C1 [R50+CLAM] Acc 72.7 77.0 77.0 82.4 83.7 85.1
CAM16 C2 [UNI+TransMIL] Acc 77.7 86.2 87.8 91.3 93.2 95.8
CAM16 Avg Acc 75.2 81.9 83.4 86.7 88.7 91.2
CAM17 C1 [UNI+CLAM] Acc 72.3 72.3 74.3 75.9 77.3 83.6
CAM17 C3 [R50+ACMIL] Acc 77.0 78.0 79.0 79.0 79.0 84.0
CAM17 C4 [PhV2+TrMIL] Acc 73.7 78.3 79.9 82.3

(FedHD 在所有客户端 + 异构特征提取器 + 异构 MIL 架构组合上均取得 Acc / MCC 最优;CAM17 上对各 [feature, MIL] 配对的提升尤其明显。)

消融实验

配置 作用 说明
单 Gaussian (M=1) vs GMM (M=16) M=16 显著优于单均值 验证多组分建模必要性
一对一 vs 多对一压缩 一对一保留诊断多样性 WSI 高异质性下过压会掉点
无课程 (直接 mix) vs 课程 \(t_0=30\) 课程后期再加入合成 防止早期被外部噪声拉偏
CE vs GCE (\(q=0.7\)) GCE 提高鲁棒性 合成数据潜在 label noise 被压制
通信 payload \(O(NTd)\) 单轮通信即可 比迭代式 FedAvg 通信成本低
FastGAN 解码 可解释伪 patch 满足医学审核需要

关键发现

  • 多组分匹配是关键:单均值匹配(FedWSIDD 等 baseline)在 WSI 上掉点严重;FedHD 用 GMM 同时匹配均值+协方差,对肿瘤等少数组分保护明显。
  • 架构无关的协作:传统 FedAvg 在 [R50+CLAM] vs [UNI+TransMIL] vs [PhV2+TrMIL] 异构组合下根本无法工作,FedHD 用特征级蒸馏完美绕开参数空间不兼容。
  • 课程比直接 mix 更稳:直接把外部合成数据从 epoch 0 就加入会让某些客户端(少数类极端不均的 CAM17 C3)性能下降;\(t_0=30\) 的 warm-up 提供稳定基础。
  • 可解释模块的临床价值:FastGAN 反解的伪 patch 可用于医生人工核查,缓解黑盒担忧——这是医学落地的关键缺口。

亮点与洞察

  • 用 GMM 替代单均值是个非常贴合 WSI 物理形态的设计,把「形态学多组分」这一领域知识硬编码进 DD 损失,是 domain-aware 蒸馏的好例子。
  • 一对一 slide 级蒸馏的「反潮流」选择(明确不追求极致压缩)反映了对 WSI 数据特性的清晰认识——不是所有领域都适合 IPC=1。
  • 课程学习思想在「跨客户端合成数据集成」语境下的应用很有启发性:可推广到任何「自蒸馏 → 联邦集成」流程,例如联邦语言模型/联邦推荐系统。
  • 单轮通信 + 特征级 payload 设计在医院低带宽、合规审计严格的环境下非常实用;外加 GCE 抗噪和 FastGAN 可视化,工程完备性高。

局限与展望

  • GMM 组分数 \(M=16\)、合成 patch 数 \(T=1000\) 是按经验给出,未必对所有 WSI 数据集最优;自动选 \(M\) 或贝叶斯非参(DPGMM)是自然方向。
  • 单轮通信简单但不一定收敛到最优——多轮迭代蒸馏可能更好,作者未讨论。
  • 客户端少(CAM16 仅 2 个、CAM17 5 个)使得课程阈值 \(t_0\) 调参较容易,扩展到几十/上百客户端的伸缩性未验证。
  • GMM 协方差 \(\Sigma_m\) 在高维 \(d\)(如 UNI 1024d)下 \(O(d^2)\) 计算/存储成本高,论文未给出大 \(d\) 下的开销分析。
  • FastGAN 解码出的伪 patch 与真实组织的可信度需病理学家系统评估,目前仅展示视觉合理性,未做盲评。

相关工作与启发

  • vs FedAvg / FedMut / FedImpro:传统参数共享方法在异构 MIL 架构下根本不可行;本文用特征级蒸馏绕开这一限制。
  • vs FedHisto (Lu 2022) / HistoFS (Raswa 2025):他们假设同构 MIL + 算力均衡,本文明确目标异构场景,更贴合真实医院网络。
  • vs FedWSIDD (Jin 2025):同样做联邦 WSI 蒸馏,但用单均值匹配;本文证明这种简化在 WSI 上严重损失诊断细节。
  • vs FedD3 (Song 2023) / FedDGM (Jia 2025):他们做个性化 FL(解纠缠 dual decoder / 扩散模型生成 latent),算力开销大;FedHD 更轻量且 architecture-agnostic。
  • vs 自然图像 DD (DM, MTT):本文反向倡导「不要极致压缩」——这一观察对其他「小数据 + 高异质」领域(罕见病、卫星遥感)也有借鉴价值。

评分

  • 新颖性: ⭐⭐⭐⭐ GMM 多组分对齐 + 一对一蒸馏 + 课程联邦三件套,针对 WSI 异构 FL 场景的组合很有针对性
  • 实验充分度: ⭐⭐⭐⭐ 3 数据集 × 多客户端 × 异构 [feature, MIL] 配对,统计显著性标注规范
  • 写作质量: ⭐⭐⭐⭐ 动机-方法-实验逻辑通顺,损失函数与超参表清晰
  • 价值: ⭐⭐⭐⭐ 直接面向医学联邦落地中的「异构架构 + 隐私 + 可解释」三难,工程性强