Federated Modality-specific Encoders and Partially Personalized Fusion Decoder for Multimodal Brain Tumor Segmentation¶

会议: CVPR 2026
arXiv: 2603.04887
代码: GitHub
领域: 医学图像
关键词: Federated Learning, Multimodal Brain Tumor Segmentation, Intermodal Heterogeneity, Personalized FL, Cross-Attention Calibration

一句话总结¶

提出 FedMEPD 框架，用模态专属编码器处理模态间异质性、滤波器级动态部分个性化解码器平衡知识共享与个性化、多锚点跨注意力校准补偿缺失模态信息，在 BraTS 2018/2020 上全面超越现有多模态联邦学习方法。

研究背景与动机¶

领域现状：联邦学习（FL）允许多个医疗机构在不共享隐私数据的前提下协同训练模型，脑肿瘤分割依赖 T1、T1c、T2、FLAIR 四种 MRI 模态提供互补信息（前两者突出肿瘤核心，后两者突出瘤周水肿）。

现有痛点：现实中不同医疗机构可能仅拥有部分模态（如小型诊所只有 T1），导致 FL 参与方之间出现严重的模态间异质性（intermodal heterogeneity），而目前绝大多数医学影像 FL 方法只处理模态内数据异质性（non-IID 分布），无法有效应对模态缺失场景。

核心矛盾：FL 需要同时实现两个目标——(1) 训练一个面向全模态输入的最优全局模型（服务器端），(2) 为每个仅有部分模态的客户端定制个性化模型——这二者在模态异质性下存在本质张力：完全联邦化聚合会被异质模态干扰、完全个性化又阻碍知识共享。

本文目标：在保护隐私的前提下，如何既有效利用异质模态数据训练全局模型，又为缺失模态的客户端提供信息补偿和个性化适配。

切入角度：将网络拆分为模态专属编码器（完全联邦化）和多模态融合解码器（部分联邦化、部分个性化），结合多锚点多模态表示通过跨注意力校准缺失模态的特征。

核心 idea：通过参数更新方向一致性的滤波器级动态掩码，让解码器中"全局有共识"的参数联邦化共享、"本地有差异"的参数个性化保留，同时用服务器侧的多锚点全模态表示通过 cross-attention 补偿客户端缺失模态。

方法详解¶

整体框架¶

FedMEPD 框架由三大组件构成：

服务器端（假设拥有全模态数据）：4 个模态专属编码器 \(E_m\)（每种模态一个）+ 一个多模态融合解码器 \(D_M\)。融合特征经 K-means 聚类生成多锚点表示，连同模型参数一起分发给客户端。
客户端（拥有 1~4 种模态的子集）：对应模态的联邦编码器 + 部分个性化的融合解码器 \(D_m\) + LACCA 校准模块。编码器完全联邦化；解码器通过动态二值掩码 \(B^i\) 控制哪些滤波器联邦化、哪些个性化。
基础架构：采用 RFNet（Ding et al., 2021）作为 backbone，天然支持模态专属编码器 + 融合解码器的分离设计。编码器还共享一个辅助分割解码器作为正则化。

关键设计¶

联邦模态专属编码器（Federated Modality-specific Encoders）
- 功能：为每种 MRI 模态学习专用特征表示，充分适应模态间的显著分布差异
- 核心思路：每种模态 \(m\) 有独立编码器 \(E_m\)，参数 \(W_m^s\) 在服务器与客户端之间完全联邦化。每轮 FL 中，客户端接收全局参数替换本地副本，训练后回传，服务器对同一模态取平均：\(W_m^s = \frac{1}{N_m}\sum_i W_m^i\)
- 设计动机：FedAvg 用统一编码器处理不同模态，但 T1/T1c/T2/FLAIR 的分布差异巨大，共享参数会互相干扰。模态专属编码器允许充分的参数特化，消融实验显示这是最大的性能贡献者（客户端平均 mDSC 从 55.37% 提升到 68.70%，+13.33%）
部分个性化融合解码器（Partially Personalized Fusion Decoder）
- 功能：在公共知识共享与客户端个性化之间动态取得平衡
- 核心思路：基于全局与局部参数更新方向的一致性，以滤波器为单位动态决定联邦化/个性化状态。具体地，计算每个滤波器 \(j\) 的服务器和客户端参数更新的余弦相似度 \(\delta_j^{i,r} = \cos(\Delta \mathbf{w}_j^{s,r}, \Delta \mathbf{w}_j^{i,r})\)。若连续 \(P\) 轮（patience）余弦相似度为负，该滤波器不可逆地转为个性化。聚合规则：\(W_d^{i,agg} = (1-B^{i,r-1})W_d^{i,r-1} + B^{i,r-1}W_d^{s,r-1}\)，\(B\) 为动态二值掩码。服务器端用 EMA 策略聚合，\(\lambda\) 根据滤波器个性化状态在 0.3 和 1.0 之间切换，配合归一化项 \(H^{i,r}\) 缓解 client bias
- 设计动机：完全个性化解码器阻碍知识共享（P=0 时客户端平均仅 68.70%）；完全联邦化又被异质模态干扰（mDSC 68.49%）。滤波器级操作保持特征检测的完整性，且通信开销极低（每个滤波器仅 1 字节标记状态）
多锚点多模态表示（Multi-Anchor Multimodal Representation）
- 功能：从服务器全模态融合特征中提取类别级表示，分发给客户端补偿缺失模态信息
- 核心思路：用 ground truth 掩码从融合解码器 \(D_M\) 的特征图中按类别提取特征，对每类特征做 K-means 聚类得到 \(N_k=4\) 个锚点（而非单一原型）。基于最抽象特征层级 \(l=4\)（瓶颈层）确定聚类成员，对 4 个尺度层级分别计算锚点。锚点通过 EMA（\(\omega=0.999\)）平滑更新避免聚类跳变
- 设计动机：3D 医学图像个体间差异大，单一原型压缩过度（\(N_k=1\) 时客户端平均 71.19%，\(N_k=4\) 时 72.84%）。多锚点作为群体级抽象不泄露个体隐私，传输负担也很小
LACCA 模块（Localized Adaptive Calibration via Cross-Attention）
- 功能：客户端用多模态锚点通过跨注意力机制自适应校准缺失模态的特征表示
- 核心思路：将局部特征图 \(F_l\) 作为 query，多模态锚点 \(A_l\) 作为 key 和 value，通过缩放点积跨注意力：\(F_l^{cal} = \text{softmax}\left[\frac{F_l W_0 (A_l W_1)^T}{\sqrt{C_l}}\right] A_l W_2\)。采用 8 头注意力，插入解码器全部 4 个特征尺度层级
- 设计动机：不同客户端缺失的模态不同，需要自适应地从全模态锚点中选择性提取最匹配自身模态组合的信息。LACCA 完全在客户端本地执行，推理时直接使用已训练好的锚点

损失函数 / 训练策略¶

损失函数：Dice Loss + Cross Entropy Loss（医学分割标配）
优化器：Adam，学习率 0.0002，权重衰减 \(10^{-5}\)
联邦训练：1000 轮通信，每轮服务器和客户端各训练 1 个 epoch
输入：\(80 \times 80 \times 80\) 体素 crop，batch size = 1
正则化：所有编码器共享辅助分割解码器，强制学习一致的判别特征
硬件：5 块 RTX 2080Ti（服务器 1 块，4 块分配给客户端）

实验关键数据¶

主实验¶

在 BraTS 2018（285 例）和 BraTS 2020（369 例）上，与 Local baseline、RFNet 及 8 种 FL SOTA 方法比较。设置 8 个客户端，模态组合从单模态到全模态各两个。

BraTS 2018 mDSC (%)：

方法	单模态 C	单模态 T2	双模态 F/C	双模态 T1/T2	三模态 F/C/T1	三模态 F/T1/T2	全模态 (客户端1)	全模态 (客户端2)	客户端平均	服务器
Local	42.37	48.13	87.74	64.93	71.59	63.99	89.15	67.67	66.95	82.56
FedAvg	18.46	42.12	82.11	59.59	61.13	61.91	84.88	62.09	59.04	80.10
FedMSplit	48.99	54.09	92.16	68.21	82.48	69.92	87.87	66.09	71.23	79.93
FedIoT	41.97	48.33	92.35	61.69	81.81	70.66	88.31	68.36	69.18	84.89
FedMEPD	58.87	59.35	93.73	75.83	82.99	74.58	90.69	69.62	75.70	84.98

BraTS 2020 mDSC (%)：

方法	客户端平均	服务器
Local	71.38	88.07
FedAvg	61.91	87.61
FedMSplit	73.80	86.88
FedIoT	71.20	88.77
FedMEPD	75.90	89.39

BraTS 2018 HD95（像素）：

方法	客户端平均	服务器
FedAvg	23.43	14.52
FedMSplit	18.01	12.40
FedMEPD	12.98	6.52

消融实验¶

组件逐步添加（BraTS 2018 验证集 mDSC %）：

配置	编码器	解码器	LACCA	客户端平均	服务器
(a) FedAvg E 联邦	共享 E	-	-	55.37	82.60
(b) FedAvg D 联邦	-	联邦 D	-	64.79	82.46
(c) 模态专属 E	4E 联邦	-	-	68.70	82.72
(d) + 完全联邦 D	4E 联邦	联邦 D	-	68.49	83.00
(e) + 部分个性化 D	4E 联邦	部分个性化 D	-	70.73	83.83
(f) + 单锚点 LACCA	4E 联邦	部分个性化 D	单锚点	71.19	83.71
(h) 完整模型	4E 联邦	部分个性化 D	多锚点	72.84	83.83

Patience \(P\) 敏感性（验证集 mDSC %）：

P 值	客户端平均	服务器
0（完全个性化）	68.70	82.72
6	72.31	83.54
8	72.20	83.76
10	72.84	83.83
12	71.55	83.78
14	72.29	83.74

锚点数量 \(N_k\)（验证集 mDSC %）：

\(N_k\)	客户端平均	服务器
1	71.19	83.71
2	71.91	83.56
4	72.84	83.83
6	71.33	83.05

服务器数据量/质量鲁棒性（BraTS 2018 测试集 mDSC %）：

数据配置	客户端平均	服务器
全量服务器数据	75.70	84.98
50% 服务器数据	74.34	82.98
30% 服务器数据	73.81	80.68
10% 服务器数据	72.81	78.30
标注噪声（±1像素腐蚀/膨胀）	75.02	81.43
FedMSplit（全量，参考）	71.23	79.93

关键发现¶

模态专属编码器是最大性能贡献者：从 FedAvg 的 55.37% 跃升至 68.70%（+13.33%），证实模态间异质性是核心瓶颈
部分个性化严格优于两个极端：完全联邦化解码器（68.49%）和完全个性化解码器（68.70%）都不如部分个性化策略（70.73%），验证了知识共享与个性化平衡的必要性
FedAvg 系列在模态异质场景下甚至劣于 Local 基线（59.04% vs 66.95%），说明简单联邦聚合在模态异质性下反而有害
服务器数据极度鲁棒：即使仅用 10% 服务器数据（约 9 例），客户端平均 72.81% 仍超越所有使用全量数据的对比方法（FedMSplit 71.23%）
对标注噪声鲁棒：服务器标注随机±1像素腐蚀/膨胀后，客户端平均仅微降至 75.02%，无统计显著差异

亮点与洞察¶

滤波器级动态个性化机制设计精巧——基于参数更新方向一致性的二值掩码自动发现"该共享什么、该个性化什么"，通信开销极低且不可逆设计保证训练稳定性
多锚点表示是对单原型的有力升级，4 个锚点就能显著提升表示力（+1.65%），同时作为群体级抽象保持了 FL 的隐私属性
框架对服务器资源要求宽松——10% 的全模态数据即可有效驱动整个联邦系统，这在大型医院难以提供大量数据的现实场景中非常实用
实验设计覆盖面广：不同客户端数量（4/6）、不同模态组合度（1~4 模态）、不同服务器数据量/质量、两个数据集、10+ 对比方法

局限与展望¶

假设服务器拥有全模态数据——虽然实验证明少量即可，但完全无全模态数据的去中心化场景未覆盖，可探索 peer-to-peer 的模态互补机制
个性化掩码不可逆——滤波器一旦个性化后永久锁定，极长训练场景中可能过早固化决策，可考虑引入"解冻"机制或周期性重评估
仅验证脑肿瘤分割——BraTS 数据集以外的多模态医学任务（心脏、腹部、病理等）的泛化性未验证
客户端规模有限——最多 8 个客户端，更大规模联邦（如数百个医院节点）的通信效率和收敛性待验证
隐私保证缺乏理论分析——多锚点表示虽为群体级抽象，但未提供差分隐私等正式隐私保证

评分¶

新颖性: ⭐⭐⭐⭐ — 滤波器级余弦一致性动态个性化和多锚点跨注意力校准机制新颖
实验充分度: ⭐⭐⭐⭐⭐ — 两个数据集、10+ 方法对比、7 组消融、数据量/质量鲁棒性分析
写作质量: ⭐⭐⭐⭐ — 结构清晰，公式推导严谨，图表丰富
价值: ⭐⭐⭐⭐ — 切实解决多模态联邦医学影像中的关键瓶颈问题