Federated Modality-specific Encoders and Partially Personalized Fusion Decoder for Multimodal Brain Tumor Segmentation¶

会议: CVPR 2026
arXiv: 2603.04887
代码: https://github.com/ccarliu/FedMEPD
领域: 医学图像
关键词: 联邦学习, 多模态脑肿瘤分割, 模态异质性, 个性化联邦学习, 跨模态校准

一句话总结¶

提出 FedMEPD 框架，通过为每种 MRI 模态设置独立编码器（全联邦共享）+ 部分个性化的多模态融合解码器 + 多锚点跨注意力校准模块，同时解决联邦学习中模态间异质性和客户端个性化两大挑战，在 BraTS 2018/2020 上超越现有联邦方法。

研究背景与动机¶

领域现状：联邦学习（FL）在医学影像分析中越来越重要，因为它允许多个医疗机构在不泄露隐私的情况下协作训练模型。然而，大多数现有的 FL 方法只考虑了模态内的异质性（例如数据分布不同），忽略了多模态数据中的模态间异质性。
现有痛点：在脑肿瘤分割任务中，需要 T1、T1c、T2、FLAIR 四种 MRI 模态提供互补信息。但实际中不同医疗机构可能只有部分模态（缺模态问题），这导致了跨参与者之间的模态间异质性，使得传统 FedAvg 等方法无法有效训练全局模型。
核心矛盾：一方面需要一个在全模态输入下表现最优的全局服务器模型，另一方面每个客户端需要适应其特有模态组合的个性化模型。这两个目标在联邦学习中很少被同时考虑。
本文目标 (a) 如何处理不同客户端拥有不同模态组合带来的模态间异质性？(b) 如何在联邦共享通用知识的同时，实现每个客户端的有效个性化？
切入角度：作者观察到不同 MRI 模态之间的分布差异非常大（如 T1/T1c 突出肿瘤核心，T2/FLAIR 突出水肿区域），简单的参数平均会损害性能；同时注意到解码器参数占模型大部分比例，全部个性化会阻碍知识共享，全部联邦又会因分布差异降低性能。
核心 idea：用模态专属编码器处理模态间异质性，用基于参数更新一致性的动态部分个性化解码器平衡知识共享与个性化，再用多锚点多模态表征校准缺失模态的信息缺口。

方法详解¶

整体框架¶

FedMEPD 的整体架构如下：输入是多模态 MRI 体积数据，服务器端拥有四种模态的完整数据，客户端可能只有 1-4 种模态的数据。框架包含三个核心组件：(1) 模态专属编码器（每种模态一个，全联邦共享）；(2) 多模态融合解码器（部分联邦、部分个性化）；(3) 通过跨注意力进行的局部自适应校准（LACCA）模块。服务器端的编码器+融合解码器构成完整的分割网络，客户端也有对应的编码器和解码器。每轮联邦通信中，编码器参数完全同步，解码器参数根据更新一致性动态决定哪些 filter 联邦共享、哪些保持个性化。

关键设计¶

模态专属编码器（Federated Modality-specific Encoders）
- 功能：为每种 MRI 模态分配独立的特征提取器，允许大范围的参数特化。
- 核心思路：采用晚融合策略，每种模态 \(m\) 有独立编码器 \(E_m\)，所有客户端和服务器的同一模态编码器完全联邦共享。服务器端通过融合解码器将所有模态的特征融合后反向传播，间接优化每个模态编码器。客户端只保留其拥有模态对应的编码器。每轮通信中，同一模态的编码器参数由拥有该模态的所有客户端平均聚合：\(W_m^s = \frac{1}{N_m}\sum_i W_m^i\)。
- 设计动机：因为不同 MRI 模态之间分布差异非常大，仅靠归一化层特化（如 FedNorm）不足以处理这种异质性。模态专属编码器允许更大程度的参数特化，同时通过全联邦共享在多个拥有该模态的客户端间传递知识。
部分个性化融合解码器（Partially Personalized Fusion Decoder）
- 功能：在通用知识共享和客户端个性化之间取得平衡，避免完全个性化导致的过拟合和完全联邦导致的性能退化。
- 核心思路：以 filter 为基本单元进行个性化决策。通过计算服务器和客户端解码器参数更新方向的余弦相似度 \(\delta_j^{i,r} = \cos(\Delta \mathbf{w}_j^{s,r}, \Delta \mathbf{w}_j^{i,r})\)，如果某个 filter 在连续 \(P\) 轮中更新方向与全局更新相反（\(\delta < 0\)），则将其标记为个性化。具体聚合规则为 \(W_d^{i,agg} = (1 - B^{i,r-1})W_d^{i,r-1} + B^{i,r-1}W_d^{s,r-1}\)，其中 \(B\) 是二值掩码。服务器端通过 EMA 策略聚合：\(W_d^{s,agg} = \lambda W_d^{s,r-1} + (1-\lambda)W_d^{loc,r}\)，并引入归一化项 \(H\) 降低客户端偏差。
- 设计动机：一旦某 filter 被标记为个性化就不再切换回联邦状态，避免训练不稳定。选择 filter 作为最小个性化单元是因为卷积 filter 通常学习到特定特征模式，在这个粒度上个性化既保持了已学特征的完整性，通信开销也极低（每个 filter 只需 1 字节标识状态）。
多锚点多模态表征 + 局部自适应跨注意力校准（Multi-Anchor + LACCA）
- 功能：弥补客户端因缺失模态造成的信息损失，将客户端的局部特征朝向服务器的全模态特征进行校准。
- 核心思路：服务器端从融合解码器的多尺度特征中，通过掩码平均池化按类别提取特征，然后用 K-means 聚类得到每类 \(N_k=4\) 个锚点（anchors），以 EMA 方式更新：\(\bar{a}_c = \omega \bar{a}_c + (1-\omega)a_c\)。锚点分发给客户端后，LACCA 模块以客户端的局部特征作为 query、多模态锚点作为 key 和 value，通过缩放点积交叉注意力校准：\(F_l^{cal} = \text{softmax}[F_l W_0 (A_l W_1)^T / \sqrt{C_l}] A_l W_2\)。校准在所有 4 个特征尺度上进行。
- 设计动机：单一原型过于压缩、信息不足以表征 3D 多模态医学图像中的类内变化。多锚点保留了更丰富的全模态信息，且由训练群体抽象得到，不泄露个体隐私。跨注意力机制让每个客户端局部、自适应地选择最匹配自身数据模态和分布的锚点部分，比统一校准更灵活。

损失函数 / 训练策略¶

使用 Dice loss + 交叉熵 loss 的标准医学图像分割损失组合。训练 1000 轮联邦通信，每轮服务器和客户端各训练 1 个 epoch。Adam 优化器，学习率 0.0002，权重衰减 \(10^{-5}\)。输入裁剪大小 \(80 \times 80 \times 80\)，batch size 为 1。

实验关键数据¶

主实验¶

在 BraTS 2018 和 BraTS 2020 上与多种联邦学习方法对比：

方法	BraTS 2018 Avg mDSC(%)	BraTS 2018 Server mDSC(%)	BraTS 2020 Avg mDSC(%)	BraTS 2020 Server mDSC(%)
Local models	66.95	82.56	71.38	88.07
FedAvg	59.04	80.10	61.91	87.61
FedMSplit	71.23	79.93	73.80	86.88
CreamFL	67.21	82.83	67.09	87.69
FedIoT	69.18	84.89	71.20	88.77
Ours	75.70	84.98	75.90	89.39

HD95 指标也显示一致优势：BraTS 2018 上 Avg HD95 从次优方法的 18.01 降至 12.98，BraTS 2020 上达到最优的 13.41。

消融实验¶

配置	BraTS 2020 Avg mDSC(%)	说明
Full model (FedMEPD)	75.90	完整模型
w/o Partial personalization（完全个性化）	~72	去掉部分联邦，知识共享不足
w/o LACCA	~73	去掉跨注意力校准，缺模态信息无法补偿
w/o Multi-anchor（单原型）	~74	单原型信息不够丰富
FedNorm（仅归一化特化）	63.09	仅做 BN 参数特化远不够

关键发现¶

模态专属编码器是处理模态间异质性的基础，对单模态客户端提升最显著（如 T1c 客户端从 FedAvg 的 18.46% 提升到 58.87%）。
部分个性化解码器相比完全个性化解码器在客户端性能上有明显提升，证明联邦共享通用知识的重要性。
多锚点（\(N_k=4\)）比单原型性能更好，继续增加锚点数量收益递减。
LACCA 对缺失模态越多的客户端帮助越大，对全模态客户端影响较小。
在统计显著性方面，FedMEPD 在大多数对比中 \(p < 0.05\)，且在 Avg 和 Server 上均达到统计显著优于其他方法。

亮点与洞察¶

filter 级别的动态个性化决策非常巧妙：通过参数更新方向的一致性来判断哪些参数对数据差异敏感、哪些能被安全共享。这个思路不仅适用于模态异质性，也可以推广到任何 FL 场景中的数据异质性问题。
多锚点表征比传统原型传输更信息丰富、更隐私安全：每类提取多个聚类中心而非单一均值，兼顾表征能力和通信效率，且是群体级抽象不泄露个体信息。
将跨注意力机制用于缺失模态特征校准是自然且优雅的设计——每个客户端通过 attention 自动选择最相关的全模态锚点来补偿信息损失。

局限与展望¶

框架假设服务器拥有全模态数据，这在某些场景下可能不现实。如果服务器也只有部分模态，需要进一步设计。
实验仅在脑肿瘤分割上验证，尚未推广到其他多模态医学影像任务（如心脏分割、腹部器官分割等）。
客户端数量固定为 8 个，未测试大规模联邦场景下的可扩展性。
部分个性化的 patience 参数 \(P\) 和 EMA 系数 \(\lambda\) 需要手动调整，自动化调参策略值得研究。

评分¶

新颖性: ⭐⭐⭐⭐ 将模态专属编码器、filter 级动态个性化、多锚点校准三个设计有机结合，解决联邦多模态医学影像中两个长期被忽视的问题
实验充分度: ⭐⭐⭐⭐ 两个 BraTS 基准、10 种对比方法、完整消融，但仅限脑肿瘤分割单一任务
写作质量: ⭐⭐⭐⭐ 结构清晰、公式完整、图示直观
价值: ⭐⭐⭐⭐ 对联邦学习在多模态医学影像中的实际应用具有重要参考价值