OmniFM: Toward Modality-Robust and Task-Agnostic Federated Learning for Heterogeneous Medical Imaging¶

会议: CVPR 2026
arXiv: 2603.21660
代码: 无
领域: 医学图像 / 联邦学习
关键词: 联邦学习, 模态异构, 频域分析, 医学影像, 任务无关

一句话总结¶

提出 OmniFM，一个模态鲁棒且任务无关的联邦学习框架，通过频域频谱知识检索、嵌入式交叉注意力融合和前缀-后缀频谱提示三个互补组件，在一个统一的 FL pipeline 下支持分类、分割、超分辨率、VQA 和多模态融合五种医学影像任务，并在跨模态异构场景下显著超越现有基线。

研究背景与动机¶

领域现状：联邦学习（FL）已成为跨机构医学影像协作训练的主流范式，能够在不共享数据的前提下联合训练模型。现有 FL 方法主要针对特定任务设计（如分类用 CNN、分割用 U-Net），且假设同构的影像模态。
现有痛点：（1）任务绑定：分类、分割、VQA 等任务各需定制 FL pipeline，切换任务需要重新工程化优化流程；（2）模态脆弱：医院间使用不同影像模态（MRI、CT、PET、病理等），导致局部模型的损失landscape存在根本性差异。聚合时全局模型被拉向矛盾的极小值，收敛缓慢且振荡。
核心矛盾：现有 FL 框架将联邦优化设计与模型架构/任务类型深度耦合，导致"一个任务一条pipeline"的现状，工程成本高且难以在真实多模态场景中部署。
本文目标（1）能否构建一个跨任务复用的统一 FL pipeline？（2）在任务固定但模态异构时，能否保持稳定的优化行为？
切入角度：频域洞察——不同模态的低频频谱分量展现出强跨模态一致性，编码了模态不变的解剖结构信息。利用这一点可以桥接模态间的表示差异。
核心 idea：用频域频谱embedding作为跨模态锚点，通过全局检索-融合-提示机制将模态不变知识注入局部表示，实现"单pipeline跨任务+跨模态"的联邦学习。

方法详解¶

整体框架¶

OmniFM 的每个客户端提取两类表示：通过 backbone 获取的空间域表示 \(\mathbf{r} \in \mathbb{R}^{L \times d}\)，以及通过 FFT 获取的频域频谱 embedding \(\mathbf{s}\)。频谱 embedding 上传至服务器侧的全局知识库进行 top-k 检索，检索到的全局频谱原型 \(\mathbf{S}_g\) 先经嵌入级交叉注意力（ECA）与本地表示 \(\mathbf{r}\) 融合得 \(\mathbf{Z}\)，再以前缀-后缀频谱提示（PSP）拼成增广序列 \([\mathbf{Z}\|\mathbf{r}\|\mathbf{c}]\) 送入任务头产生预测。整套机制只在 embedding 层动手、不改 backbone，因此同一 pipeline 可挂在分类、分割、超分、VQA 等不同任务上；频谱-近端对齐损失（SPAlign）则在优化层面把局部频谱拉向全局原型，抑制模态引起的漂移。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    IMG["输入医学影像<br/>（MRI/CT/PET/病理…）"] --> BB["backbone 编码<br/>空间域表示 r"]
    IMG --> FFT["FFT 取幅度谱 + 低通<br/>频谱 token s"]
    FFT --> GSKR["全局频谱知识检索 GSKR<br/>服务器知识库 top-k 检索 → 全局原型 Sg"]
    GSKR --> ECA["嵌入级交叉注意力融合 ECA<br/>r 为 query、Sg 为 key/value → Z"]
    BB --> ECA
    ECA --> PSP["前缀-后缀频谱提示 PSP<br/>拼成 [Z ‖ r ‖ c]"]
    PSP --> HEAD["任务头<br/>分类/分割/超分/VQA"]
    HEAD --> OUT["预测输出"]
    FFT -.->|SPAlign 对齐损失<br/>s 拉向全局原型质心| GSKR

关键设计¶

1. 全局频谱知识检索 GSKR：让不同模态在低频频谱里找到共同锚点

模态异构的根子在于 MRI、CT、PET 的纹理统计天差地别，直接在空间域聚合会把全局模型拉向互相矛盾的极小值。作者的切入点是：图像幅度谱的低频分量编码的是粗粒度解剖结构，这部分跨模态一致性远高于高频纹理。于是客户端先对输入做 FFT 取幅度谱，低通滤波滤掉模态特异的高频细节，再经一个频谱 tokenization 模块（FreqMix 混频 + 投影 + 池化）压成一个归一化的频谱 token \(\mathbf{s}\)。服务器侧维护一个全局知识库 \(\mathcal{K}^{(r)}\)，客户端把 \(\mathbf{s}\) 上传后，服务器按余弦相似度检索出 top-k 个全局频谱原型 \(\mathbf{S}_g\) 回传。知识库本身按检索频率做剪枝，既保持紧凑又维持各模态的平衡占比。这一步等于在频域建了一个跨客户端共享的「解剖结构字典」，让每个本地表示都能借到模态无关的先验。

2. 嵌入级交叉注意力融合 ECA：把检索到的全局先验注进本地表示，但不动 backbone

检索回来的 \(\mathbf{S}_g\) 是全局知识，但要让它真正影响本地预测，得和 backbone 的空间域表示 \(\mathbf{r}\) 融合。作者刻意把融合放在 embedding 空间而非改 backbone 结构——这正是「任务无关」的关键：同一套机制能挂在分类的 ResNet、分割的 U-Net 或 VQA 的 encoder 上。具体以本地表示 \(\mathbf{r}\) 为 query、全局原型 \(\mathbf{S}_g\) 为 key/value 做一次标准交叉注意力

\[\mathbf{Z} = \text{Softmax}\!\left(\frac{\mathbf{Q}\mathbf{K}^\top}{\sqrt{d_h}}\right)\mathbf{V}\]

输出 \(\mathbf{Z}\) 就是被全局低频先验调制过的本地 token，自然偏向模态不变的解剖特征而非各家医院特有的成像纹理。因为只在表示层动手，切换任务时整套融合逻辑原样复用，不必为每个任务重新设计 FL pipeline。

3. 前缀-后缀频谱提示 PSP：一头管跨客户端一致、一头管本地特化

联邦学习永远要在「全局共识」和「本地个性化」之间权衡：只追全局会丢掉机构特有分布，只顾本地又退化成各训各的。PSP 用 token 序列的两端分别承接这两个目标——把 ECA 融合后的频谱 token \(\mathbf{Z}\) 作为 prefix 前置、把客户端各自的一个可学习 CLS token \(\mathbf{c}\) 作为 suffix 后接，拼成

\[\mathbf{r}' = [\,\mathbf{Z}\,\|\,\mathbf{r}\,\|\,\mathbf{c}\,]\]

prefix 携带全局共享的模态不变结构，把本地特征往跨客户端一致的方向拉；suffix 是私有参数、不参与聚合，专门吸收本机构的分布偏移。两端一夹，同一个序列里既保留了联邦共识又留了本地适配的口子，再送进任务头出预测。

损失函数 / 训练策略¶

总损失为：\(\min_{\phi,\psi} \mathcal{L}_\text{task}(h_\psi([\mathbf{Z}\|\mathbf{r}\|\mathbf{c}]), y) + \lambda \mathcal{L}_\text{align}\)

其中 Spectral-Proximal Alignment (SPAlign) 损失 \(\mathcal{L}_\text{align} = \|\mathbf{s} - \bar{\mathbf{s}}_g\|_2^2\) 强制局部频谱 embedding 靠近检索到的全局原型质心，在频域空间抑制模态引起的优化漂移，同时保留空间域的灵活性。

实验关键数据¶

主实验¶

跨模态分类（MedMNIST-v2，Scenario 1 Hard，ResNet-18 backbone）：

方法	Acc@20%	Acc@100%	F1@100%
FedAvg	56.31	84.21	0.474
FedPer	84.47	92.57	0.665
OmniFM	96.85	97.82	0.668

超分辨率（BreaKHis，×2 尺度，平均 PSNR）：

方法	Scenario 1	Scenario 2
FedAvg	35.95	41.50
FedPer	39.52	40.87
OmniFM	42.21	42.30

消融实验¶

VQA Task 1 在不同微调策略下的表现：

配置	F-C (IID)	F-CL (Non-IID)
FedAvg	0.783	0.827
FedPer	0.799	0.833
OmniFM	0.812	0.831

关键发现¶

OmniFM 在所有任务（分类/分割/超分/VQA）和所有异构场景下均取得最佳或次佳
跨模态分类场景下，20% 参与率时 OmniFM 仍达 96.85% 准确率，而 FedAvg 仅 56.31%，差距超 40 个百分点
超分辨率任务中，OmniFM 在 ×8 高难度尺度下仍保持优势（30.02 vs 29.36 PSNR）
跨模态 VQA Task 2 中，8个完全异构模态客户端的平均性能 79.27%，超过 FedPer 的 78.40%

亮点与洞察¶

频域不变性洞察极佳：低频频谱跨模态一致性这一观察简洁有力，为联邦学习中处理模态异构提供了优雅的理论基础。该洞察可迁移到其他跨域/跨模态学习场景
真正的"一个pipeline多任务"：支持分类、分割、超分、VQA、多模态融合五种任务的单一联邦优化流程，这在 FL 领域非常罕见
检索增强的联邦学习：全局频谱知识库 + top-k 检索的思路类似 RAG，但应用在联邦学习的频域空间，是一个巧妙的交叉创新

局限与展望¶

频谱 embedding 上传虽然轻量，但仍需探讨是否存在隐私泄露风险（频谱可能包含可恢复的患者信息）
实验中客户端数量较少（3-8个），未验证大规模联邦场景（50+ 客户端）的表现
知识库剪枝策略（按检索频率）可能导致稀有模态的频谱原型被过早删除
未与最新的基础模型联邦微调方法（如 FedPETuning）进行对比

评分¶

新颖性: ⭐⭐⭐⭐ 频域视角解决联邦学习模态异构是新颖的切入点，但各子模块（交叉注意力、prefix/suffix）较常规
实验充分度: ⭐⭐⭐⭐ 覆盖五种任务和多种异构场景，但缺少大规模客户端实验和隐私分析
写作质量: ⭐⭐⭐⭐ 框架描述清晰，图示信息量大，但部分公式可以更精简
价值: ⭐⭐⭐⭐ 对联邦医学影像分析有重要实用价值，统一pipeline的理念具有工程意义