Covariances for Free: Exploiting Mean Distributions for Training-free Federated Learning¶

会议: NeurIPS 2025
arXiv: 2412.14326
代码: dipamgoswami/FedCOF
领域: 优化
关键词: federated learning, training-free, Covariance Estimation, Pre-trained Models, Communication Efficiency

一句话总结¶

提出 FedCOF，仅利用客户端上传的类均值（class means）即可在服务器端无偏估计类协方差矩阵，从而在零训练、极低通信开销的条件下初始化全局分类器，性能媲美甚至超越需要传输二阶统计量的 Fed3R。

背景与动机¶

联邦学习（FL）的核心挑战之一是客户端数据异构（non-iid）导致的性能退化。利用预训练模型能够显著缓解此问题，近期出现了多种 无训练（training-free） 方法：

FedNCM：每个客户端仅上传类均值，服务器聚合后直接用归一化均值初始化分类器。通信开销极低，但仅利用一阶统计量，精度有限。
Fed3R：每个客户端额外上传 \(d \times d\) 的特征矩阵 \(G_k\) 和 \(d \times C\) 的标签矩阵 \(B_k\)，服务器通过 ridge regression 求解分类器。精度更高，但通信开销增加 \(d^2 K\)（对高维特征和大量客户端尤其昂贵）。

核心矛盾：二阶统计量（协方差）能显著提升分类器质量，但直接传输协方差矩阵的通信开销和隐私风险过高。能否在只传输一阶统计量（类均值）的前提下获得二阶统计量的收益？

核心问题¶

如何从客户端类均值中无偏估计全局类协方差矩阵？
如何利用估计的协方差高效初始化全局分类器？
在通信开销与 FedNCM 相同的条件下，能否达到甚至超越 Fed3R 的精度？

方法详解¶

4.1 从客户端均值估计协方差¶

核心数学基础：对于类别 \(c\)，客户端 \(k\) 的样本均值 \(\overline{F}_{k,c}\) 满足：

\[\mathbb{E}[\overline{F}_{k,c}] = \mu_c, \quad \text{Var}[\overline{F}_{k,c}] = \frac{\Sigma_c}{n_{k,c}}\]

即样本均值的方差反映了底层类协方差。基于此，论文提出无偏协方差估计器：

\[\hat{\Sigma}_c = \frac{1}{K-1} \sum_{k=1}^{K} n_{k,c} (\hat{\mu}_{k,c} - \hat{\mu}_c)(\hat{\mu}_{k,c} - \hat{\mu}_c)^\top + \gamma I_d\]

其中 \(\hat{\mu}_{k,c}\) 是客户端 \(k\) 的类 \(c\) 均值，\(\hat{\mu}_c\) 是全局类均值，\(n_{k,c}\) 是样本数，\(\gamma I_d\) 是 shrinkage 正则项。关键在于：这个估计器仅需要各客户端的类均值和样本计数，完全不需要传输协方差矩阵。

4.2 仅用类内散布矩阵初始化分类器¶

论文将 ridge regression 的 \(G = FF^\top\) 分解为三部分：

\[G = \underbrace{\sum_{c}(N_c-1)\hat{S}_c}_{G_{\text{with}}} + \underbrace{\sum_{c} N_c(\hat{\mu}_c - \hat{\mu}_g)(\hat{\mu}_c - \hat{\mu}_g)^\top}_{G_{\text{btw}}} + N\hat{\mu}_g\hat{\mu}_g^\top\]

实验发现类间散布矩阵 \(G_{\text{btw}}\) 病态严重（条件数达 \(10^7\) 量级），而类内散布矩阵 \(G_{\text{with}}\) 条件数仅 \(10^3\) 量级。因此 FedCOF 移除 \(G_{\text{btw}}\)，仅用类内协方差初始化分类器：

\[W^* = \hat{G}^{-1} B, \quad \hat{G} = \sum_{c}(N_c - 1)\hat{\Sigma}_c + N\hat{\mu}_g\hat{\mu}_g^\top\]

这一策略类似于线性判别分析（LDA）中仅使用类内散布矩阵的做法。

4.3 多轮联邦场景¶

在客户端分批参与的多轮场景中，服务器累积所有已出现客户端的均值和计数，用于更新协方差估计。每个客户端只需传输一次统计量，总通信开销与单轮相同。

4.4 少客户端场景的改进¶

当客户端数量较少时，均值数量不足以准确估计协方差。论文提出每个客户端采样多个子集均值的策略，例如 10 个客户端各采样 2 个均值可提升约 2.6% 精度。

实验关键数据¶

主实验（5 个数据集，3 种预训练模型）¶

方法	核心优势	通信开销
FedNCM	基线，仅用均值	\(dC'K\)（最低）
Fed3R	用二阶统计量	\((dC'+d^2)K\)（高）
FedCOF	用估计的协方差	\(dC'K\)（与 FedNCM 相同）

关键结果：

CUB200 (SqueezeNet)：FedCOF 53.7% vs Fed3R 50.4% vs FedNCM 37.8%，FedCOF 超 Fed3R 3.3%
Stanford Cars (ViT-B/16)：FedCOF 52.5% vs Fed3R 47.9%，超 4.6%
iNat-120K (MobileNetv2)：FedCOF 44.1% vs Fed3R 41.5% vs FedNCM 36.0%，通信开销从 61k MB 降至 280 MB（218 倍压缩）
与 FedNCM 相比，FedCOF 在 Cars 上提升 24-26%（通信开销完全相同）

对比 Prompt-Tuning 方法（ViT-B/32）¶

数据集	PFPT	FedCOF	FedCOF 通信优势
CIFAR-100	75.1% (847 MB)	75.3% (9 MB)	94x 更省
CUB200	38.6% (1766 MB)	65.0% (7 MB)	245x 更省
Cars	12.9% (1736 MB)	50.4% (8 MB)	37.5% 更高精度

与全量微调对比（SqueezeNet）¶

FedCOF 无需训练即超越 FedAvg 和 FedAdam。进一步微调（FedCOF + FedAdam）在 CUB200 上达到 55.7%，超 Fed3R + FedAdam 的 51.2%。

亮点¶

数学优雅：从样本均值方差的基本统计性质出发，推导出无偏协方差估计器，证明严谨完整。
通信开销为零增量：与 FedNCM 完全相同的通信预算，但性能大幅提升（最高 26%）。
移除类间散布矩阵的洞察：通过条件数分析揭示 \(G_{\text{btw}}\) 的病态性，提出仅用类内协方差的策略，比 Fed3R 的完整 \(G\) 更有效。
通用性强：适用于多种预训练模型（SqueezeNet、MobileNetv2、ViT），可作为后续微调和 linear probing 的更优初始化。
大规模验证：在真实世界 iNat-120K（9275 客户端、1203 类）上验证有效性。

局限与展望¶

依赖 iid 假设：协方差估计器的无偏性建立在"同类样本跨客户端 iid"的假设上；虽然预训练模型的泛化能力在一定程度上弥补了这一点，但在极端 non-iid 场景下可能产生偏差。
客户端数量敏感：客户端较少时估计质量下降，虽然可通过多子集采样缓解，但增加了客户端计算。
隐私保证有限：传输类均值和计数虽优于传输协方差，但无法直接适用于 secure aggregation 协议，需额外隐私保护机制。
Shrinkage 参数需调：\(\gamma\) 的选择因模型特征维度不同而异（SqueezeNet 用 1，MobileNetv2 用 0.1），缺乏自适应选择策略。

与相关工作的对比¶

方法	类型	传输内容	通信开销	是否需训练
FedAvg / FedAdam	全量微调	模型参数	极高	是
PFPT	Prompt-Tuning	Prompt 参数	高	是
FedNCM	Training-free	类均值	极低	否
Fed3R	Training-free	类均值 + \(G_k\)	高	否
CCVR	后校准	类均值 + 协方差	极高	部分
FedCOF	Training-free	类均值	极低	否

FedCOF 的核心优势在于：通信开销与 FedNCM 持平，精度与 Fed3R 持平或更优，无需任何训练。

启发与关联¶

协方差估计的思路可推广：类似的"从均值估计二阶统计量"的思路或许可用于其他需要协方差但受限于通信/隐私的场景，如分布式持续学习、联邦类增量学习。
移除类间散布的发现：条件数分析揭示了 ridge regression 中 \(G\) 矩阵的内在结构问题，这一洞察可能对非联邦场景的分类器初始化也有参考价值。
与 Neural Collapse 的关联：FedCOF 使用归一化均值初始化分类器，这与 neural collapse 理论中"分类器权重趋向类均值方向"的现象一致。

评分¶

新颖性: ⭐⭐⭐⭐ — 无偏协方差估计器的推导简洁优美，"从均值免费获得协方差"的核心 idea 非常巧妙
实验充分度: ⭐⭐⭐⭐⭐ — 5 个数据集、3 种模型、多种对比方法、充分的消融实验
写作质量: ⭐⭐⭐⭐ — 论文结构清晰，动机-理论-实验-分析环环相扣
价值: ⭐⭐⭐⭐ — 在联邦学习通信效率这一实际问题上给出了优雅且实用的解决方案