跳转至

Covariances for Free: Exploiting Mean Distributions for Training-free Federated Learning

会议: NeurIPS 2025
arXiv: 2412.14326
代码: dipamgoswami/FedCOF
领域: 优化
关键词: federated learning, training-free, Covariance Estimation, Pre-trained Models, Communication Efficiency

一句话总结

提出 FedCOF,仅利用客户端上传的类均值(class means)即可在服务器端无偏估计类协方差矩阵,从而在零训练、极低通信开销的条件下初始化全局分类器,性能媲美甚至超越需要传输二阶统计量的 Fed3R。

背景与动机

联邦学习(FL)的核心挑战之一是客户端数据异构(non-iid)导致的性能退化。利用预训练模型能够显著缓解此问题,近期出现了多种 无训练(training-free) 方法:

  • FedNCM:每个客户端仅上传类均值,服务器聚合后直接用归一化均值初始化分类器。通信开销极低,但仅利用一阶统计量,精度有限。
  • Fed3R:每个客户端额外上传 \(d \times d\) 的特征矩阵 \(G_k\)\(d \times C\) 的标签矩阵 \(B_k\),服务器通过 ridge regression 求解分类器。精度更高,但通信开销增加 \(d^2 K\)(对高维特征和大量客户端尤其昂贵)。

核心矛盾:二阶统计量(协方差)能显著提升分类器质量,但直接传输协方差矩阵的通信开销和隐私风险过高。能否在只传输一阶统计量(类均值)的前提下获得二阶统计量的收益?

核心问题

  1. 如何从客户端类均值中无偏估计全局类协方差矩阵?
  2. 如何利用估计的协方差高效初始化全局分类器?
  3. 在通信开销与 FedNCM 相同的条件下,能否达到甚至超越 Fed3R 的精度?

方法详解

4.1 从客户端均值估计协方差

核心数学基础:对于类别 \(c\),客户端 \(k\) 的样本均值 \(\overline{F}_{k,c}\) 满足:

\[\mathbb{E}[\overline{F}_{k,c}] = \mu_c, \quad \text{Var}[\overline{F}_{k,c}] = \frac{\Sigma_c}{n_{k,c}}\]

即样本均值的方差反映了底层类协方差。基于此,论文提出无偏协方差估计器

\[\hat{\Sigma}_c = \frac{1}{K-1} \sum_{k=1}^{K} n_{k,c} (\hat{\mu}_{k,c} - \hat{\mu}_c)(\hat{\mu}_{k,c} - \hat{\mu}_c)^\top + \gamma I_d\]

其中 \(\hat{\mu}_{k,c}\) 是客户端 \(k\) 的类 \(c\) 均值,\(\hat{\mu}_c\) 是全局类均值,\(n_{k,c}\) 是样本数,\(\gamma I_d\) 是 shrinkage 正则项。关键在于:这个估计器仅需要各客户端的类均值和样本计数,完全不需要传输协方差矩阵。

4.2 仅用类内散布矩阵初始化分类器

论文将 ridge regression 的 \(G = FF^\top\) 分解为三部分:

\[G = \underbrace{\sum_{c}(N_c-1)\hat{S}_c}_{G_{\text{with}}} + \underbrace{\sum_{c} N_c(\hat{\mu}_c - \hat{\mu}_g)(\hat{\mu}_c - \hat{\mu}_g)^\top}_{G_{\text{btw}}} + N\hat{\mu}_g\hat{\mu}_g^\top\]

实验发现类间散布矩阵 \(G_{\text{btw}}\) 病态严重(条件数达 \(10^7\) 量级),而类内散布矩阵 \(G_{\text{with}}\) 条件数仅 \(10^3\) 量级。因此 FedCOF 移除 \(G_{\text{btw}}\),仅用类内协方差初始化分类器:

\[W^* = \hat{G}^{-1} B, \quad \hat{G} = \sum_{c}(N_c - 1)\hat{\Sigma}_c + N\hat{\mu}_g\hat{\mu}_g^\top\]

这一策略类似于线性判别分析(LDA)中仅使用类内散布矩阵的做法。

4.3 多轮联邦场景

在客户端分批参与的多轮场景中,服务器累积所有已出现客户端的均值和计数,用于更新协方差估计。每个客户端只需传输一次统计量,总通信开销与单轮相同。

4.4 少客户端场景的改进

当客户端数量较少时,均值数量不足以准确估计协方差。论文提出每个客户端采样多个子集均值的策略,例如 10 个客户端各采样 2 个均值可提升约 2.6% 精度。

实验关键数据

主实验(5 个数据集,3 种预训练模型)

方法 核心优势 通信开销
FedNCM 基线,仅用均值 \(dC'K\)(最低)
Fed3R 用二阶统计量 \((dC'+d^2)K\)(高)
FedCOF 用估计的协方差 \(dC'K\)(与 FedNCM 相同)

关键结果:

  • CUB200 (SqueezeNet):FedCOF 53.7% vs Fed3R 50.4% vs FedNCM 37.8%,FedCOF 超 Fed3R 3.3%
  • Stanford Cars (ViT-B/16):FedCOF 52.5% vs Fed3R 47.9%,超 4.6%
  • iNat-120K (MobileNetv2):FedCOF 44.1% vs Fed3R 41.5% vs FedNCM 36.0%,通信开销从 61k MB 降至 280 MB(218 倍压缩
  • 与 FedNCM 相比,FedCOF 在 Cars 上提升 24-26%(通信开销完全相同)

对比 Prompt-Tuning 方法(ViT-B/32)

数据集 PFPT FedCOF FedCOF 通信优势
CIFAR-100 75.1% (847 MB) 75.3% (9 MB) 94x 更省
CUB200 38.6% (1766 MB) 65.0% (7 MB) 245x 更省
Cars 12.9% (1736 MB) 50.4% (8 MB) 37.5% 更高精度

与全量微调对比(SqueezeNet)

FedCOF 无需训练即超越 FedAvg 和 FedAdam。进一步微调(FedCOF + FedAdam)在 CUB200 上达到 55.7%,超 Fed3R + FedAdam 的 51.2%。

亮点

  1. 数学优雅:从样本均值方差的基本统计性质出发,推导出无偏协方差估计器,证明严谨完整。
  2. 通信开销为零增量:与 FedNCM 完全相同的通信预算,但性能大幅提升(最高 26%)。
  3. 移除类间散布矩阵的洞察:通过条件数分析揭示 \(G_{\text{btw}}\) 的病态性,提出仅用类内协方差的策略,比 Fed3R 的完整 \(G\) 更有效。
  4. 通用性强:适用于多种预训练模型(SqueezeNet、MobileNetv2、ViT),可作为后续微调和 linear probing 的更优初始化。
  5. 大规模验证:在真实世界 iNat-120K(9275 客户端、1203 类)上验证有效性。

局限与展望

  1. 依赖 iid 假设:协方差估计器的无偏性建立在"同类样本跨客户端 iid"的假设上;虽然预训练模型的泛化能力在一定程度上弥补了这一点,但在极端 non-iid 场景下可能产生偏差。
  2. 客户端数量敏感:客户端较少时估计质量下降,虽然可通过多子集采样缓解,但增加了客户端计算。
  3. 隐私保证有限:传输类均值和计数虽优于传输协方差,但无法直接适用于 secure aggregation 协议,需额外隐私保护机制。
  4. Shrinkage 参数需调\(\gamma\) 的选择因模型特征维度不同而异(SqueezeNet 用 1,MobileNetv2 用 0.1),缺乏自适应选择策略。

与相关工作的对比

方法 类型 传输内容 通信开销 是否需训练
FedAvg / FedAdam 全量微调 模型参数 极高
PFPT Prompt-Tuning Prompt 参数
FedNCM Training-free 类均值 极低
Fed3R Training-free 类均值 + \(G_k\)
CCVR 后校准 类均值 + 协方差 极高 部分
FedCOF Training-free 类均值 极低

FedCOF 的核心优势在于:通信开销与 FedNCM 持平,精度与 Fed3R 持平或更优,无需任何训练。

启发与关联

  • 协方差估计的思路可推广:类似的"从均值估计二阶统计量"的思路或许可用于其他需要协方差但受限于通信/隐私的场景,如分布式持续学习、联邦类增量学习。
  • 移除类间散布的发现:条件数分析揭示了 ridge regression 中 \(G\) 矩阵的内在结构问题,这一洞察可能对非联邦场景的分类器初始化也有参考价值。
  • 与 Neural Collapse 的关联:FedCOF 使用归一化均值初始化分类器,这与 neural collapse 理论中"分类器权重趋向类均值方向"的现象一致。

评分

  • 新颖性: ⭐⭐⭐⭐ — 无偏协方差估计器的推导简洁优美,"从均值免费获得协方差"的核心 idea 非常巧妙
  • 实验充分度: ⭐⭐⭐⭐⭐ — 5 个数据集、3 种模型、多种对比方法、充分的消融实验
  • 写作质量: ⭐⭐⭐⭐ — 论文结构清晰,动机-理论-实验-分析环环相扣
  • 价值: ⭐⭐⭐⭐ — 在联邦学习通信效率这一实际问题上给出了优雅且实用的解决方案