FedAWA: Adaptive Optimization of Aggregation Weights in Federated Learning Using Client Vectors¶

会议: CVPR 2025
arXiv: 2503.15842
代码: https://github.com/ChanglongShi/FedAWA
领域: AI安全 / 联邦学习
关键词: 联邦学习, 聚合权重优化, 客户端向量, 任务算术, 非IID数据

一句话总结¶

提出 FedAWA，受任务算术（task arithmetic）启发，用客户端向量（本地参数与全局参数的差值）来自适应优化联邦学习中的聚合权重——与全局优化方向一致的客户端获得更高权重，在 non-IID 场景下稳定提升 FedAvg 1-4 个点。

领域现状：联邦学习（FL）通过在多客户端间聚合模型参数来训练全局模型。FedAvg 按数据量加权聚合，但在 non-IID 场景下不同客户端的更新方向可能互相冲突，导致全局模型收敛不稳定。

现有痛点：现有自适应聚合方法（如 FedLAW、L-DAWA）要么计算量大（10+ 秒/轮），要么需要额外的验证数据。缺乏一种既轻量又有效的聚合权重优化方案。

核心矛盾：等权或数据量加权聚合忽略了客户端更新的"质量"——在 non-IID 下某些客户端的更新方向是有害的（偏离全局最优），应该降低其权重。

切入角度：模型合并领域的任务算术理论表明，参数差值向量（task vector）包含了任务特定知识。将其迁移到 FL——客户端向量 \(\tau_k = \theta_k - \theta_g\) 反映了本地数据的特征，可以用来衡量更新的"有用性"。

核心 idea：用客户端向量与全局聚合向量的对齐度优化聚合权重 = 更一致的全局更新方向。

客户端向量驱动的权重优化:
- 功能：自适应地为每个客户端分配聚合权重
- 核心思路：定义客户端向量 \(\tau_k^t = \theta_k^t - \theta_g^t\)，全局聚合向量 \(\tau_g^t = \sum_k \lambda_k \tau_k^t\)。优化目标：\(\min_\lambda \sum_k \lambda_k \|\tau_k^t - \tau_g^t\|_2 + d(\sum_k \lambda_k \theta_k^t, \theta_g^t)\)，约束 \(\|\lambda\|_1 = 1\)。第一项鼓励选择与全局方向一致的客户端，第二项约束聚合后不偏离太远
- 设计动机：Figure 2 验证客户端向量的差异确实反映了数据分布差异，全局向量比单个客户端向量更接近"理想"向量
逐层变体 FedAWA-L:
- 功能：为每层独立优化权重，更细粒度的控制
- 核心思路：对每层 \(l\) 独立求解 \(\lambda_l^t\)，不同层可以有不同的最优权重组合
- 设计动机：不同层学习不同层次的特征，non-IID 对浅层（局部特征）和深层（语义特征）的影响不同

聚合权重通过约束优化求解，使用 1-余弦相似度作为距离函数。客户端本地用标准 SGD + 交叉熵训练。聚合时间仅 0.82 秒（vs L-DAWA 2.52 秒，FedLAW 10.11 秒）。

CIFAR-10 Top-1 准确率（%）：