FedAWA: Adaptive Optimization of Aggregation Weights in Federated Learning Using Client Vectors¶
会议: CVPR 2025
arXiv: 2503.15842
代码: https://github.com/ChanglongShi/FedAWA
领域: AI安全 / 联邦学习
关键词: 联邦学习, 聚合权重优化, 客户端向量, 任务算术, 非IID数据
一句话总结¶
提出 FedAWA,受任务算术(task arithmetic)启发,用客户端向量(本地参数与全局参数的差值)来自适应优化联邦学习中的聚合权重——与全局优化方向一致的客户端获得更高权重,在 non-IID 场景下稳定提升 FedAvg 1-4 个点。
研究背景与动机¶
领域现状¶
领域现状:联邦学习(FL)通过在多客户端间聚合模型参数来训练全局模型。FedAvg 按数据量加权聚合,但在 non-IID 场景下不同客户端的更新方向可能互相冲突,导致全局模型收敛不稳定。
现有痛点:现有自适应聚合方法(如 FedLAW、L-DAWA)要么计算量大(10+ 秒/轮),要么需要额外的验证数据。缺乏一种既轻量又有效的聚合权重优化方案。
核心矛盾:等权或数据量加权聚合忽略了客户端更新的"质量"——在 non-IID 下某些客户端的更新方向是有害的(偏离全局最优),应该降低其权重。
切入角度:模型合并领域的任务算术理论表明,参数差值向量(task vector)包含了任务特定知识。将其迁移到 FL——客户端向量 \(\tau_k = \theta_k - \theta_g\) 反映了本地数据的特征,可以用来衡量更新的"有用性"。
核心 idea:用客户端向量与全局聚合向量的对齐度优化聚合权重 = 更一致的全局更新方向。
方法详解¶
关键设计¶
-
客户端向量驱动的权重优化:
- 功能:自适应地为每个客户端分配聚合权重
- 核心思路:定义客户端向量 \(\tau_k^t = \theta_k^t - \theta_g^t\),全局聚合向量 \(\tau_g^t = \sum_k \lambda_k \tau_k^t\)。优化目标:\(\min_\lambda \sum_k \lambda_k \|\tau_k^t - \tau_g^t\|_2 + d(\sum_k \lambda_k \theta_k^t, \theta_g^t)\),约束 \(\|\lambda\|_1 = 1\)。第一项鼓励选择与全局方向一致的客户端,第二项约束聚合后不偏离太远
- 设计动机:Figure 2 验证客户端向量的差异确实反映了数据分布差异,全局向量比单个客户端向量更接近"理想"向量
-
逐层变体 FedAWA-L:
- 功能:为每层独立优化权重,更细粒度的控制
- 核心思路:对每层 \(l\) 独立求解 \(\lambda_l^t\),不同层可以有不同的最优权重组合
- 设计动机:不同层学习不同层次的特征,non-IID 对浅层(局部特征)和深层(语义特征)的影响不同
损失函数 / 训练策略¶
聚合权重通过约束优化求解,使用 1-余弦相似度作为距离函数。客户端本地用标准 SGD + 交叉熵训练。聚合时间仅 0.82 秒(vs L-DAWA 2.52 秒,FedLAW 10.11 秒)。
实验关键数据¶
主实验¶
CIFAR-10 Top-1 准确率(%):
| 方法 | IID (α=100) | non-IID (α=0.5) |
|---|---|---|
| FedAvg | 76.01 | 74.47 |
| FedProx | 76.47 | 73.85 |
| FedAWA | 80.10 | 75.65 |
| FedAWA-L | 79.70 | 74.90 |
消融实验¶
| 配置 | 效果 |
|---|---|
| 与 FedDisco 结合 | 额外提升,证明即插即用兼容性 |
| K=10/30/50 客户端 | 一致提升,参数鲁棒 |
| E=1/5/10 本地轮次 | 一致提升 |
关键发现¶
- IID 下提升也显著:80.10 vs 76.01,说明即使数据分布相同,等权聚合也不是最优的
- 计算开销极低:0.82 秒/轮,仅比 FedAvg 多一个优化步
- 跨架构通用:CNN/ResNet/WRN/DenseNet/ViT 都有效
亮点与洞察¶
- Task arithmetic 的联邦学习迁移——客户端向量 = 任务向量的 FL 版本,这个类比简洁且有效
- 即插即用设计——可与任何现有 FL 方法结合,不改变本地训练过程
局限与展望¶
- 需要存储和传输客户端级参数向量,通信开销增加
- FedAWA-L 聚合时间 15.21 秒 vs 全局版 0.82 秒
- 缺少收敛性理论分析
- 客户端向量可能间接泄露模型更新信息
评分¶
- 新颖性: ⭐⭐⭐⭐ Task arithmetic → FL 的迁移简洁有效
- 实验充分度: ⭐⭐⭐⭐ 多数据集多架构多配置
- 写作质量: ⭐⭐⭐⭐ 清晰完整
- 价值: ⭐⭐⭐ 提升幅度中等但方法轻量实用