跳转至

FedDAG: Clustered Federated Learning via Global Data and Gradient Integration for Heterogeneous Environments

会议: ICLR 2026
arXiv: 2602.23504
代码: https://tinyurl.com/2rbkb3zu
领域: 优化 / 联邦学习
关键词: 聚类联邦学习, 数据异构性, 双编码器架构, 跨集群知识共享, 自适应聚类

一句话总结

提出 FedDAG 聚类联邦学习框架,通过融合数据和梯度信息进行加权类别级相似度计算来实现更准确的客户端聚类,并通过双编码器架构实现跨集群特征迁移,在多种异构性设置下一致超越现有基线。

研究背景与动机

领域现状:联邦学习(FL)通过协作训练模型而不共享数据,但客户端数据异构性(non-IID)会导致收敛慢和精度不佳。聚类 FL 通过将相似客户端分组来应对,每个集群训练自己的模型。

现有痛点:现有聚类 FL 方法存在四大限制:1) 仅使用数据或梯度单一信号计算相似度,不够全面;2) 知识共享限制在同一集群内,无法利用跨集群的多样化表征;3) 主要处理标签偏斜,忽视概念漂移和数量偏移;4) 需要预先指定集群数量。

核心矛盾:数据相似度和梯度相似度各有盲区——高维数据中梯度相似度可能产生误判,而数据相似度忽视概念漂移。单独使用任一信号都无法准确刻画客户端间的真实相似性。

本文目标 如何综合利用数据和梯度信息动态聚类客户端,同时允许集群间的表征共享?

切入角度:将相似度计算细化到类别级(class-wise),为数据和梯度信号自动学习权重,并用双编码器架构实现跨集群特征迁移。

核心 idea:通过类别级加权融合数据和梯度相似度进行更精准的客户端聚类,并用双编码器架构在保持集群特化的同时实现跨集群知识共享。

方法详解

整体框架

FedDAG 分为两个核心组件:(1) 相似度计算与自适应聚类:融合数据和梯度信息计算客户端间的加权相似度矩阵,用层次聚类生成候选分组,并通过联邦感知指标自动确定最优集群数;(2) 双编码器训练:每个集群模型包含主编码器(本集群数据训练)和副编码器(互补集群梯度更新),拼接特征后训练分类器。

关键设计

  1. 加权类别级数据-梯度融合相似度 (Weighted Class-wise Similarity):

    • 做什么:综合数据和梯度信息计算更准确的客户端相似度矩阵
    • 核心思路:扩展 PACFL 的数据相似度方法,改为类别级比较——仅比较同一类的数据子空间而非整体子空间。每个客户端学习一个权重 \(w_i\) 控制数据 vs 梯度信号的比重,最终相似度为 \(S_{ij} = w_i \cdot S_{ij}^{data} + (1 - w_i) \cdot S_{ij}^{grad}\)。权重通过最小化基于熵的损失来优化,使邻接矩阵更锐利
    • 设计动机:类别级比较天然处理概念漂移(同一标签不同含义的情况),加权融合让每个客户端自适应选择最信息丰富的信号来源
  2. 双编码器跨集群知识共享 (Dual-Encoder Architecture):

    • 做什么:使每个集群模型同时学习集群内特化特征和跨集群互补特征
    • 核心思路:每个集群模型包含主编码器 \(\phi^{(1)}\) 和副编码器 \(\phi^{(2)}\)。主编码器用本集群客户端数据的聚合梯度更新 \(\Theta_z^{1f}\);副编码器用互补集群的梯度更新 \(\Theta_z^{2f}\)。二者输出在特征维度拼接后送入分类器:\(F_z(\cdot) = \psi(\phi^{(1)}(\cdot; \Theta_z^{1f}), \phi^{(2)}(\cdot; \Theta_z^{2f}); \Theta_z^c)\)
    • 设计动机:现有方法限制知识共享在集群内,或使用软聚类导致噪声混合。双编码器保持集群特化(主编码器)的同时引入互补视角(副编码器),不会互相污染
  3. 联邦感知自适应聚类 (Federated-Aware Adaptive Clustering):

    • 做什么:自动确定最优集群数量,无需预先指定
    • 核心思路:使用层次聚类生成不同粒度的候选分组,然后用新提出的联邦感知指标评估每种分组:奖励紧凑的集群、惩罚过度分裂(客户端过少的退化集群)。选择指标得分最高的分组作为最终划分
    • 设计动机:预设集群数在实际中不可行,且层次聚类在 FL 中容易过度分裂

损失函数 / 训练策略

标准的交叉熵损失在每个集群内聚合。权重优化使用基于熵的正则化来促进相似度矩阵的二值化。梯度传输使用压缩以降低通信开销,每个客户端每轮仅需计算至多一个模型的梯度。

实验关键数据

主实验

算法 技术 CIFAR-10 FMNIST
PACFL 数据 (D) 90.45±0.30 94.41±0.31
CFL 梯度 (G) 72.80±0.66 86.97±0.23
IFCA 梯度 (G) 89.68±0.17 94.03±0.09
FedDAG D+G+全局特征共享 94.53±0.12 96.82±0.18

消融实验

配置 CIFAR-10 说明
FedDAG (完整) 94.53 完整框架
仅数据相似度 ~91.0 退化为 PACFL++
仅梯度相似度 ~88.5 退化为改进版 CFL
无双编码器 ~92.0 无跨集群特征
无自适应聚类数 ~93.0 使用预设聚类数

关键发现

  • FedDAG 在 CIFAR-10 上比最强基线 PACFL 高出 4+ 个百分点
  • 数据和梯度信号的融合一致性优于单一信号,尤其在概念漂移场景下
  • 双编码器架构相比单编码器带来 2-3% 的提升,跨集群知识共享确实有价值
  • 在标签偏斜、特征偏斜、概念漂移和数量偏移四种异构类型下都有效

亮点与洞察

  • 类别级相似度计算:将相似度细化到类别维度是处理概念漂移的自然方式,比整体子空间比较更鲁棒
  • 双编码器的职责分离设计:主副编码器各自专注不同信号来源,避免了软聚类方法中的噪声混合问题

局限与展望

  • 双编码器增加了模型参数和计算开销
  • 类别级比较在类别数很多时计算成本增长
  • 依赖客户端上传少量信息进行相似度计算,虽然压缩但仍有隐私风险
  • 未在真实联邦场景(如跨设备 FL)中测试

相关工作与启发

  • vs PACFL: PACFL 用主角度比较整体子空间,FedDAG 改为类别级比较+加权融合,更全面
  • vs FedSoft/FedRC: 它们通过软聚类让客户端混合多个集群模型,可能引入噪声;FedDAG 的双编码器在结构上分离了两个信号来源

评分

  • 新颖性: ⭐⭐⭐ 类别级融合和双编码器是合理但增量式创新
  • 实验充分度: ⭐⭐⭐⭐ 四种异构类型的评估较全面
  • 写作质量: ⭐⭐⭐ 内容充实但结构略显复杂
  • 价值: ⭐⭐⭐ 对聚类 FL 有实际改进,但场景较为特定