FedHarmony: Harmonizing Heterogeneous Label Correlations in Federated Multi-Label Learning¶

会议: CVPR 2026
arXiv: 2604.28024
代码: 无
领域: 联邦学习 / 多标签学习 / 隐私保护
关键词: 联邦多标签学习, 标签相关性漂移, 共识相关性, 相关性感知聚合, 块内优化

一句话总结¶

针对联邦多标签学习中各客户端只见到局部标签空间、学出的标签相关性互相打架（标签相关性漂移）的问题，FedHarmony 用"多数客户端的共识相关性"当全局教师在本地训练时纠偏，并在服务器聚合时同时按数据量和相关性质量给客户端加权，在 FLAIR / COCO-80 / VOC2007 三个非 IID 联邦基准上一致超过现有 SOTA（FLAIR mAP +11.4）。

研究背景与动机¶

领域现状：多标签学习（MLL）的核心是建模标签共现关系（如"街道"常和"建筑""行人"一起出现），近年用 GCN、Transformer 显式编码标签关系能显著提升预测。隐私需求推动 MLL 走向联邦学习框架（FedMLL）：多个客户端各持私有多标签数据、不共享原始数据协同训练，目标是让中心服务器从分散数据中还原出全局标签依赖结构。

现有痛点：异构数据分布下这个目标很难实现，作者指出两个具体问题。其一，各客户端的标签共现频率天差地别——在 FLAIR 上"户外"和"设备"在 Client 1 高度共现、在 Client 2 却很低，每个客户端只看到完整标签空间的一个子集，本地学出的相关性必然带偏，且偏离全局真实结构。作者把这种现象命名为标签相关性漂移（label correlation drift）。其二，现有方法（FedAvg 系）只按训练数据量给客户端加权平均，完全忽略学到的相关性质量——一个数据多但相关性学得烂的客户端反而拿到过高的聚合权重，把全局模型往坏处带。

核心矛盾：没有任何单个客户端能掌握真实的标签关系，但"被大多数客户端一致认同的相关性"更可能反映底层全局语义。现有聚合机制既不纠正本地的偏，也不区分客户端的好坏。

本文目标：（1）让本地学到的标签相关性在训练中持续向全局共识对齐；（2）让聚合阶段能识别并偏向相关性学得好的客户端。

切入角度：从"群体共识"假设出发——对某个目标客户端，把其它所有客户端的相关性矩阵汇总成一个"共识相关性"，作为它看不到的全局视角。

核心 idea：用"留一式共识相关性"当全局教师纠正本地偏差，再用"数据量 + 相关性质量"的双重加权做聚合，从源头上调和异构标签相关性。

方法详解¶

整体框架¶

FedHarmony 是一个标准的"客户端本地训练 ↔ 服务器聚合"联邦循环，但在两端各塞进了对标签相关性的处理。每轮通信里：客户端先用当前模型对本地数据打分，统计出一个 \(C\times C\) 的 phi 相关性矩阵 \(R_k^{(t)}\) 并上传；服务器对每个客户端用"留一法"把其它所有客户端的相关性汇总成专属的共识相关性 \(R_{\exp,k}^{*(t)}\) 发回；客户端把它当教师，对本地相关性做共识引导的块内校正；最后服务器在聚合时不再只看数据量，而是用相关性感知聚合——同时考虑数据量和该客户端相关性的学习质量来加权。三者环环相扣，形成"统计相关性 → 共识纠偏 → 质量加权聚合"的闭环。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["客户端本地训练<br/>统计 phi 相关性 R_k"] --> B["共识相关性教师<br/>留一汇总其它客户端"]
    B --> C["共识引导的块内校正<br/>谱聚类分块 + 簇内对齐"]
    C -->|上传模型参数| D["相关性感知聚合<br/>数据量 + 质量双重加权"]
    D -->|广播新全局模型| A

关键设计¶

1. 共识相关性教师：用多数人的共识当全局视角纠本地偏差

痛点是单个客户端只见局部标签空间，本地相关性必然带偏，可它又没有别的参照系知道自己偏在哪。FedHarmony 的做法是：客户端 \(k\) 在第 \(t\) 轮用当前模型 \(f_k\) 对本地数据打分得到 \(F_k^{(t)}\in[0,1]^{N_k\times C}\)（软标签出现概率），从中估计边缘概率 \(\hat p_{k,c}\) 和联合概率 \(\hat p_{k,cc'}\)，再算出 phi 型相关系数衡量两标签依赖强度：

\[R_{k,cc'}^{(t)}=\frac{\hat p_{k,cc'}^{(t)}-\hat p_{k,c}^{(t)}\hat p_{k,c'}^{(t)}}{\sqrt{\hat p_{k,c}^{(t)}(1-\hat p_{k,c}^{(t)})\,\hat p_{k,c'}^{(t)}(1-\hat p_{k,c'}^{(t)})}+\varepsilon}\]

关键在于"教师"怎么来：对目标客户端 \(k\)，共识相关性 \(R_{\exp,k}^{*(t)}\) 由除它之外所有客户端的相关性矩阵 \(\{R_j^{(t)}\}_{j\neq k}\) 经汇总算子 \(\mathcal{A}_t\) 聚合得到（leave-one-out）。这样有效是因为：任何单客户端都不知道真实标签关系，但被多数客户端共同认同的相关性更可能是真的；用"留一"避免客户端自己污染自己的教师，让教师真正代表"别人眼中的全局共识"

2. 共识引导的块内校正：只对齐高相关的标签簇，省算力还几乎不掉点

有了教师，本地相关性要向它对齐，最朴素的做法是对整张 \(C\times C\) 矩阵做对齐损失 \(\mathcal{L}^{\mathrm{align}}=\lambda\,\Psi(R_i^{(t)},R_{\exp,i}^{*(t)})\)（\(\Psi\) 是相关性空间里固定的距离/散度）。但作者观察到标签相关性矩阵是稀疏且近似块结构的——每个标签只和少数标签真正相关。于是把矩阵拆成 \(G\) 个近似低秩的子块、只在簇内对齐：

\[\mathcal{L}^{\mathrm{align}}_{i,t}=\lambda\sum_{g=1}^{G}\Psi\!\Big(R_i^{(t)}[\mathcal{S}_g,\mathcal{S}_g],\,R_{\exp,i}^{*(t)}[\mathcal{S}_g,\mathcal{S}_g]\Big)\]

分簇用对专家相关性 \(R_{\exp}^{*}\) 做谱聚类（取绝对值对称化成亲和矩阵 → 归一化拉普拉斯 → 取 \(G\) 个最小特征向量 → 行归一化后 \(k\)-means）。论文给了两条定理支撑：Theorem 2.1 证明簇内对齐的曲率从 \(\gamma_{\mathrm{out}}\) 提到 \(\gamma_{\mathrm{in}}\)（且 \(\gamma_{\mathrm{in}}\gg\gamma_{\mathrm{out}}\)），因而收敛的线性速率严格更快；Theorem 2.2 证明忽略跨簇项最多带来 \(\|\Gamma_{\mathrm{out}}\circ E\|_F^2\) 的额外损失，当共识近似块对角或跨簇权重小时可忽略。一句话：把对齐聚焦到稠密、高信号的子空间，既加速又几乎不丢信息

3. 相关性感知聚合：早期信数据量、后期信结构质量

针对"数据多但相关性烂的客户端被过度加权"的痛点，聚合权重不再只看数据量。对客户端 \(i\) 先算它和共识的块结构差异 \(s_i^{(t)}=\sum_g\Psi(R_i^{(t)}[\mathcal{S}_g,\mathcal{S}_g],R_{\exp,i}^{*(t)}[\mathcal{S}_g,\mathcal{S}_g])\)，经单调递减变换映射成质量分 \(q_i^{(t)}=\exp(-\gamma s_i^{(t)})\)（差异越小、质量越高）。把归一化数据量 \(\bar n_i\) 和归一化质量 \(\bar q_i^{(t)}\) 用一个随轮次衰减的系数 \(\alpha^{(t)}=\max(0,1-t/T_0)\) 线性混合：

\[w_i^{(t)}=\alpha^{(t)}\,\bar n_i+(1-\alpha^{(t)})\,\bar q_i^{(t)}\]

这样有效在于它顺应了训练动态：早期（\(\alpha\approx1\)）本地相关性还不可靠，规则退化为按数据量加权的 FedAvg，稳住训练；后期（\(\alpha\downarrow0\)）相关性对齐得好的客户端（\(q\) 大）主导聚合，防止劣质相关性污染全局模型

损失函数 / 训练策略¶

本地分类用二元交叉熵（多标签），叠加上面的簇内对齐损失 \(\mathcal{L}^{\mathrm{align}}_{i,t}\)。骨干为 ViT-B/16 + \(C\) 路 sigmoid 头；每轮本地训练 5 个 epoch，Adam，学习率 \(10^{-4}\)，batch size 16，总通信轮数 \(T=50\)；对数量倾斜（如 FLAIR）采用按本地数据量成比例的非均匀客户端采样。8 张 RTX 4090 训练。

实验关键数据¶

主实验¶

三个非 IID 联邦多标签基准上 FedHarmony 在全部 8 个指标上都最优，FLAIR 上 mAP 比最强基线高 11 个点以上。

数据集	指标	FedHarmony	之前最强基线	提升
FLAIR	mAP	51.0	39.6 (FedProx)	+11.4
FLAIR	OF1	75.1	65.8 (FedProx)	+9.3
COCO-80	mAP	71.4	64.5 (FedLGT)	+6.9
VOC2007	mAP	86.9	78.3 (FedRDN)	+8.6
VOC2007	O-mAP	89.1	72.2 (FedRDN)	+16.9

注：部分基线在某些数据集上崩溃（如 FedNova 在 COCO-80 mAP 仅 4.3），FedHarmony 在严苛非 IID 下稳定性明显更好。

消融实验¶

Table 5，Base = FedAvg，A = 专家引导相关性损失（ECL），B = 相关性感知聚合（CAA）。

配置	COCO-80 mAP	FLAIR mAP	说明
Base (FedAvg)	63.4	35.4	纯参数平均
+A (ECL)	69.5	46.4	加共识相关性教师纠偏，COCO +6.1 / FLAIR +11.0
+A+B (ECL+CAA)	71.2	47.0	再加质量感知聚合，进一步 +1.7 / +0.6

块内优化（C）的影响单列：性能上 No-Block vs Block-Optimized 在三基准 8 指标差异普遍仅 0.3%–0.5%，Wilcoxon 检验 \(p\) 值均 >0.05（COCO 0.382 / VOC 0.148 / FLAIR 0.547），无显著差异；但训练效率显著提升——到第 10 轮 FLAIR 累计训练时间降低 28.3%（56:19 → 40:22）、VOC2007 降低 31.7%（17:09 → 11:43）。

关键发现¶

贡献最大的是共识相关性教师（A）：单加它 FLAIR mAP 就从 35.4 暴涨到 46.4（+11.0），说明纠正本地相关性漂移是核心增益来源，远比单纯参数平均有效。
相关性感知聚合（B）是锦上添花的稳定增益（+0.6~1.7），把"质量好的客户端"权重抬上来。
块内优化（C）是纯效率优化：几乎不掉点（统计上不显著）却省下约 30% 训练时间，验证了"标签相关性矩阵近似块对角"这一假设的实用价值。
定性上 FedHarmony 重建的相关性矩阵最接近 ground-truth（如 equipment–material 关系 0.43 vs GT 0.42），而 FedRDN / FedNova 产出的矩阵把多数相关性塌缩到零。

亮点与洞察¶

"留一式共识当教师"很巧妙：联邦场景天然有多个客户端的相关性可用，用 leave-one-out 既造出了目标客户端缺失的全局视角，又避免自我污染——把"群体智慧"直接做成了无需额外标注的免费监督信号。
把"稀疏块结构"先验做成可证明的加速：从"标签相关性矩阵近似块对角"这个观察，推出簇内对齐曲率更大 → 线性收敛更快（Theorem 2.1），且跨簇损失可忽略（Theorem 2.2），是难得的"观察 → 理论 → 实测省 30% 时间"完整链条。
聚合权重随训练动态调度的思路可迁移：早期信数据量稳训练、后期信质量提精度，这种 \(\alpha^{(t)}\) 时间退火的混合权重对任何"早期局部估计不可靠"的联邦任务都适用。

局限与展望¶

共识相关性是"多数即真理"的假设，若数据异构到大多数客户端都偏向某个错误共现（系统性偏差而非随机偏差），教师本身就是错的，纠偏会把模型带偏——论文未讨论这种对抗/系统偏差场景。
聚合质量分 \(q_i\) 依赖客户端如实上传相关性矩阵，存在被恶意客户端伪造高质量分操纵聚合权重的风险，缺少鲁棒性/隐私泄露分析（相关性矩阵本身也可能泄露标签分布信息）。
块内优化的簇数 \(G\)、聚合的转移轮数 \(T_0\)、温度 \(\gamma\) 等超参敏感性未在正文充分给出；块内优化几乎不提升精度（统计不显著），其价值纯在效率，对小规模标签集收益有限。
实验局限在视觉多标签（最多 80~1628 类）+ ViT-B/16，未验证在更大标签空间或文本/医学等其它多标签模态上的表现。

评分¶

新颖性: ⭐⭐⭐⭐ 首次系统研究 FedMLL 中的"标签相关性漂移"，留一式共识教师 + 双重加权聚合的组合有创意。
实验充分度: ⭐⭐⭐⭐ 三基准 8 指标全面对比 + 三组件消融 + 效率/统计检验/定性矩阵，较扎实；但缺超参敏感性和更大标签空间验证。
写作质量: ⭐⭐⭐⭐ 动机（两张图说清两个痛点）和方法叙述清晰，理论与方法衔接好。
价值: ⭐⭐⭐⭐ 为隐私约束下的多标签协同学习提供了可落地、带理论保证的相关性调和方案。