FedSIR: Spectral Client Identification and Relabeling for Federated Learning with Noisy Labels¶

会议: CVPR 2026
arXiv: 2604.20825
代码: https://github.com/sinagh72/FedSIR (有)
领域: 联邦学习 / 噪声标签 / 鲁棒优化
关键词: 联邦学习, 噪声标签, 谱结构, 客户端识别, 标签纠正

一句话总结¶

FedSIR 不再依赖 loss 轨迹或模型预测来对抗联邦学习里的噪声标签，而是利用各客户端"类别特征子空间"的谱结构——先用类间相似度统计 + GMM 把客户端分成干净/噪声两组，再让干净客户端提供谱参考、用"主方向 + 残差子空间"双判据保守地给噪声客户端重标注，最后配合 logit 调整 + 知识蒸馏 + 距离感知聚合稳住训练，在 CIFAR-10/100 各种噪声率与非 IID 设置下都超过 FedNoRo、FedELC 等 SOTA。

研究背景与动机¶

领域现状：联邦学习（FL）让多个客户端在不共享原始数据的前提下协同训练模型，但模型质量仍受制于本地数据质量。现实中客户端数据常在不受控环境采集，标签存在错误（noisy labels），会显著拖垮联邦模型。针对噪声标签，主流做法要么设计 noise-tolerant 损失函数，要么利用训练过程中的 loss 动态（small-loss 样本更可能是干净的）或模型预测来筛样本、纠标签。

现有痛点：把这些信号搬到 FL 里会失灵。FL 自带数据异构（non-IID）、聚合策略、部分客户端参与等系统特性，使得 loss 轨迹和客户端表现变得不可靠——你很难分清一个客户端表现差到底是因为标签脏，还是因为它的数据分布本来就偏。此外，很多方法依赖服务器端有一份干净验证集（如 [18]）或要估计噪声转移矩阵，这在隐私受限、分布异构的联邦场景里往往拿不到也估不准。

核心矛盾：噪声标签的影响和 FL 系统特性的影响纠缠在一起，只要还从训练动态（loss/预测）里取信号，就甩不掉这种纠缠。

本文目标：找一个不依赖训练动态、不需要干净验证集、不需要噪声转移矩阵的信号，既能判断哪些客户端脏，又能纠正脏样本的标签。

切入角度：作者观察到一个谱几何现象——在早期训练的模型下，同类样本在特征空间里会聚成相对集中的方向。干净客户端的各类别"主方向"彼此分得开（类间相似度低）；而标签被污染后，不同类的样本混进同一个标签集合，会把这个类的主方向拉得和其他类对齐，导致类间相似度升高，且噪声率越高这种串扰越严重。这正好是一个不依赖 loss 的结构性信号。

核心 idea：用客户端类别特征子空间的谱结构（主奇异向量的两两相似度）代替 loss 动态，来识别噪声客户端并纠正噪声标签。

方法详解¶

整体框架¶

FedSIR 是一个三阶段联邦框架，输入是 \(K\) 个各自持有可能含噪本地数据集 \(\mathcal{D}_k=\{(x_i,\tilde{y}_i)\}\) 的客户端，输出是一个对标签噪声鲁棒的全局模型。三个阶段依次是：Stage I 客户端识别（从类别谱结构把客户端分干净/噪声两组）→ Stage II 谱式重标注（用干净客户端的谱参考给噪声客户端纠标签）→ Stage III 噪声感知优化（干净端用 LA 损失、噪声端用 LA-KD 混合损失训练，最后用 DaAgg 聚合）。其中识别只做一次，重标注每 \(R\) 轮做一次，优化与聚合每轮都做，干净客户端的更新单独平均出一个"干净参考模型" \(\phi_{\mathrm{clean}}\) 供下一次重标注提特征。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["各客户端本地训练<br/>提取类别特征"] --> B["谱式客户端识别<br/>类相似度统计→GMM分簇"]
    B -->|干净客户端| C["谱式重标注<br/>干净端建参考·噪声端纠正"]
    B -->|噪声客户端| C
    C --> D["噪声感知优化<br/>干净端LA·噪声端LA-KD"]
    D --> E["距离感知聚合DaAgg<br/>按距干净端远近下权"]
    E -->|每轮广播回流| A

关键设计¶

1. 谱式客户端识别：用类间相似度统计 + GMM 替代 loss 信号区分干净/噪声客户端

针对"loss 动态在 FL 里不可靠"这个痛点，作者把判别信号换成纯结构性的谱量。对客户端 \(k\) 的每个类别 \(c\)，把所有标注为 \(c\) 的样本特征堆成矩阵 \(\mathbf{Z}_{k,c}\in\mathbb{R}^{n_{k,c}\times d}\)，做 SVD 取首个右奇异向量 \(\mathbf{v}_{k,c}\) 作为该类的"主方向"。类间相似度定义为主方向夹角的余弦绝对值 \([\mathbf{S}_k]_{c,c'}=|\mathbf{v}_{k,c}^\top\mathbf{v}_{k,c'}|\)，构成一张 \(C\times C\) 的类相似度矩阵。干净客户端各类方向分得开、off-diagonal 偏小；噪声客户端因为跨类混入而 off-diagonal 偏大。作者用两个标量概括 off-diagonal 结构——均值 \(\mu_k\) 和能量（平方均值）\(e_k\)：

\[\mu_k=\frac{1}{|\mathcal{C}_k|(|\mathcal{C}_k|-1)}\sum_{c\neq c'}[\mathbf{S}_k]_{c,c'},\qquad e_k=\frac{1}{|\mathcal{C}_k|(|\mathcal{C}_k|-1)}\sum_{c\neq c'}[\mathbf{S}_k]_{c,c'}^2\]

然后在所有客户端的描述子 \((\mu_k,e_k)\) 上拟合一个两分量高斯混合模型（GMM），自动把客户端切成干净集 \(\mathcal{K}_{\mathrm{clean}}\) 和噪声集 \(\mathcal{K}_{\mathrm{noisy}}\)。妙处在于：这套计算完全本地完成，客户端只需上传两个标量 + 梯度，通信开销极小，既不碰原始数据也不需要服务器端干净集，识别只做一次（Stage I 各客户端先本地训 \(E_1=5\) epoch）

2. 谱式重标注：用"主方向对齐"与"残差子空间投影"双判据一致才改标签

光识别出脏客户端不够，还要纠正它们的脏样本。作者让干净客户端贡献谱参考：对每个类 \(c\)，按样本数加权聚合干净客户端的主方向外积 \(\mathbf{M}_c^{(r)}=\frac{1}{W_c}\sum_{k\in\mathcal{K}_{\mathrm{clean}}}w_{k,c}\mathbf{v}_{k,c}\mathbf{v}_{k,c}^\top\)，取其主特征向量得到共识主方向 \(\bar{\mathbf{v}}_c^{(r)}\)；同理用与主方向正交的残差方向聚合出共识残差子空间 \(\bar{\mathbf{V}}_c^{(n)}\)（取 top \(L=12\) 个特征向量）。对噪声客户端的每个样本特征 \(\mathbf{z}_i\)，算两个互补分数：主方向对齐 \(S^{(r)}(i,c)=|\mathbf{z}_i^\top\bar{\mathbf{v}}_c^{(r)}|\)（越大越像类 \(c\)），残差投影能量 \(S^{(n)}(i,c)=\frac{1}{\sqrt{L}}\|\mathbf{z}_i^\top\bar{\mathbf{V}}_c^{(n)}\|_2\)（越小越像类 \(c\)，因为真属于该类时能量应集中在主方向、残差里剩得少）。两个判据各给一个预测：

\[\hat{y}_i^{(r)}=\arg\max_c S^{(r)}(i,c),\qquad \hat{y}_i^{(n)}=\arg\min_c S^{(n)}(i,c)\]

关键是一致性门控：只有当 \(\hat{y}_i^{(r)}=\hat{y}_i^{(n)}\) 时才接受改标签，否则保留原标签 \(\tilde{y}_i\)。这种"两个独立证据互相印证才动手"的保守策略，避免了单判据误纠把更多噪声引进来——消融里它确实比只用 \(S^{(r)}\) 或只用 \(S^{(n)}\) 都更好。重标注每 \(R=20\) 轮做一次，特征由当前干净参考模型 \(\phi_{\mathrm{clean}}\) 提取

3. 噪声感知优化：干净端 LA、噪声端 LA-KD 混合，让脏客户端同时听硬标签和全局软标签

识别+重标注之后所有客户端继续参与 FL，但本地目标按身份分流。干净客户端只用 logit-adjusted（LA）损失：按本地类先验 \(\pi_{k,c}\) 给 logits 加偏置 \(m_{k,c}=\beta\log(\pi_{k,c}+\epsilon)\) 再算交叉熵 \(\mathcal{L}_{\mathrm{LA}}=\mathrm{CE}(f_{\phi_k}(x)+\mathbf{m}_k,\tilde{y})\)，补偿异构带来的类别不平衡。噪声客户端则用 LA-KD 混合目标：既学重标注后的硬标签 \(y_i^\star\)，又跟全局模型蒸馏——以全局模型软预测 \(\mathbf{p}_i=\mathrm{softmax}(f_{\phi_{global}}/\tau)\) 为教师，\(\mathcal{L}_{\mathrm{LA\text{-}KD}}=w_{\mathrm{KD}}\,\mathrm{KL}(\mathbf{p}_i\|\mathbf{q}_i)+(1-w_{\mathrm{KD}})\,\mathrm{CE}\)。两路信号互补：当重标注证据强、明显纠出错标时硬标签提供强监督；当本地标签仍可疑、重标注证据弱时，全局软标签捕捉类间关系、起正则作用防止过拟合到不可靠目标

4. 距离感知聚合 DaAgg：按"离最近干净客户端有多远"对噪声客户端更新下权

即便经过重标注和 KD，部分噪声客户端的更新仍可能偏离干净群体。DaAgg（借鉴 RSCFed）在标准按样本量加权之上，额外用模型参数距离压制这些更新。对噪声客户端 \(k\)，取它到干净集里最近那个客户端的 \(\ell_2\) 距离 \(d_k=\min_{j\in\mathcal{K}_{\mathrm{clean}}}\|\phi_k^{(t)}-\phi_j^{(t)}\|_2\)（用 min 而非到干净均值，是因为异构下一个有用的噪声更新可能只像某个干净客户端的子集）。最终聚合权重 \(\alpha_k=\frac{a_k\exp(-d_k)}{\sum_j a_j\exp(-d_j)}\)（干净客户端 \(d_k=0\)）。它不是把噪声客户端踢掉，而是软性下权——离干净群体越远权重越小，既保留有用信息又抑制不可靠更新

损失函数 / 训练策略¶

全程 \(T=100\) 通信轮，ImageNet 预训练 ResNet-18 作骨干，Adam 优化。Stage I 每客户端本地 \(E_1=5\) epoch（LR \(5\times10^{-5}\)、WD \(2\times10^{-2}\)）算谱描述子做 GMM 分簇并以干净客户端 FedAvg 得到 \(\phi^{(1)}\)；Stage II–III 每轮本地 \(E_2=1\) epoch（LR \(3\times10^{-4}\)、WD \(5\times10^{-4}\)），每 \(R=20\) 轮触发一次谱重标注（残差子空间维度 \(L=12\)），干净端 \(\mathcal{L}_{\mathrm{LA}}\)、噪声端 \(\mathcal{L}_{\mathrm{LA\text{-}KD}}\)，最后 DaAgg 聚合得 \(\phi^{(t+1)}\)、并单独 FedAvg 干净端得 \(\phi_{\mathrm{clean}}^{(t+1)}\)。

实验关键数据¶

实验在 CIFAR-10 / CIFAR-100 上做，10 个客户端，对称标签噪声 30%–90%，用 Dirichlet 分布（\(\alpha\) 越小越非 IID）模拟数据异构。

主实验（CIFAR-10，对称噪声，测试准确率 %）¶

设置	噪声率	FedSIR(本文)	FedELC	FedNoRo	FedAvg
\(\alpha{=}0.1\)	30%	78.65	77.71	77.65	73.67
\(\alpha{=}0.1\)	90%	77.90	77.72	76.11	68.90
\(\alpha{=}0.5\)	30%	84.13	82.85	82.65	83.14
\(\alpha{=}0.5\)	90%	83.15	77.74	81.41	40.24
\(\alpha{=}2\)	30%	85.72	84.00	84.93	84.61
\(\alpha{=}2\)	90%	84.40	79.73	82.59	40.90

在几乎所有噪声率 × 异构组合下 FedSIR 都拿到最优。最能说明问题的是高噪声（90%）：\(\alpha{=}0.5\) 时 FedSIR 83.15 比 FedELC 77.74 高 5.4 点、比 FedNoRo 81.41 高 1.7 点；而 FedAvg 直接崩到 40.24。说明可靠的客户端识别 + 保守重标注在严重污染下尤为关键。

⚠️ 正文写"\(\alpha{=}0.1, 0.5, 2\) 的干净客户端数分别为 3、3、5"，但 Table 1 表头标的是 5、3、3，二者不一致，以原文为准。

消融实验（CIFAR-10，\(\alpha{=}1\)，3 个干净客户端，准确率 %）¶

配置	30%	60%	90%	说明
Ours（完整）	85.21	84.68	84.51	完整模型
w/o relabeling	85.13	83.90	80.00	去谱重标注，90% 掉 4.51（最大）
w/o LA	84.93	84.38	84.14	去 logit 调整，全段小幅掉
w/o KD	85.49	84.63	84.37	去蒸馏，多数噪声率略掉
w/o DaAgg	85.65	84.41	83.73	低噪声反而略升、高噪声掉

重标注判据消融（Table 4，\(\alpha{=}1\)，3 干净端，准确率 %）¶

判据	30%	60%	90%
仅 \(S^{(r)}\) 主方向	84.73	84.07	84.06
仅 \(S^{(n)}\) 残差	84.43	84.34	83.89
一致性（本文）	85.21	84.68	84.51

关键发现¶

谱重标注是绝对主力：去掉它在 90% 噪声下从 84.51 暴跌到 80.00（−4.51），是所有组件里掉点最多的；噪声越重它越重要。
双判据一致性优于单判据：Agreement 在所有噪声率上都压过只用 \(S^{(r)}\) 或只用 \(S^{(n)}\)，印证"互相印证才改"的保守策略确实减少误纠。
DaAgg 是高噪声的安全阀而非通用增益：低噪声（30%）下 w/o DaAgg 反而 85.65 > 85.21，但高噪声（90%）下完整模型 84.51 > 83.73——它主要在严重污染时挡住跑偏的客户端更新。
CIFAR-100 上结论一致，作者指出强非 IID（小 \(\alpha\)）时每个客户端类别更少，需要更多干净客户端来保证类覆盖、才能构出可靠谱参考。

亮点与洞察¶

换信号源的思路很值：把"loss/预测动态"这个在 FL 里被系统特性污染的信号，换成"类别特征子空间的谱几何"这个不依赖训练过程的结构信号，直接绕开了"噪声影响 vs 系统影响纠缠不清"的根本矛盾。这个换轨思路可迁移到其他需要在异构联邦下做样本/客户端质量评估的任务。
只传两个标量做识别：用 off-diagonal 均值 \(\mu_k\) + 能量 \(e_k\) 两个标量 + GMM 就完成客户端分簇，通信开销极低，对联邦场景非常友好。
"双证据一致才动手"的保守纠错范式：主方向（argmax 对齐）和残差子空间（argmin 投影能量）是两个互补且独立的判据，要求一致才改标签，把误纠风险压到很低——这种"多判据投票门控"的纠错模式可复用到任何伪标签/自训练场景。
DaAgg 用"到最近干净客户端"的 min 距离而非到干净均值，照顾了异构下"好的噪声更新可能只像一部分干净客户端"的现实，比简单中心距离更鲁棒。

局限与展望¶

只验证了对称（完全随机）噪声：作者明确把扩展到非对称噪声（asymmetric noise，类别相关的系统性误标）列为未来工作；现实里的标注错误往往是非对称的，谱串扰假设是否仍成立存疑。
假设干净客户端"足够多且覆盖各类"：Stage II 要求干净集合能提供各类别可靠谱参考；强非 IID 下每客户端类别少，作者自己也承认需要更多干净客户端，否则谱参考可能不全。
依赖早期模型的特征质量：谱结构基于"早期训练模型下同类聚成方向"的现象，若预训练骨干（ImageNet ResNet-18）与目标域差距大，特征本身分不开，识别与重标注都会退化。
只在 CIFAR-10/100 + ResNet-18 上验证：未涉及更大数据集、更复杂任务或真实联邦标注噪声，泛化性待验证。
超参偏多（\(\beta\)、\(\tau\)、\(w_{\mathrm{KD}}\)、\(R\)、\(L\)、GMM 等），论文未给充分敏感性分析，实际部署调参成本可能不低。

评分¶

新颖性: ⭐⭐⭐⭐ 用类别特征子空间谱结构替代 loss/预测信号来识别噪声客户端并纠标签，角度新颖；但组件（LA、KD、DaAgg）多为已有技术拼装。
实验充分度: ⭐⭐⭐⭐ CIFAR-10/100 × 多噪声率 × 多异构 + 组件消融 + 判据消融，较系统；但只验证对称噪声、单骨干、单数据规模，缺敏感性分析。
写作质量: ⭐⭐⭐⭐ 动机与三阶段方法讲得清楚、算法伪代码完整；干净客户端数在正文与表格不一致是小瑕疵。
价值: ⭐⭐⭐⭐ 在高噪声 FL 下稳定超过 FedNoRo/FedELC，且通信开销低、不需服务器干净集，实用价值好。