FedOpenMatch: Towards Semi-Supervised Federated Learning in Open-Set Environments¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=5UrPAW3uI1
代码: 待确认
领域: 半监督学习 / 联邦学习 / 开集识别
关键词: open-set, semi-supervised federated learning, OVA classifier, logit adjustment, pseudo-labeling

一句话总结¶

本文首次提出"开集半监督联邦学习"（OSSFL）问题——客户端无标注数据里混有标签空间之外的未知类样本，并给出首个框架 FedOpenMatch，用一个被"梯度截断 + logit 调整"加固的 one-vs-all 离群检测器配合 logit 一致性正则，在联邦异构数据下把开集准确率最高提升 14.33%。

研究背景与动机¶

领域现状：半监督联邦学习（SSFL）让服务器持有少量标注、众多客户端贡献无标注数据，靠伪标签把分布式无标注数据用起来。本文聚焦更现实的 label-at-server 设定（标注只在服务器，客户端纯无标注），因为它不要求客户端有标注能力。

现有痛点：所有 SSFL 方法都默认无标注数据和标注数据共享同一标签空间。但客户端各自独立私下采集数据，无标注集里几乎必然混入未见类样本（outliers）。标准 SSFL 没有离群检测能力，会给离群样本打上错误伪标签——这既污染训练，又会在推理时把未知类误判成已知类，在自动驾驶等关键场景里酿成事故。

核心矛盾：中心化的开集半监督学习（OSSL）已经能处理"无标注集含未知类"，但直接搬到联邦场景会严重退化。原因有三：① 标注与无标注数据被严格物理隔离，客户端拿不到可靠监督；② 客户端本地训练极易被噪声伪标签带偏；③ 客户端间数据异构（label/feature shift）进一步放大上述问题。

本文目标：正式定义 OSSFL 问题（= OSSL in FL），并设计能在联邦异构条件下稳定检测离群、同时充分利用无标注内点的框架。

核心 idea：用 OVA 离群检测器生成高质量内点伪标签，但针对"联邦 + 开集"特有的失败模式逐一加固——梯度截断解决双分支特征干扰、logit 调整对抗内点被当离群丢弃的失衡、logit 一致性正则榨取剩余无标注样本，并用全局模型一次性冻结伪标签防止本地训练自我恶化。

方法详解¶

整体框架¶

FedOpenMatch 是一个多任务框架：共享特征提取器 \(g\) 之上挂两个头——\(K\) 维内点分类器 \(h_c\) 和由 \(K\) 个二分类器组成的 OVA 分类器 \(h_d\)（每个判别"是否属于第 \(k\) 类"，输出 \(2K\) 维 logit，\(q^k_0/q^k_1\) 分别给出对第 \(k\) 类是离群/内点的打分）。每个通信轮分四步交替更新：服务器先用标注数据训练 → 把模型分发给随机选中的客户端 → 客户端在无标注数据上本地训练 → 上传聚合得到新全局模型。关键稳定性技巧是：每轮开始用全局模型给本地无标注样本生成伪标签并在整轮内冻结，避免本地少监督导致的伪标签漂移。

flowchart LR
    S["服务器<br/>少量标注 D_s<br/>L_ce + L_ova"] -->|1.分发模型| C["客户端 m<br/>无标注 D_u"]
    C -->|"全局模型冻结伪标签"| T["本地训练<br/>L_in + L_ova + L_lcr"]
    T -->|3.上传| A["聚合 + 服务器微调"]
    A --> S
    subgraph M["模型结构"]
        G["特征提取器 g"] --> HC["内点分类器 h_c"]
        G -.梯度截断.-> HD["OVA 分类器 h_d"]
    end

关键设计¶

1. 梯度截断（Gradient Stop）：让 OVA 借用而不破坏内点特征空间。OVA 分类器和内点分类器共享特征提取器但优化目标相反——内点分类器把同类拉近、异类推远，OVA 则要把每个目标类与其余所有类分开，两者在共享特征空间里不可避免地互相干扰（实测两分支的特征梯度相似度很低）。以往 OSSL 方法靠加投影层把特征映射到任务专属空间，但更新方向的分歧依旧存在。本文直接切断 OVA 分支回流到特征提取器的梯度：直觉是内点分类器已经把特征塑造得类内紧凑、类间可分，OVA 完全可以在这个现成的良好空间上做内外点区分，无需再去改动特征。消融显示开集准确率因此最高提升 10.68%，且训练更稳定。

2. Logit 调整（Logit Adjustment）：救回被多数离群淹没的真内点。OVA 训练有天然失衡——对第 \(k\) 类而言，其余 \(K-1\) 类全部充当离群负样本，\(K\) 越大失衡越严重，二分类器被推向"一律预测离群"，导致大量真内点被错误拒绝、无标注数据利用率极低。本文借鉴 Menon 等人的思路对 OVA logit 做先验校正：\(q^k = q^k + \omega \log \pi\)，其中 \(\pi = \{\frac{K-1}{K}, \frac{1}{K}\}\) 是离群/内点的类先验，\(\omega\) 是可调缩放因子。这相当于放大内点预测的贡献、抵消离群更新的主导，让更多内点能被识别并参与训练，从而把利用率提上来。

3. 弱-强 logit 一致性正则（LCR）：在 logit 层而非概率层对齐决策边界。即便有了 logit 调整，仍有大批低置信内点和离群样本没被利用。前人 OpenMatch 提出软开集一致性正则 SOCR，对同一样本的弱/强增广视图在 softmax 概率上做 MSE 对齐。本文发现去掉 softmax、直接在原始 logit 上做一致性效果显著更好：\(L^{lcr}_m = \lambda \frac{1}{N_m}\sum_i \big[\mathrm{mse}(q_i, \hat q_i) + \mathrm{mse}(p_i, \hat p_i)\big]\)。作者推测 logit 级正则提供更强、更直接的训练信号——它约束的是原始打分进而约束决策边界，而 softmax 后的概率一致只对齐分布、不保证决策边界一致。消融表明 LCR 单独就带来约 5 个点的开集准确率提升。

整体损失上，服务器最小化 \(L_s = \frac{1}{N_s}\sum_i \ell_{ce}(p_i,y_i)+\ell_{ova}(q_i,y_i)\)（OVA 采用硬负子分类器采样）；客户端最小化 \(L_m = L^{in}_m + L^{ova}_m + L^{lcr}_m\)，其中 \(L^{in}_m\) 只对"内点置信度 \(\geq\tau_{in}\) 且 OVA 判为内点"的样本算交叉熵，\(L^{ova}_m\) 对正/负阈值满足的 OVA 伪标签算二元交叉熵。

实验关键数据¶

主实验（CIFAR-100，开集准确率 Balanced Accuracy，节选）¶

方法	80/20@10	80/20@25	50/50@10	50/50@25
OpenMatch (NeurIPS'21→Fed)	2.11	1.74	1.97	1.99
SSB (ICCV'23→Fed)	4.06	6.40	16.95	28.62
IOMatch (ICCV'23→Fed)	28.66	37.72	42.86	49.45
BDMatch (ICML'24→Fed)	23.19	29.38	39.15	31.14
FedOpenMatch	38.97	50.40	46.29	59.01

（Dir(0.3) 设定）FedOpenMatch 全面领先；在 CIFAR100@80@25@Dir(0.1) 上闭集/开集准确率分别最高提升 7.11% / 14.33%。CIFAR-10、SVHN 上同样领先，尤其在高异构 Dir(0.1) 下优势明显。

消融实验（CIFAR100@80@25@Dir(0.1)）¶

配置	Base	+GS	+GS+LA	+GS+LA+LCR
开集准确率	34.81	39.51	43.65	48.36
闭集准确率	45.86	46.14	45.81	50.38

三个组件逐级叠加、各自都带来稳定增益，LCR 贡献最大（+4.71 开集）。

关键发现¶

直接把 OSSL 算法搬进联邦会严重不稳：OpenMatch/SSB 常跌破"仅用标注"的下界。OpenMatch 因 OVA 失衡把多数样本判为离群、利用率持续低迷；SSB 虽利用率高但伪标签准确率低。
FedOpenMatch 靠"全局模型冻结伪标签 + 三组件"让数据利用率稳步上升的同时保持较高伪标签准确率。
在同时含 feature shift 与 label shift 的 CIFAR100-C、以及未知类占比极高（20 已知 / 80 未知）的极端场景下仍稳居最优，鲁棒性强。

亮点与洞察¶

问题定义本身是贡献：首次正式提出 OSSFL，并用 Tab.1 从"分布式 / 标签稀缺 / 开集训练 / 开集测试"四维度厘清它与 SSFL、OSSL、FOSR 的边界，还顺手把多个 OSSL 方法适配成联邦 baseline，建起评测基线。
诊断驱动设计：每个组件都对应一个被可视化验证的失败模式（梯度相似度低→GS、利用率低→LA、剩余样本未用→LCR），不是堆 trick。
简单且可迁移：logit 级一致性、logit 调整这类改动几乎零额外成本，对其他开集/失衡场景有借鉴价值。

局限与展望¶

实验集中在 CIFAR-10/100、SVHN 等标准图像基准，缺医疗、自动驾驶等真实联邦数据验证，而这些恰是动机里强调的高风险场景。
logit 调整依赖"标注集类别均衡"假设来设定先验 \(\pi\)，真实长尾联邦下该假设可能失效。
伪标签每轮用全局模型一次性冻结提升了稳定性，但也可能让本地训练错过轮内的快速收敛信息，固定 vs 动态更新的权衡未深入探讨。
通信/计算开销、隐私安全性（OVA 头是否泄露分布信息）未作分析。

评分¶

新颖性: ⭐⭐⭐⭐ 首次正式提出并系统求解 OSSFL，问题定义 + 框架 + 基线一并补齐，OVA 路线虽继承自 OSSL 但联邦加固是真实新贡献。
实验充分度: ⭐⭐⭐⭐ 三数据集 × 多异构 × 多标注预算 × 复杂 corruption / 极端未知占比，消融完整；扣分在缺真实联邦域数据。
写作质量: ⭐⭐⭐⭐ 动机—诊断—设计逻辑清晰，每个组件都有可视化证据支撑，公式与符号规范。
价值: ⭐⭐⭐⭐ 填补 SSFL 在开集场景的空白，对自动驾驶/医疗等存在未知类的联邦应用有直接意义，组件可迁移性强。