SCOPE: Semantic Coreset with Orthogonal Projection Embeddings for Federated Learning¶
会议: CVPR 2026
arXiv: 2603.12976
代码: 无
领域: 优化
关键词: 联邦学习, coreset选择, VLM零样本, 长尾分布, 隐私保护
一句话总结¶
提出SCOPE——无需训练的联邦coreset选择框架,利用冻结VLM(MobileCLIP-S2)的正交投影嵌入计算三个标量语义指标(表示性/多样性/边界接近度),实现全局感知的两阶段剪枝,通信带宽降128-512倍同时超越全数据训练。
研究背景与动机¶
领域现状:科学联邦数据集来自分布式高精度仪器(显微镜、光谱仪),天然具有极端类别不平衡(长尾)和非IID分布。联邦学习避免了隐私问题但面临数据效率挑战。Coreset选择和数据剪枝是减少通信/计算成本的有效策略。
现有痛点:(1) 局部启发式方法(FedCS、Herding)不了解全局数据分布,可能丢弃局部冗余但全局稀有的样本;(2) 基于代理数据集的方法(GCFL)需要服务器端数据,违反隐私约束;(3) 基于梯度/损失的方法(EL2N、GraND)在科学数据中会放大传感器噪声和伪影;(4) 需要本地warmup训练的方法(FedCS、FedCore)本身计算成本高。
核心矛盾:联邦设置下客户端只有局部视野但需要全局信息做合理剪枝;传输嵌入向量可以获得全局视野但违反隐私且通信开销大。
本文目标 在联邦设置下实现:(1)无需训练的coreset选择,(2)全局感知跨客户端类分布但只传标量不传嵌入,(3)对极端非IID和长尾不平衡鲁棒。
切入角度:用冻结的视觉-语言模型(MobileCLIP-S2)在本地零样本提取三个标量指标,只共享标量统计量(均值/方差)到服务器构建全局共识,再指导本地两阶段剪枝。
核心 idea:用VLM正交投影将每个样本压缩为三个标量语义指标,只传标量统计实现全局感知,两阶段剪枝先去异常再去冗余且保护长尾类。
方法详解¶
整体框架¶
客户端用冻结MobileCLIP-S2提取每样本三个标量指标(RS/DS/Sneg) → 只发送类级标量统计(均值/方差)到服务器 → 服务器用全方差公式聚合为Global Profile → 客户端据此两阶段本地剪枝(共识滤波+动态平衡)→ 在剪枝后数据上做标准FedAvg训练。
关键设计¶
-
三指标正交投影打分:
- 功能: 用冻结VLM零样本为每个样本计算三个标量语义质量指标
- 核心思路:
- 表示性分数 \(RS_i = v_{img,i} \cdot t_{c_i}\)(视觉嵌入与GT类文本原型的余弦相似度——"它是不是好的类原型?")
- 多样性分数 \(DS_i = \|v_{res,i}\|_2\),其中 \(v_{res,i} = v_{img,i} - RS_i \cdot t_{c_i}\)(正交残差的模——"它有没有超越类定义的新特征?")
- 边界接近度 \(S_{neg,i} = \max_{j \neq c_i} v_{img,i} \cdot t_j\)(与最相似错误类的相似度——"它容不容易被混淆?")
- 设计动机: RS和DS虽然数学上关联(\(DS = \sqrt{1-RS^2}\)),但独立标准化后在不同统计空间中,提供非线性冗余惩罚。三个指标分别回答"是否典型"、"是否新颖"、"是否困难"
-
两阶段剪枝:
- 功能: 先去语义异常(噪声/传感器伪影),再去冗余样本(保护长尾类)
- 核心思路:
- Stage 1 共识滤波: 异常分数 \(AS_i = \hat{Z}_{S_{neg},i} - \hat{Z}_{RS,i}\)(Z-score标准化后的边界接近度减表示性),高AS=高混淆+低类代表性=异常。剪除top-\(p_l\)
- Stage 2 动态平衡: 冗余分数 \(R_i = \hat{Z}_{RS,i} - \hat{Z}_{S_{neg},i} - \hat{Z}_{DS,i}\)(高典型+低混淆+低多样=冗余)。仅对全局过度表示类(\(T_c = f_c / W_c > \beta\))剪冗余,保护全局稀有类
- 设计动机: 两阶段解耦了两种完全不同的问题——异常是"质量"问题(不分类别地去除),冗余是"数量"问题(只在过度表示类中剪枝)。全局稀缺性权重 \(W_c \propto (1/(F_c+\epsilon))^\gamma\) 防止长尾类被误剪
-
全局共识构建(隐私保护):
- 功能: 服务器从标量统计聚合全局数据分布信息,无需传输嵌入
- 核心思路: 客户端只发送每个类的三指标均值/方差+样本数,服务器用全方差公式 \([\sigma_{m,c}^{Global}]^2 = \frac{1}{N_c}\sum_k n_{k,c}[[\sigma_{m,c}^k]^2 + [\mu_{m,c}^k - \mu_{m,c}^{Global}]^2]\) 精确聚合跨客户端统计。通信量O(C)而非O(C×D)
- 设计动机: 简单平均方差会低估异质性——全方差分解正确捕获了客户端内方差和客户端间方差。标量传输实现128-512×带宽压缩
损失函数 / 训练策略¶
- Coreset选择阶段完全零样本无训练——仅用冻结MobileCLIP-S2做几何投影
- 后续联邦训练:标准FedAvg + SGD + cosine decay,200轮通信,报告最后10轮均值
- 硬件: 每个边缘节点单卡A100
实验关键数据¶
主实验¶
| 数据集 | IR | α | \(p_f\) | SCOPE | 最强基线 | 全数据 |
|---|---|---|---|---|---|---|
| CIFAR-10 | 2 | 0.1 | 0.1 | 56.48% | FedCore 55.96% | 55.63% |
| CIFAR-10 | 10 | 0.1 | 0.1 | 45.65% | FedCore 44.98% | 45.07% |
| Tiny-ImageNet | 5 | 0.1 | 0.9 | 55.38% | Forgetting 54.04% | 54.41% |
| UHCS | 10 | 0.1 | 0.1 | 95.36% | FedCS 93.17% | 93.99% |
| UHCS | 10 | 0.1 | 0.9 | 92.62% | EL2N 84.70% | 93.99% |
系统效率: 128-512×通信带宽降低,ViT-B-16 7.72×加速。
消融实验¶
| 消融配置 | CIFAR-10 (\(p_f\)=0.9) | 变化 |
|---|---|---|
| 完整SCOPE | 42.80% | - |
| 去掉Global Profiling | 19.04% | -23.76% |
| 去掉Consensus Filter | 40.33% | -2.47% |
| 去掉Balancing Filter | 39.76% | -3.04% |
| VLM选择 | 参数量 | UHCS准确率 |
|---|---|---|
| MobileCLIP-S2 | 99M | 94.54% |
| ViT-H-14 | 986M | 92.35% |
关键发现¶
- SCOPE在\(p_f\)=0.1时(56.48%)超越全数据FedAvg(55.63%)——全数据含噪声和不平衡反而有害
- Global Profiling是压倒性关键(去掉后暴跌23.76%),证明联邦coreset必须全局感知
- 轻量MobileCLIP-S2(99M)反而优于大模型ViT-H-14(986M)——领域适配比模型大小更重要
- 基线方法在高剪枝率下灾难性退化(误差棒极宽),SCOPE保持稳定(误差棒窄)
- 在严重异构下(IR=10, α=0.1)一致超越或匹配全数据训练
亮点与洞察¶
- 完全零训练的coreset选择——冻结VLM几何打分,避免本地warmup的计算开销
- 极端通信高效——只传标量统计,128-512×带宽降低,真正适合联邦场景的隐私約束
- 正交投影分解(RS/DS/Sneg)的几何直觉清晰:将样本质量分解为"典型性"、"新颖性"、"模糊性"三个正交维度
- 两阶段剪枝的解耦设计——异常是质量问题,冗余是数量问题,分开处理逻辑清晰
局限与展望¶
- 依赖VLM潜在空间质量——特殊科学数据域(如显微镜图像)VLM可能表示能力不足
- 假设类标签集合已知——不适用开放集或持续出现新类的场景
- 一次性选择,不支持流式/在线自适应——数据持续增长时需要重新执行
- β=0.5对所有实验固定,更极端的不平衡可能需要调整
相关工作与启发¶
- FedCS (CVPR 2025): 需本地warmup+传全特征中心,长尾错误率40.37% vs SCOPE 35.60%
- FedCore (ICC 2024): 需warmup训练,高剪枝率下退化严重
- EL2N/GraND: 中心化方法,联邦非IID下灾难性退化——优先高损失样本在科学数据中放大噪声
- 启发: 用冻结VLM做训练无关的数据质量评估是有前景的范式;正交投影分解的几何思路可用于其他数据选择场景
评分¶
- ⭐⭐⭐⭐ 新颖性: 正交投影三指标设计新颖,零样本VLM用于联邦数据选择的思路有创意
- ⭐⭐⭐⭐⭐ 实验充分度: 多数据集(4个)、多不平衡率、多剪枝率、多backbone、详细消融+系统效率分析
- ⭐⭐⭐⭐ 写作质量: 方法公式化清晰,三个RQ驱动设计自然
- ⭐⭐⭐⭐ 价值: 对数据高效联邦学习有实际价值,通信效率提升显著