SCOPE: Semantic Coreset with Orthogonal Projection Embeddings for Federated Learning¶

会议: CVPR 2026
arXiv: 2603.12976
代码: 无
领域: 优化
关键词: 联邦学习, coreset选择, VLM零样本, 长尾分布, 隐私保护

一句话总结¶

提出SCOPE——无需训练的联邦coreset选择框架，利用冻结VLM(MobileCLIP-S2)的正交投影嵌入计算三个标量语义指标(表示性/多样性/边界接近度)，实现全局感知的两阶段剪枝，通信带宽降128-512倍同时超越全数据训练。

研究背景与动机¶

领域现状：科学联邦数据集来自分布式高精度仪器（显微镜、光谱仪），天然具有极端类别不平衡(长尾)和非IID分布。联邦学习避免了隐私问题但面临数据效率挑战。Coreset选择和数据剪枝是减少通信/计算成本的有效策略。

现有痛点：(1) 局部启发式方法（FedCS、Herding）不了解全局数据分布，可能丢弃局部冗余但全局稀有的样本；(2) 基于代理数据集的方法（GCFL）需要服务器端数据，违反隐私约束；(3) 基于梯度/损失的方法（EL2N、GraND）在科学数据中会放大传感器噪声和伪影；(4) 需要本地warmup训练的方法（FedCS、FedCore）本身计算成本高。

核心矛盾：联邦设置下客户端只有局部视野但需要全局信息做合理剪枝；传输嵌入向量可以获得全局视野但违反隐私且通信开销大。

本文目标 在联邦设置下实现：(1)无需训练的coreset选择，(2)全局感知跨客户端类分布但只传标量不传嵌入，(3)对极端非IID和长尾不平衡鲁棒。

切入角度：用冻结的视觉-语言模型(MobileCLIP-S2)在本地零样本提取三个标量指标，只共享标量统计量（均值/方差）到服务器构建全局共识，再指导本地两阶段剪枝。

核心 idea：用VLM正交投影将每个样本压缩为三个标量语义指标，只传标量统计实现全局感知，两阶段剪枝先去异常再去冗余且保护长尾类。

方法详解¶

整体框架¶

客户端用冻结MobileCLIP-S2提取每样本三个标量指标(RS/DS/Sneg) → 只发送类级标量统计(均值/方差)到服务器 → 服务器用全方差公式聚合为Global Profile → 客户端据此两阶段本地剪枝（共识滤波+动态平衡）→ 在剪枝后数据上做标准FedAvg训练。

关键设计¶

三指标正交投影打分:
- 功能: 用冻结VLM零样本为每个样本计算三个标量语义质量指标
- 核心思路:
  - 表示性分数 \(RS_i = v_{img,i} \cdot t_{c_i}\)（视觉嵌入与GT类文本原型的余弦相似度——"它是不是好的类原型？"）
  - 多样性分数 \(DS_i = \|v_{res,i}\|_2\)，其中 \(v_{res,i} = v_{img,i} - RS_i \cdot t_{c_i}\)（正交残差的模——"它有没有超越类定义的新特征？"）
  - 边界接近度 \(S_{neg,i} = \max_{j \neq c_i} v_{img,i} \cdot t_j\)（与最相似错误类的相似度——"它容不容易被混淆？"）
- 设计动机: RS和DS虽然数学上关联（\(DS = \sqrt{1-RS^2}\)），但独立标准化后在不同统计空间中，提供非线性冗余惩罚。三个指标分别回答"是否典型"、"是否新颖"、"是否困难"
两阶段剪枝:
- 功能: 先去语义异常（噪声/传感器伪影），再去冗余样本（保护长尾类）
- 核心思路:
  - Stage 1 共识滤波: 异常分数 \(AS_i = \hat{Z}_{S_{neg},i} - \hat{Z}_{RS,i}\)（Z-score标准化后的边界接近度减表示性），高AS=高混淆+低类代表性=异常。剪除top-\(p_l\)
  - Stage 2 动态平衡: 冗余分数 \(R_i = \hat{Z}_{RS,i} - \hat{Z}_{S_{neg},i} - \hat{Z}_{DS,i}\)（高典型+低混淆+低多样=冗余）。仅对全局过度表示类（\(T_c = f_c / W_c > \beta\)）剪冗余，保护全局稀有类
- 设计动机: 两阶段解耦了两种完全不同的问题——异常是"质量"问题（不分类别地去除），冗余是"数量"问题（只在过度表示类中剪枝）。全局稀缺性权重 \(W_c \propto (1/(F_c+\epsilon))^\gamma\) 防止长尾类被误剪
全局共识构建（隐私保护）:
- 功能: 服务器从标量统计聚合全局数据分布信息，无需传输嵌入
- 核心思路: 客户端只发送每个类的三指标均值/方差+样本数，服务器用全方差公式 \([\sigma_{m,c}^{Global}]^2 = \frac{1}{N_c}\sum_k n_{k,c}[[\sigma_{m,c}^k]^2 + [\mu_{m,c}^k - \mu_{m,c}^{Global}]^2]\) 精确聚合跨客户端统计。通信量O(C)而非O(C×D)
- 设计动机: 简单平均方差会低估异质性——全方差分解正确捕获了客户端内方差和客户端间方差。标量传输实现128-512×带宽压缩

损失函数 / 训练策略¶

Coreset选择阶段完全零样本无训练——仅用冻结MobileCLIP-S2做几何投影
后续联邦训练：标准FedAvg + SGD + cosine decay，200轮通信，报告最后10轮均值
硬件: 每个边缘节点单卡A100

实验关键数据¶

主实验¶

数据集	IR	α	\(p_f\)	SCOPE	最强基线	全数据
CIFAR-10	2	0.1	0.1	56.48%	FedCore 55.96%	55.63%
CIFAR-10	10	0.1	0.1	45.65%	FedCore 44.98%	45.07%
Tiny-ImageNet	5	0.1	0.9	55.38%	Forgetting 54.04%	54.41%
UHCS	10	0.1	0.1	95.36%	FedCS 93.17%	93.99%
UHCS	10	0.1	0.9	92.62%	EL2N 84.70%	93.99%

系统效率: 128-512×通信带宽降低，ViT-B-16 7.72×加速。

消融实验¶

消融配置	CIFAR-10 (\(p_f\)=0.9)	变化
完整SCOPE	42.80%	-
去掉Global Profiling	19.04%	-23.76%
去掉Consensus Filter	40.33%	-2.47%
去掉Balancing Filter	39.76%	-3.04%

VLM选择	参数量	UHCS准确率
MobileCLIP-S2	99M	94.54%
ViT-H-14	986M	92.35%

关键发现¶

SCOPE在\(p_f\)=0.1时（56.48%）超越全数据FedAvg（55.63%）——全数据含噪声和不平衡反而有害
Global Profiling是压倒性关键（去掉后暴跌23.76%），证明联邦coreset必须全局感知
轻量MobileCLIP-S2(99M)反而优于大模型ViT-H-14(986M)——领域适配比模型大小更重要
基线方法在高剪枝率下灾难性退化（误差棒极宽），SCOPE保持稳定（误差棒窄）
在严重异构下(IR=10, α=0.1)一致超越或匹配全数据训练

亮点与洞察¶

完全零训练的coreset选择——冻结VLM几何打分，避免本地warmup的计算开销
极端通信高效——只传标量统计，128-512×带宽降低，真正适合联邦场景的隐私約束
正交投影分解（RS/DS/Sneg）的几何直觉清晰：将样本质量分解为"典型性"、"新颖性"、"模糊性"三个正交维度
两阶段剪枝的解耦设计——异常是质量问题，冗余是数量问题，分开处理逻辑清晰

局限与展望¶

依赖VLM潜在空间质量——特殊科学数据域（如显微镜图像）VLM可能表示能力不足
假设类标签集合已知——不适用开放集或持续出现新类的场景
一次性选择，不支持流式/在线自适应——数据持续增长时需要重新执行
β=0.5对所有实验固定，更极端的不平衡可能需要调整

评分¶

⭐⭐⭐⭐ 新颖性: 正交投影三指标设计新颖，零样本VLM用于联邦数据选择的思路有创意
⭐⭐⭐⭐⭐ 实验充分度: 多数据集(4个)、多不平衡率、多剪枝率、多backbone、详细消融+系统效率分析
⭐⭐⭐⭐ 写作质量: 方法公式化清晰，三个RQ驱动设计自然
⭐⭐⭐⭐ 价值: 对数据高效联邦学习有实际价值，通信效率提升显著