跳转至

SCOPE: Semantic Coreset with Orthogonal Projection Embeddings for Federated Learning

会议: CVPR 2026
arXiv: 2603.12976
代码: 无
领域: 优化
关键词: 联邦学习, coreset选择, VLM零样本, 长尾分布, 隐私保护

一句话总结

提出SCOPE——无需训练的联邦coreset选择框架,利用冻结VLM(MobileCLIP-S2)的正交投影嵌入计算三个标量语义指标(表示性/多样性/边界接近度),实现全局感知的两阶段剪枝,通信带宽降128-512倍同时超越全数据训练。

研究背景与动机

领域现状:科学联邦数据集来自分布式高精度仪器(显微镜、光谱仪),天然具有极端类别不平衡(长尾)和非IID分布。联邦学习避免了隐私问题但面临数据效率挑战。Coreset选择和数据剪枝是减少通信/计算成本的有效策略。

现有痛点:(1) 局部启发式方法(FedCS、Herding)不了解全局数据分布,可能丢弃局部冗余但全局稀有的样本;(2) 基于代理数据集的方法(GCFL)需要服务器端数据,违反隐私约束;(3) 基于梯度/损失的方法(EL2N、GraND)在科学数据中会放大传感器噪声和伪影;(4) 需要本地warmup训练的方法(FedCS、FedCore)本身计算成本高。

核心矛盾:联邦设置下客户端只有局部视野但需要全局信息做合理剪枝;传输嵌入向量可以获得全局视野但违反隐私且通信开销大。

本文目标 在联邦设置下实现:(1)无需训练的coreset选择,(2)全局感知跨客户端类分布但只传标量不传嵌入,(3)对极端非IID和长尾不平衡鲁棒。

切入角度:用冻结的视觉-语言模型(MobileCLIP-S2)在本地零样本提取三个标量指标,只共享标量统计量(均值/方差)到服务器构建全局共识,再指导本地两阶段剪枝。

核心 idea:用VLM正交投影将每个样本压缩为三个标量语义指标,只传标量统计实现全局感知,两阶段剪枝先去异常再去冗余且保护长尾类。

方法详解

整体框架

客户端用冻结MobileCLIP-S2提取每样本三个标量指标(RS/DS/Sneg) → 只发送类级标量统计(均值/方差)到服务器 → 服务器用全方差公式聚合为Global Profile → 客户端据此两阶段本地剪枝(共识滤波+动态平衡)→ 在剪枝后数据上做标准FedAvg训练。

关键设计

  1. 三指标正交投影打分:

    • 功能: 用冻结VLM零样本为每个样本计算三个标量语义质量指标
    • 核心思路:
      • 表示性分数 \(RS_i = v_{img,i} \cdot t_{c_i}\)(视觉嵌入与GT类文本原型的余弦相似度——"它是不是好的类原型?")
      • 多样性分数 \(DS_i = \|v_{res,i}\|_2\),其中 \(v_{res,i} = v_{img,i} - RS_i \cdot t_{c_i}\)(正交残差的模——"它有没有超越类定义的新特征?")
      • 边界接近度 \(S_{neg,i} = \max_{j \neq c_i} v_{img,i} \cdot t_j\)(与最相似错误类的相似度——"它容不容易被混淆?")
    • 设计动机: RS和DS虽然数学上关联(\(DS = \sqrt{1-RS^2}\)),但独立标准化后在不同统计空间中,提供非线性冗余惩罚。三个指标分别回答"是否典型"、"是否新颖"、"是否困难"
  2. 两阶段剪枝:

    • 功能: 先去语义异常(噪声/传感器伪影),再去冗余样本(保护长尾类)
    • 核心思路:
      • Stage 1 共识滤波: 异常分数 \(AS_i = \hat{Z}_{S_{neg},i} - \hat{Z}_{RS,i}\)(Z-score标准化后的边界接近度减表示性),高AS=高混淆+低类代表性=异常。剪除top-\(p_l\)
      • Stage 2 动态平衡: 冗余分数 \(R_i = \hat{Z}_{RS,i} - \hat{Z}_{S_{neg},i} - \hat{Z}_{DS,i}\)(高典型+低混淆+低多样=冗余)。仅对全局过度表示类(\(T_c = f_c / W_c > \beta\))剪冗余,保护全局稀有类
    • 设计动机: 两阶段解耦了两种完全不同的问题——异常是"质量"问题(不分类别地去除),冗余是"数量"问题(只在过度表示类中剪枝)。全局稀缺性权重 \(W_c \propto (1/(F_c+\epsilon))^\gamma\) 防止长尾类被误剪
  3. 全局共识构建(隐私保护):

    • 功能: 服务器从标量统计聚合全局数据分布信息,无需传输嵌入
    • 核心思路: 客户端只发送每个类的三指标均值/方差+样本数,服务器用全方差公式 \([\sigma_{m,c}^{Global}]^2 = \frac{1}{N_c}\sum_k n_{k,c}[[\sigma_{m,c}^k]^2 + [\mu_{m,c}^k - \mu_{m,c}^{Global}]^2]\) 精确聚合跨客户端统计。通信量O(C)而非O(C×D)
    • 设计动机: 简单平均方差会低估异质性——全方差分解正确捕获了客户端内方差和客户端间方差。标量传输实现128-512×带宽压缩

损失函数 / 训练策略

  • Coreset选择阶段完全零样本无训练——仅用冻结MobileCLIP-S2做几何投影
  • 后续联邦训练:标准FedAvg + SGD + cosine decay,200轮通信,报告最后10轮均值
  • 硬件: 每个边缘节点单卡A100

实验关键数据

主实验

数据集 IR α \(p_f\) SCOPE 最强基线 全数据
CIFAR-10 2 0.1 0.1 56.48% FedCore 55.96% 55.63%
CIFAR-10 10 0.1 0.1 45.65% FedCore 44.98% 45.07%
Tiny-ImageNet 5 0.1 0.9 55.38% Forgetting 54.04% 54.41%
UHCS 10 0.1 0.1 95.36% FedCS 93.17% 93.99%
UHCS 10 0.1 0.9 92.62% EL2N 84.70% 93.99%

系统效率: 128-512×通信带宽降低,ViT-B-16 7.72×加速。

消融实验

消融配置 CIFAR-10 (\(p_f\)=0.9) 变化
完整SCOPE 42.80% -
去掉Global Profiling 19.04% -23.76%
去掉Consensus Filter 40.33% -2.47%
去掉Balancing Filter 39.76% -3.04%
VLM选择 参数量 UHCS准确率
MobileCLIP-S2 99M 94.54%
ViT-H-14 986M 92.35%

关键发现

  • SCOPE在\(p_f\)=0.1时(56.48%)超越全数据FedAvg(55.63%)——全数据含噪声和不平衡反而有害
  • Global Profiling是压倒性关键(去掉后暴跌23.76%),证明联邦coreset必须全局感知
  • 轻量MobileCLIP-S2(99M)反而优于大模型ViT-H-14(986M)——领域适配比模型大小更重要
  • 基线方法在高剪枝率下灾难性退化(误差棒极宽),SCOPE保持稳定(误差棒窄)
  • 在严重异构下(IR=10, α=0.1)一致超越或匹配全数据训练

亮点与洞察

  • 完全零训练的coreset选择——冻结VLM几何打分,避免本地warmup的计算开销
  • 极端通信高效——只传标量统计,128-512×带宽降低,真正适合联邦场景的隐私約束
  • 正交投影分解(RS/DS/Sneg)的几何直觉清晰:将样本质量分解为"典型性"、"新颖性"、"模糊性"三个正交维度
  • 两阶段剪枝的解耦设计——异常是质量问题,冗余是数量问题,分开处理逻辑清晰

局限与展望

  • 依赖VLM潜在空间质量——特殊科学数据域(如显微镜图像)VLM可能表示能力不足
  • 假设类标签集合已知——不适用开放集或持续出现新类的场景
  • 一次性选择,不支持流式/在线自适应——数据持续增长时需要重新执行
  • β=0.5对所有实验固定,更极端的不平衡可能需要调整

相关工作与启发

  • FedCS (CVPR 2025): 需本地warmup+传全特征中心,长尾错误率40.37% vs SCOPE 35.60%
  • FedCore (ICC 2024): 需warmup训练,高剪枝率下退化严重
  • EL2N/GraND: 中心化方法,联邦非IID下灾难性退化——优先高损失样本在科学数据中放大噪声
  • 启发: 用冻结VLM做训练无关的数据质量评估是有前景的范式;正交投影分解的几何思路可用于其他数据选择场景

评分

  • ⭐⭐⭐⭐ 新颖性: 正交投影三指标设计新颖,零样本VLM用于联邦数据选择的思路有创意
  • ⭐⭐⭐⭐⭐ 实验充分度: 多数据集(4个)、多不平衡率、多剪枝率、多backbone、详细消融+系统效率分析
  • ⭐⭐⭐⭐ 写作质量: 方法公式化清晰,三个RQ驱动设计自然
  • ⭐⭐⭐⭐ 价值: 对数据高效联邦学习有实际价值,通信效率提升显著