Enhancing Visual Representation with Textual Semantics: Textual Semantics-Powered Prototypes for Heterogeneous Federated Learning¶
会议: CVPR 2026 Highlight
arXiv: 2503.13543
代码: GitHub
领域: 优化
关键词: 联邦学习, 原型学习, 语义关系, 预训练语言模型, 数据异质性
一句话总结¶
针对联邦原型学习中现有方法破坏类间语义关系的问题,提出FedTSP方法利用预训练语言模型构建保留语义结构的文本原型,在异构联邦学习中显著提升性能并加速收敛。
研究背景与动机¶
联邦原型学习(FedPL)是处理联邦学习中数据异质性的有效策略,核心思想是让客户端协同构建全局原型,并让本地特征与之对齐。现有方法(如AlignFed、FedTGP)通常追求最大化原型间的类间距离以增强判别性,但这种做法存在一个被忽视的问题:在增大类间距离的同时,不可避免地破坏了类之间的语义关系。
例如,"马"和"狗"属于语义相近的动物类别,它们的原型距离应当小于"马"和"卡车"之间的距离。但均匀分布在超球面上的原型无法保留这种层次化的语义结构。作者通过Spearman相关系数和语义间隔(semantic gap)两个定量指标验证了这一发现。
直接从有限且异质的客户端数据中学习语义关系是困难的。然而,预训练语言模型(PLM)如BERT在大规模文本语料上已经捕获了丰富的语义关系。这启发了本文的核心idea:能否将文本语义知识注入联邦学习的原型中,使其在异质数据下也能保留类间关系?
方法详解¶
整体框架¶
FedTSP 要解决的是:联邦原型学习里大家都在拼命拉大原型间距以提升判别性,却把"马和狗比马和卡车更近"这种类间语义结构给抹平了。它的破局点是不再从客户端数据里硬学原型,而是从一个外部"语义老师"——预训练语言模型(PLM)——里把现成的语义结构搬过来。整条流水线是:先让 LLM 为每个类别写多条文本描述,再用 PLM(BERT 或 CLIP 文本塔)把描述编码成带语义结构的文本原型;这些原型语义对了但和图像不在一个空间,于是在服务器端用一段可训练 Prompt 把文本原型校准到聚合后的图像原型上;最后客户端不用 L2 而是用对比损失,让本地特征去对齐这套保留了语义关系的文本原型,从而把语义结构传导进各自的个性化模型。整个过程每轮迭代:客户端上传图像原型 → 服务器对齐并下发文本原型 → 客户端对齐本地特征,往复直至收敛。
%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
A["类别名"] --> B["LLM 多视角描述<br/>每类 k=3 条细粒度描述"]
B --> C["PLM 编码<br/>描述 → 文本嵌入"]
C --> D["可训练 Prompt 对齐模态<br/>插入可训练向量 → PLM → 文本原型"]
E["客户端上传图像原型"] --> F["服务器聚合<br/>得全局图像原型"]
F -->|"InfoNCE 校准文本↔图像原型"| D
D --> G["下发对齐后的文本原型"]
G --> H["对比对齐<br/>客户端本地特征对齐文本原型"]
H -->|"下一轮"| E
关键设计¶
1. LLM 多视角描述:给类别一个有上下文的"语义身份证"
手工提示 "A photo of a {CLASS}" 在不同类之间只有类名一处不同,PLM 编码出来的原型几乎只反映词向量本身,语义上下文极薄,还会撞上歧义("apple" 到底是水果还是公司)。FedTSP 改用 LLM 为每个类别生成 \(k=3\) 条覆盖不同方面的细粒度描述,套进模板 "A photo of {CLASS}: {description}"。多条描述从外观、习性、所属类等角度补全语境,编码后的文本原型才真正带上了"这个类和哪些类相近"的信息,也顺手消解了单词歧义。
2. 可训练 Prompt 对齐模态:让没见过图像的 BERT 也能用
文本原型语义结构是对的,但 PLM(尤其 BERT)预训练时根本没碰过图像,文本特征和客户端图像特征处在两个不对齐的空间,直接拿来对齐会因模态鸿沟而失真。做法是在文本嵌入序列的前 \(m\) 个位置插入一组可训练的 embedding 向量替换原 token,在服务器端用 InfoNCE 损失把这段 prompt 学到能让文本原型贴合聚合后的图像原型:
其中 \(t_c\) 是类 \(c\) 的文本原型、\(p_c\) 是聚合的图像原型。这样既保住了 PLM 自带的语义结构,又把文本塔校准进了视觉空间——这也是为什么 BERT 虽无图文预训练,效果仍能逼近 CLIP。
3. 对比对齐而非 L2:高基线相似度下排序比绝对距离更可信
PLM 生成的原型之间基线相似度本来就高——实测即使最不相似的两个类相似度也有 \(0.73\),整套原型挤在超球面的一小块上。此时若用 L2 距离硬把本地特征拉向文本原型,会把"相似度 0.73 的不相关类"当成真的相似而误导模型。FedTSP 因此放弃绝对距离,改用对比学习损失,只在意类间相对相似度的排序:让本地特征对其真类原型的相似度排在所有类之上即可,由温度参数 \(\tau\) 调节对相对差异的敏感度。语义结构靠"谁该比谁更近"的相对关系传导,而不被虚高的绝对相似度带偏。
损失函数 / 训练策略¶
服务器端用 InfoNCE 损失更新可训练 prompt,对齐文本原型与聚合的图像原型;客户端则同时优化交叉熵分类损失和对比对齐损失(温度 \(\tau\) 控制对相对相似度的敏感度)。针对类名可能泄露隐私的场景,作者还给出差分隐私扩展:对文本嵌入注入高斯噪声以满足 \((\epsilon,\delta)\)-DP 保证,实验显示 \(\epsilon \geq 1\) 时性能几乎无损。
实验关键数据¶
主实验¶
| 数据集 | 指标 | FedTSP-BERT | 之前SOTA | 提升 |
|---|---|---|---|---|
| CIFAR-10 (α=0.1) | Acc | 87.52% | 86.80% (FedKD) | +0.72% |
| CIFAR-100 (α=0.1) | Acc | 46.08% | 42.82% (FedMRL) | +3.26% |
| TinyImageNet (α=0.1) | Acc | 34.82% (CLIP) | 32.79% (FedKD) | +2.03% |
消融实验¶
| 配置 | 关键指标 | 说明 |
|---|---|---|
| 对比学习 vs L2对齐 | +2-3% | 对比学习更适合处理高基线相似度 |
| LLM描述 vs 手工模板 | +1-2% | 细粒度描述提供更丰富的语义上下文 |
| CLIP vs BERT | 接近 | BERT虽无图像预训练,但通过可训练prompt可弥合 |
关键发现¶
- FedTSP在强异质性(α=0.1)下提升更显著,说明文本原型对异质数据更鲁棒
- FedTSP-BERT在Top-5准确率上提升更大,说明语义关系有效:即使分类错误,也倾向于放在语义相近的类中
- 隐私保护版本在ε≥1时性能几乎不受影响
亮点与洞察¶
- 首次将PLM/LLM的语义知识引入联邦原型学习,视角新颖
- 发现并量化了现有方法破坏语义关系的问题
- FedTSP兼容CLIP和BERT等不同PLM,且不依赖CLIP的视觉-语言对齐
- 可同时处理数据异质性和模型异质性
局限与展望¶
- 服务器需要部署PLM,增加了服务器端的计算成本
- LLM生成描述的质量依赖于类别名称的明确性
- 未探索更大规模数据集(如ImageNet)和更多样的PLM架构
- 隐私保护扩展仅考虑了类名隐私,未覆盖更广泛的隐私场景
相关工作与启发¶
- vs FedProto/FedTGP: 这些方法从客户端数据聚合原型或最大化类间距离,破坏了语义关系;FedTSP从文本模态构建原型,天然保留语义结构
- vs CLIP-based FL: CLIP-based方法旨在增强CLIP本身,FedTSP则将语义知识转移给轻量级客户端模型,不依赖CLIP
- vs FedETF/FedNH: 使用固定的ETF/均匀分布分类器作为原型,无法编码语义关系
评分¶
- 新颖性: ⭐⭐⭐⭐ 首次将PLM语义知识引入联邦原型学习,视角独特
- 实验充分度: ⭐⭐⭐⭐ 多数据集、多异质性设置、多PLM、消融实验完整
- 写作质量: ⭐⭐⭐⭐ 动机清晰,可视化直观,语义对齐和间隔指标设计精巧
- 价值: ⭐⭐⭐⭐ 为联邦学习提供了利用语言模型语义知识的新范式