Fine-Tuning Impairs the Balancedness of Foundation Models in Long-tailed Personalized Federated Learning¶

会议: CVPR 2026
arXiv: 2605.02247
代码: https://github.com/shihaohou/FedPuReL (有)
领域: 联邦学习 / 长尾学习 / 参数高效微调
关键词: 个性化联邦学习, 长尾分布, CLIP, 梯度净化, 残差学习

一句话总结¶

本文先实证揭示「在长尾联邦场景里微调 CLIP 会破坏其天生的类别均衡性、甚至跌破 zero-shot」，再提出 FedPuReL：用 zero-shot 预测把本地梯度「净化」成不破坏均衡的方向来训一个均衡的全局模型，并把个性化重构成冻结全局模型之上的「残差修正」，从而在 8 个长尾数据集上的全局模型和个性化模型都超过现有 SOTA。

研究背景与动机¶

领域现状：基于基础模型（CLIP）的个性化联邦学习（PFL）正成为主流——客户端用参数高效微调（PEFT，如 prompt / LoRA / adapter）只更新少量参数，服务器聚合「全局可训练参数」做共享、再叠加「本地可训练参数」做个性化，既省通信又能适配各客户端的异构数据。

现有痛点：现实里数据往往同时是 non-IID 和长尾的（federated long-tailed, Fed-LT）：稀少的尾类样本零散分布在各客户端。作者实证发现两个被忽视的问题——(i) 直接微调会侵蚀基础模型自带的类别均衡知识，在严重长尾下全局模型的均衡性甚至低于原始 zero-shot 模型；(ii) 现有个性化技术通过「参数级 / 特征级融合」把这种偏置进一步传染给本地模型，让个性化模型也跟着偏向头类。即便用利用类别先验的 Logit Adjustment 也救不回 zero-shot 的均衡性。

核心矛盾：微调存在一个根本权衡——任务适配 vs 保留 zero-shot 的均衡知识。CLIP 在大规模多样数据上预训练得到了跨类的均衡，但适配到不均衡的下游分布时，这种均衡随训练轮次逐步瓦解，且头类被不对称地放大、尾类被牺牲。

本文目标：拆成两个子问题——I) 均衡性：怎样在 Fed-LT 里利用而非丢失基础模型的均衡知识，学到更均衡的全局模型？II) 个性化：怎样让客户端个性化不继承全局偏置？

切入角度：作者用两个量化指标刻画微调动态（见下文 TKL 与 Balancedness），观察到「预测越偏离 zero-shot、均衡性越差」呈强负相关，且头类精度升、尾类精度降。既然 zero-shot 预测本身是均衡的锚点，那就拿它来约束训练。

核心 idea：用 zero-shot 预测净化本地梯度（投影掉会破坏均衡的分量）维持一个均衡的全局模型，再把个性化建模成冻结全局模型之上的加性残差修正，把个性化与全局参数解耦。

方法详解¶

整体框架¶

FedPuReL 分两个阶段。阶段一·全局均衡训练：各客户端训练共享 PEFT 参数 \(\boldsymbol{\phi}_g\)，训练时用 zero-shot 预测做「温度对齐」后算出一个对齐梯度 \(\mathbf{g}_{\text{align}}\)，把任务梯度 \(\mathbf{g}_{\text{task}}\) 中与之冲突的分量投影掉，得到「净化后的梯度」再更新——保证每一步更新都不偏离均衡锚点；服务器按样本量加权聚合这些共享参数。阶段二·个性化残差学习：冻结训好的全局参数 \(\boldsymbol{\phi}_g\)，每个客户端再学一组私有参数 \(\boldsymbol{\phi}_k\)，通过「全局分支 + 个性化分支」双路加性融合，让个性化只承担「相对全局的偏差修正」，不动全局的均衡表示。推理时全局模型只走全局分支，个性化模型把两分支 logits 相加。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["输入：客户端图像<br/>+ CLIP 文本提示"] --> B["温度对齐 KL (TKL)<br/>隔离结构性类别偏置"]
    B --> C["梯度净化<br/>投影掉破坏均衡的分量"]
    C --> D["服务器加权聚合<br/>→ 均衡全局模型 φg"]
    D -->|冻结 φg| E["个性化残差学习<br/>双分支加性融合"]
    E --> F["输出：均衡全局模型<br/>+ 无偏个性化模型"]

关键设计¶

1. 温度对齐 KL 散度（TKL）：把「结构性偏置」从「置信度提升」里剥离出来

直接用标准 KL 衡量微调后预测与 zero-shot 的差异有个陷阱：微调即使在均衡数据上也会让预测分布移动，但这种移动是「置信度变高」（良性）而非「类别偏置」（恶性），标准 KL 把两者混在一起，无法专门盯住偏置。TKL 的做法是先把两个分布对齐到同一个目标熵再比较，从而中和掉置信度差异。具体地，定义温度 softmax \(\sigma_\tau(\mathbf{a})=\mathrm{softmax}(\mathbf{a}/\tau)\) 和熵 \(H(\mathbf{p})=-\sum_c p_c\log p_c\)，取目标熵 \(H^\star=\tfrac12[H(\sigma_1(\mathbf{l}))+H(\sigma_1(\mathbf{z}))]\)，分别为微调 logits \(\mathbf{l}\) 和 zero-shot logits \(\mathbf{z}\) 反解出让其熵等于 \(H^\star\) 的对齐温度 \(\tau_a=H_a^{-1}(H^\star)\)，再在对齐后的分布上算 KL：\(\mathrm{TKL}(\mathbf{x})=D_{\mathrm{KL}}(\sigma_{\tau_f}(\mathbf{f})\,\|\,\sigma_{\tau_z}(\mathbf{z}))\)。这样剩下的差异就只反映跨类的结构性偏置。正是用 TKL 才观察到「TKL 散度↑ ⇔ 均衡性↓」的强负相关，为后续净化提供了可靠的「偏离均衡」信号

2. 梯度净化：让每一步更新都不破坏 zero-shot 的均衡知识

有了 TKL，作者把「保持与 zero-shot 对齐」写成对齐损失 \(\mathcal{L}_{\text{align}}=D_{\text{TKL}}(\sigma_{\tau_{zs}}(\mathbf{z})\,\|\,\sigma_{\tau_{ft}}(\mathbf{f}))\)，其梯度 \(\mathbf{g}_{\text{align}}=\nabla_{\boldsymbol{\phi}_g}\mathcal{L}_{\text{align}}\) 指向「保留均衡知识」的方向。痛点是普通的任务梯度 \(\mathbf{g}_{\text{task}}\)（交叉熵）常常与之冲突，硬更新就会把模型推离预训练锚点。净化的做法是检测冲突并投影：

\[\tilde{\mathbf{g}}_{\text{task}}=\begin{cases}\mathbf{g}_{\text{task}}, & \langle\mathbf{g}_{\text{task}},\mathbf{g}_{\text{align}}\rangle\ge 0\\[4pt] \mathbf{g}_{\text{task}}-\dfrac{\langle\mathbf{g}_{\text{task}},\mathbf{g}_{\text{align}}\rangle}{\|\mathbf{g}_{\text{align}}\|^2}\mathbf{g}_{\text{align}}, & \text{otherwise}\end{cases}\]

即当任务梯度与对齐梯度夹角为钝角（内积为负、二者在「拉扯」）时，把任务梯度里反对齐的分量减掉，只保留与均衡兼容的部分；不冲突时原样保留。作者还做了梯度动态分析：基线方法的两个梯度收敛到约 90°（高维随机向量天然近似正交），意味着任务优化完全无视 zero-shot 对齐、因而均衡退化；FedPuReL 则持续维持钝角，说明原始任务梯度确实在主动对抗均衡保持，而净化正好把这些冲突分量切掉。客户端用净化后的梯度本地更新，服务器再按 \(\boldsymbol{\phi}_g^{(t+1)}\leftarrow\sum_{k\in\mathcal{S}_t}\frac{n_k}{\sum_j n_j}\boldsymbol{\phi}_g^{k,(t)}\) 加权聚合，得到均衡又适配任务的全局模型

3. 残差个性化：把个性化变成冻结全局之上的「加性修正」，不继承全局偏置

现有个性化在特征级 / 参数级融合全局与本地信息，问题是融合会把全局的类别偏置直接搬进本地模型。本文换个思路：先冻结训好的全局参数 \(\boldsymbol{\phi}_g\) 当作不可变锚点，个性化只学一个加性残差。双分支结构里，全局分支给基线预测 \(\mathbf{l}_G(\mathbf{x})=f(\mathbf{x};\boldsymbol{W},\boldsymbol{\phi}_g)\)，个性化分支用客户端私有参数 \(\boldsymbol{\phi}_k\) 给 \(\mathbf{l}_P^k(\mathbf{x})=f(\mathbf{x};\boldsymbol{W},\boldsymbol{\phi}_k)\)，最终预测在 logit 空间相加 \(\mathbf{l}_{\text{final}}^k=\mathbf{l}_G+\mathbf{l}_P^k\)。由于梯度只流经 \(\boldsymbol{\phi}_k\)、全局分支全程冻结，全局的均衡表示被完整保护下来；个性化分支只需捕捉「客户端相对全局的偏差」。这样个性化是「站在巨人肩上」——即便本地过拟合或分布漂移，冻结的全局分支也提供稳定锚点避免严重退化。附录的分支贡献分析印证了这个设计：从头类到尾类，个性化分支贡献递增、全局分支贡献递减，但即使尾类里个性化占主导，全局分支仍维持 20–25% 的贡献

损失函数 / 训练策略¶

个性化阶段优化复合损失：融合损失 \(\mathcal{L}_{\text{fusion}}^k=\mathrm{CE}(y,\sigma(\mathbf{f}_G+\mathbf{f}_P^k))\) 优化两分支合并后的预测以保稳定，个性化损失 \(\mathcal{L}_{\text{personal}}^k=\mathrm{CE}(y,\sigma(\mathbf{f}_P^k))\) 驱动私有参数专门化捕捉本地模式，总损失 \(\mathcal{L}_{\text{total}}^k=(1-\lambda)\mathcal{L}_{\text{fusion}}^k+\lambda\mathcal{L}_{\text{personal}}^k\)，\(\lambda\) 控制权衡。实现上 backbone 用 CLIP ViT-B/16，prompt 长度 4 / LoRA rank 8，20 个客户端、Dirichlet \(\alpha=1\)、IF=100、100 轮通信、每轮随机选 40% 客户端、SGD 优化；默认 \(\lambda=0.9\)。

实验关键数据¶

主实验¶

ImageNet-LT 与 Places-LT 上，对 Prompt / LoRA / Adapter 三类 PEFT 基线（含叠加专门治长尾的 Fed-GraB），FedPuReL 在全局模型（GM）和个性化模型（PM）的总精度与尾类（Few）精度上都领先。以下取 Prompt-based 一组（GM/All 与 Few）：

数据集	模型	指标	Zero-shot	PromptFolio	+Fed-GraB	FedPuReL	提升
ImageNet-LT	GM	All	67.05	69.64	69.53	72.96	↑3.32
ImageNet-LT	GM	Few	66.65	47.02	52.83	66.70	↑8.34
ImageNet-LT	PM	All	66.68	67.65	68.14	70.12	↑1.98
ImageNet-LT	PM	Few	65.97	45.99	52.11	66.62	↑7.80
Places-LT	GM	All	35.55	40.55	41.99	43.88	↑1.89
Places-LT	GM	Few	40.31	31.58	30.82	39.06	↑7.48

最值得注意的现象：现有方法在头类（Many）涨点但尾类（Few）相比 zero-shot 大幅崩塌（PromptFolio 的 Few 从 66.65 跌到 47.02），FedPuReL 几乎守住了 zero-shot 的尾类精度（66.70），这正是「保留均衡知识」的直接体现。LoRA-based 一组在 ImageNet-LT PM/All 上 FedPuReL 达 70.55，比次优 +4.48。

CIFAR-100-LT 跨异构程度（Dirichlet \(\alpha\)）的鲁棒性（Prompt-based，GM/PM）：

\(\alpha\)	Zero-shot GM	PromptFolio+Fed-GraB GM	FedPuReL GM	FedPuReL PM	GM 提升
0.1	64.82	64.97	68.88	77.72	↑3.91
0.5	64.82	65.43	69.05	74.97	↑3.62
1	64.82	65.14	69.77	73.37	↑4.63
5	64.82	66.23	70.54	73.71	↑4.31

跨所有异构程度都稳定领先，作者归因于梯度净化把本地更新锚在 zero-shot 上、防止异构本地分布导致的发散。

消融实验¶

TKL vs 标准 KL（CIFAR-100-LT，把净化模块里的 TKL 换成普通 KL）：

度量	GM 精度	PM 精度	GM 均衡性	PM 均衡性
KL	67.92	71.62	25.03	27.84
TKL (ours)	69.77	73.37	27.87	30.02

TKL 在精度和均衡性两个维度、全局与个性化两种设置上都优于标准 KL，证明「温度对齐隔离结构性偏置」对净化是必要的。

关键发现¶

尾类是主战场：FedPuReL 的增益主要来自尾类（Few 提升常达 7–11 点），头类（Many）有时甚至略降（如 ImageNet-LT GM Many ↓2.94），说明它本质是在「把被微调牺牲掉的尾类知识找回来」，而非全面碾压。
\(\lambda\) 的作用分群：\(\lambda\) 越大（越偏个性化分支）对尾类越有利，\(\lambda=0.9\) 取得最佳总精度与尾类精度；头类对 \(\lambda\) 不敏感，因为它主要靠稳健的全局分支。
分支互补：从头类到尾类，个性化分支贡献递增、全局分支递减，但尾类里全局分支仍维持 20–25% 贡献，验证「全局供均衡、个性化补稀缺」的设计意图。
收敛更稳：相比 prompt-based SOTA 的剧烈波动，FedPuReL 在总精度和尾类精度上全程平稳，因为净化阻止了模型漂离均衡锚点。

亮点与洞察¶

诊断先行、对症下药：先用 TKL + Balancedness 两个指标把「微调破坏均衡」这一现象量化、可视化（强负相关 + 头类放大），再据此设计方法，使「为什么这么做」非常扎实，是实证驱动方法论的好范例。
TKL 的「温度对齐」很巧：用反解温度把两个分布拉到同一目标熵，从而把「良性置信度提升」和「恶性类别偏置」分开——这个剥离技巧可迁移到任何「想衡量分布结构变化但不想被整体 sharpness 干扰」的场景（蒸馏、校准、OOD 检测）。
梯度净化是 PCGrad 思想在「均衡保持」上的复用：把多任务里「冲突梯度投影」的机制借来做「任务 vs 锚点」的冲突消解，且配上「高维向量近正交 → 基线退化」的解释，让 method 既直观又有理论味。
残差个性化解耦得干净：个性化在 logit 空间做加性修正、全局分支冻结，天然防止偏置传染，也给「灾难性本地过拟合」上了保险；这个「冻结锚点 + 学残差」范式可直接套到其它 PFL / 持续学习任务。

局限与展望¶

方法强依赖「基础模型自身是均衡的」这一前提——TKL 把 zero-shot 当作均衡锚点，若 CLIP 本身对某些类别就有偏（实际 zero-shot 各类精度并非真的相等，论文表里 Many/Med/Few 也有差异），净化会把这种固有偏置一并「保护」下来。
全部实验在 CLIP ViT-B/16 + PEFT 上，未验证更换 backbone（纯视觉 / 更大模型）或全量微调时结论是否成立。
个性化阶段需要为每个客户端单独训练并保存私有参数 \(\boldsymbol{\phi}_k\)，客户端数量极大时的存储 / 调度开销正文未讨论；两阶段训练（全局 100 轮 + 个性化 \(T_p\) 轮）的额外通信 / 计算成本也缺少量化。
头类偶有掉点（如 ImageNet-LT GM Many ↓2.94），说明「保均衡」与「头类峰值精度」仍有轻微此消彼长，\(\lambda\) 需按场景调。

评分¶

新颖性: ⭐⭐⭐⭐ 「微调破坏基础模型均衡」的实证发现 + TKL 隔离偏置 + 梯度净化 + 残差个性化组合新颖，单个组件多有渊源但整合到 Fed-LT 很贴切
实验充分度: ⭐⭐⭐⭐⭐ 8 个长尾数据集、三类 PEFT、跨异构程度、TKL/λ/收敛/分支贡献等消融齐全
写作质量: ⭐⭐⭐⭐ 「先诊断再下药」叙事清晰、图表充分；TKL 的温度反解部分稍紧凑需对照公式
价值: ⭐⭐⭐⭐ 给「基础模型 + 联邦 + 长尾」这一现实组合提供了可直接复用的均衡保持范式，尾类增益显著