Decoupled Training with Local Reinforcement Fine-Tuning in Federated Learning¶

会议: ICML 2026
arXiv: 2605.27900
代码: 待确认
领域: 联邦学习 / 视觉-语言模型 / 强化学习微调
关键词: 联邦学习, CLIP, LoRA, GRPO, 解耦训练

一句话总结¶

FedDTL 把 CLIP 的图像编码器留在客户端、文本编码器搬到服务器做"全局语义锚"，再用 SFT 暖启 + GRPO 风格 RL 的两阶段本地微调，在异构和 full-data 联邦场景下同时缓解客户端间优化不一致与客户端内过拟合。

研究背景与动机¶

领域现状：联邦学习里把 CLIP 等预训练 VLM 引入下游任务已成主流，通常冻结 backbone，只在客户端做 prompt / adapter / LoRA 等 PEFT，然后服务器做参数平均聚合。

现有痛点：在 Non-IID 和 full-data 条件下，长轨迹的纯本地优化会同时产生两个问题：(i) 客户端间优化不一致——每个客户端的本地目标错位、梯度方向不同，参数平均后得不到一个连贯的全局语义；(ii) 客户端内过度专门化——本地 PEFT 参数被偏置的标签频率和特征统计"吃进去"，对未见类/未见域的泛化变差。

核心矛盾：现有方法基本都是"纯本地优化 + 服务器平均"+ 附加正则/对齐损失，依然依赖参数平均做跨客户端知识传递，无法系统性解决表征层面的 client drift；同时绝大多数评测只在 few-shot 下做，掩盖了 full-data 场景下两个问题被放大的真实情况。

本文目标：在 few-shot 与 full-data、label skew 与 feature shift 多种联邦数据分布下，同时改善全局任务适应（base 类）和泛化能力（novel 类）。

切入角度：作者发现 CLIP 自身的"模态解耦+对齐"和"服务器-客户端广播"在结构上高度同构——图像必须在客户端处理以保护隐私，但文本编码器只吃类别名，天然适合搬到服务器；同时 Chu et al. (2025) 的结论"SFT 倾向记忆、RL 更利泛化"提示 RL 可以替代附加正则。

核心 idea：编码器跨端解耦 + SFT→RL 两阶段本地微调——服务器训文本编码器提供统一的语义"锚"，客户端只在视觉端 LoRA 微调，本地训练先 SFT 暖启再切到 GRPO 风格 RL 抑制过度专门化。

方法详解¶

整体框架¶

设有 \(K\) 个客户端和一个中心服务器，每个客户端 \(k\) 持有私有数据 \(\mathcal{D}_k=\{(x_i,y_i)\}_{i=1}^{N_k}\)。整个 pipeline 在每个全局轮 \(t\) 是这样走的：

下行广播：服务器把上一轮的全局视觉 LoRA 参数 \(\Delta\mathbf{W}_g^{t-1}\) 和全部类别的全局文本嵌入 \(\{\bar z_{\text{text}}^{c,t-1}\}_{c=1}^{C}\) 发给每个客户端；
客户端本地微调：客户端用 LoRA-tuned 图像编码器 \(\mathcal{V}_k\) 把本地图像编码成 \(\bar z_v\)，跟收到的全局文本嵌入算 cosine + softmax 做分类；前 \(M\) 轮走 SFT 阶段（cross-entropy 暖启），之后切到 RL 阶段；
上行通信：客户端只上传本地视觉 LoRA 参数 \(\Delta\mathbf{W}_k\) 和经过归一化的图像类别嵌入 \(\bar z_{v,k}\)（仅 class token，不传 patch token，全 full-data 还可只随机采样子集）；
服务器聚合 + 全局训练：服务器对所有客户端的视觉 LoRA 做样本量加权平均，再用客户端上传的图像嵌入作为监督，在服务器侧训练全局文本编码器 \(\mathcal{T}_g\)（也是 LoRA），完成一个全局轮。

整套结构靠"客户端视觉解耦 + 服务器文本统一"+ "本地两阶段微调"两条腿，目标是在不增加额外正则的前提下同时压住 inter-client 不一致和 intra-client 过拟合。

关键设计¶

解耦编码器训练（Decoupled Encoder Training）:
- 功能：把 CLIP 的双塔结构按"谁碰原始图像/谁只碰类别名"切开——图像编码器留在客户端保护隐私，文本编码器搬到服务器做全局语义对齐。
- 核心思路：客户端只用 LoRA 微调图像编码器最后 \(L-l\) 层（\(W=W_0+BA\)，\(r\ll d\)），用 \(p(\hat y=c|x)=\frac{\exp(\text{sim}(\bar z_v,\bar z_{\text{text}}^c)/\tau)}{\sum_j\exp(\text{sim}(\bar z_v,\bar z_{\text{text}}^j)/\tau)}\) 与服务器广播的全局文本嵌入对齐；服务器收到所有客户端上传的图像 class-token 嵌入后，用 cross-entropy 训文本编码器的 LoRA \(\Delta\mathbf{W}_{\text{text}}\)，把"a photo of a [classname]"映射到与全局视觉空间对齐的统一文本嵌入。
- 设计动机：跟"客户端全本地训 + 服务器只做参数平均"相比，全局文本编码器扮演不依赖任何具体客户端样本分布的语义"锚"，强制所有客户端的视觉表征往一个统一坐标系收敛，从根上压制 representation-level client drift；同时上传的是高度压缩的 class-token 嵌入，进一步减少隐私泄露面与通信带宽。
SFT 暖启的本地任务适应阶段:
- 功能：在 RL 之前先用监督学习把图像编码器快速拉到一个稳定的任务相关初值，避免 RL 一上来就在欠拟合状态下做策略采样。
- 核心思路：客户端用前 \(M\) 个全局轮跑标准 cross-entropy \(\mathcal{L}_{ce}=-\frac{1}{N_k}\sum_{(x_i,y_i)}\sum_c y_i\log p(\hat y=c|x_i)\)，目标是 \(\min_{\Delta\mathbf{W}_k}\mathcal{L}_{ce}([\mathbf{W}_0,\Delta\mathbf{W}_k];\{\bar z_{\text{text}}^c\},\mathcal{D}_k)\)，每轮做 \(T_e=2\) 个本地 epoch。
- 设计动机：纯 RL 在分类微调场景样本效率太低，而纯 SFT 长轨迹下又会被本地标签/特征分布"喂偏"；先 SFT 暖启再 RL 是把"快速适应"和"防过拟合"切成两阶段串联，分别交给最擅长的优化范式。
GRPO 启发的 RL 泛化增强阶段:
- 功能：用强化学习取代附加正则，在长轨迹本地训练中主动抑制 intra-client over-specialization。
- 核心思路：把 SFT 收敛后的图像编码器当作策略 \(\pi_{\theta_k}\)（logits 直接当类别分布），由于 CLIP 风格编码器对同一图像输出是确定的，作者在 latent 嵌入上注入 \(\varepsilon\sim\mathcal{N}(0,\sigma^2 I)\) 的小高斯噪声制造可控随机性，对每张图采 \(G=3\) 个动作；用"分类是否正确"作 0/1 奖励，组内归一化得相对优势 \(A_{i,j}=(r_{i,j}-\text{mean}_j r_{i,j})/\text{std}_j r_{i,j}\)；然后做 GRPO 的 \(\epsilon\)-clip 策略梯度 \(\mathcal{L}_p=\min[\rho_{i,j}A_{i,j},\text{clip}(\rho_{i,j},1-\epsilon,1+\epsilon)A_{i,j}]\)，并对一个 hybrid 参考模型（最终 SFT 模型与最新全局策略各 0.5 加权）做 unbiased KL 估计 \(\mathbb{D}_{\text{KL}}\) 防止过度漂移；最终 RL 目标 \(\mathcal{L}_{rl}=-\frac{1}{G}\sum_j\frac{1}{bs}\sum_i(\mathcal{L}_p-\beta\mathbb{D}_{\text{KL}})\)，\(\beta=0.5\)。
- 设计动机：和把 GRPO 直接搬过来不同，作者必须解决"编码器输出确定 → 同组样本相同 → 优势为 0"的失效问题，解法是只在采样时注噪、策略更新时仍用确定模型，既保留 GRPO 的组内相对优化又保住训练稳定性；hybrid 参考模型则把 SFT 锚和最新策略锚等权混合，给 KL 一个"任务感知"的方向，比单一参考模型更不容易把策略拉死或放飞。

损失函数 / 训练策略¶

关键超参：ViT-B/16 backbone，LoRA rank \(r=4\) 从第 \(l=10\) 层插入；Adam，\(\eta=1e-3\)，batch=64；\(T=20\) 全局轮，每轮本地 \(T_e=2\) (SFT) / \(3\) (RL) epoch，\(K=5\) 客户端；RL 阶段 \(\sigma=0.1\)、\(G=3\)、\(\epsilon=0.2\)、\(\beta=0.5\)。客户端只上传 class-token 嵌入；full-data 下可只采样子集进一步降通信。

实验关键数据¶

主实验¶

9 个 label skew 基准（CIFAR10/100, EuroSAT, TinyImageNet, OxfordPet, Flower102, Caltech101/256, Food101）的平均准确率，重点看 base（全局任务适应）和 novel（泛化）两列：

设定	方法	Base	Novel
Few-shot Non-IID	FedMaPLe	83.63	77.56
Few-shot Non-IID	FedDTL	89.58	83.01
Few-shot Dir(0.1)	FedMaPLe	84.05	77.69
Few-shot Dir(0.1)	FedDTL	90.95	82.64
Full-data Non-IID	FedMaPLe	80.56	69.41
Full-data Non-IID	FedDTL	91.64	77.72
Full-data Dir(0.1)	FedMaPLe	89.27	70.10
Full-data Dir(0.1)	FedDTL	92.40	76.59

Feature shift（DomainNet，Full-one / Full-Dir(0.1)）：FedDTL 拿到 93.38 / 93.47，FedMaPLe 91.94 / 90.51。

消融实验¶

7 个数据集均值，看 base / novel / harmonic mean (HM)：

配置	Few_Non-IID Base / Novel / HM	Full_Non-IID Base / Novel / HM
FedLoRA（裸基线）	78.32 / 78.86 / 78.56	58.11 / 70.51 / 63.12
+ 解耦编码器训练	86.42 / 79.52 / 82.60	86.68 / 73.57 / 79.20
+ 两阶段本地微调	79.46 / 83.84 / 81.47	47.91 / 76.43 / 57.86
FedDTL（两者都有）	90.06 / 83.58 / 86.51	90.58 / 80.62 / ≈85

关键发现¶

解耦编码器单独加上，base 准确率在 Full_Non-IID 下从 58 拉到 87（+28），说明 inter-client 不一致主要被这个模块吃掉；但 novel 涨幅有限，仍需要 RL。
两阶段微调单独加上反而把 Full_Non-IID 的 base 砸到 47.91，说明"没有全局语义锚"时纯 RL 在异构数据下不稳；必须配合解耦编码器才能既保 base 又涨 novel。
多个 baseline 从 few-shot 迁到 full-data 时 novel 大幅掉点（典型如 pFedMMA 在 Dir(0.1) 下 novel 从 74.91 掉到 65.56），FedDTL 在所有 4 种 Dirichlet/Non-IID 设置下波动很小，体现两阶段设计真正在抑制长轨迹过拟合。

亮点与洞察¶

把 CLIP 模态解耦类比 FL 服务器-客户端广播——这是整个工作的"哲学钩子"：图像必须留在本地（隐私）+ 文本只吃类别名（可全局），与 FL 的物理约束天然对齐，几乎不需要新组件就把"全局语义锚"做出来。
用 RL 替代正则做 FL 抗过拟合，并不是直接套 GRPO——必须解决"确定性编码器导致组内优势失效"的工程问题，作者用"采样时注噪、更新时确定 + hybrid 参考模型"的组合拿到了一个能跑稳的 GRPO 变体，这个 trick 可以迁移到任何分类头当策略的视觉 RL 场景。
强调 full-data 评测的诊断价值：以前 federated VLM 工作大多只报 few-shot，full-data 才是真正暴露 inter-client 不一致和 intra-client 过拟合复合效应的环境，本文同时报两套结果让 baseline 的脆弱性显形。

局限与展望¶

作者承认通信成本随类别数 \(C\) 线性增长（每轮要传 \(C\) 个全局文本嵌入），虽然客户端上传可以采样子集，但全局广播没给出压缩方案。
实验全部基于 CLIP ViT-B/16，没验证更大 backbone（ViT-L、Eva-CLIP）下解耦编码器是否还能压住 client drift；同时 LoRA rank \(r=4\)、起插层 \(l=10\) 的固定选择跟 backbone 强耦合。
RL 阶段需要再多 \(G\) 倍前向（\(G=3\)），客户端算力压力比纯 SFT 大不少，对算力极受限的边缘 FL 场景未必划算；hybrid 参考模型的 0.5/0.5 等权也是经验值，没给敏感性分析。
隐私分析停留在"只上传 class-token 嵌入 + 类别名"的定性论述，没做正式的 DP 保证或针对嵌入反演攻击的实测。

评分¶

新颖性: ⭐⭐⭐⭐ "CLIP 模态解耦类比 FL 广播"的结构对位很漂亮，GRPO 在确定性编码器上的注噪适配也是实打实的新解法。
实验充分度: ⭐⭐⭐⭐ 9 个 label-skew + 2 个 feature-shift 数据集 × 5 种数据分布 × few-shot/full-data，覆盖面到位；消融能精确归因到两个核心模块。
写作质量: ⭐⭐⭐⭐ 动机链"inter-client 不一致 + intra-client 过拟合"两条线讲得清楚；公式编号到位，但 RL 阶段的实现细节比较密集，没读过 GRPO 的读者会有点门槛。
价值: ⭐⭐⭐⭐ Federated VLM 在 full-data 异构场景下的稳定性是真痛点；解耦编码器 + 两阶段微调的组合可直接被后续 FL+RL 工作借鉴。