Decoupled Training with Local Reinforcement Fine-Tuning in Federated Learning¶
会议: ICML 2026
arXiv: 2605.27900
代码: 待确认
领域: 联邦学习 / 视觉-语言模型 / 强化学习微调
关键词: 联邦学习, CLIP, LoRA, GRPO, 解耦训练
一句话总结¶
FedDTL 把 CLIP 的图像编码器留在客户端、文本编码器搬到服务器做"全局语义锚",再用 SFT 暖启 + GRPO 风格 RL 的两阶段本地微调,在异构和 full-data 联邦场景下同时缓解客户端间优化不一致与客户端内过拟合。
研究背景与动机¶
领域现状:联邦学习里把 CLIP 等预训练 VLM 引入下游任务已成主流,通常冻结 backbone,只在客户端做 prompt / adapter / LoRA 等 PEFT,然后服务器做参数平均聚合。
现有痛点:在 Non-IID 和 full-data 条件下,长轨迹的纯本地优化会同时产生两个问题:(i) 客户端间优化不一致——每个客户端的本地目标错位、梯度方向不同,参数平均后得不到一个连贯的全局语义;(ii) 客户端内过度专门化——本地 PEFT 参数被偏置的标签频率和特征统计"吃进去",对未见类/未见域的泛化变差。
核心矛盾:现有方法基本都是"纯本地优化 + 服务器平均"+ 附加正则/对齐损失,依然依赖参数平均做跨客户端知识传递,无法系统性解决表征层面的 client drift;同时绝大多数评测只在 few-shot 下做,掩盖了 full-data 场景下两个问题被放大的真实情况。
本文目标:在 few-shot 与 full-data、label skew 与 feature shift 多种联邦数据分布下,同时改善全局任务适应(base 类)和泛化能力(novel 类)。
切入角度:作者发现 CLIP 自身的"模态解耦+对齐"和"服务器-客户端广播"在结构上高度同构——图像必须在客户端处理以保护隐私,但文本编码器只吃类别名,天然适合搬到服务器;同时 Chu et al. (2025) 的结论"SFT 倾向记忆、RL 更利泛化"提示 RL 可以替代附加正则。
核心 idea:编码器跨端解耦 + SFT→RL 两阶段本地微调——服务器训文本编码器提供统一的语义"锚",客户端只在视觉端 LoRA 微调,本地训练先 SFT 暖启再切到 GRPO 风格 RL 抑制过度专门化。
方法详解¶
整体框架¶
设有 \(K\) 个客户端和一个中心服务器,每个客户端 \(k\) 持有私有数据 \(\mathcal{D}_k=\{(x_i,y_i)\}_{i=1}^{N_k}\)。整个 pipeline 在每个全局轮 \(t\) 是这样走的:
- 下行广播:服务器把上一轮的全局视觉 LoRA 参数 \(\Delta\mathbf{W}_g^{t-1}\) 和全部类别的全局文本嵌入 \(\{\bar z_{\text{text}}^{c,t-1}\}_{c=1}^{C}\) 发给每个客户端;
- 客户端本地微调:客户端用 LoRA-tuned 图像编码器 \(\mathcal{V}_k\) 把本地图像编码成 \(\bar z_v\),跟收到的全局文本嵌入算 cosine + softmax 做分类;前 \(M\) 轮走 SFT 阶段(cross-entropy 暖启),之后切到 RL 阶段;
- 上行通信:客户端只上传本地视觉 LoRA 参数 \(\Delta\mathbf{W}_k\) 和经过归一化的图像类别嵌入 \(\bar z_{v,k}\)(仅 class token,不传 patch token,全 full-data 还可只随机采样子集);
- 服务器聚合 + 全局训练:服务器对所有客户端的视觉 LoRA 做样本量加权平均,再用客户端上传的图像嵌入作为监督,在服务器侧训练全局文本编码器 \(\mathcal{T}_g\)(也是 LoRA),完成一个全局轮。
整套结构靠"客户端视觉解耦 + 服务器文本统一"+ "本地两阶段微调"两条腿,目标是在不增加额外正则的前提下同时压住 inter-client 不一致和 intra-client 过拟合。
关键设计¶
-
解耦编码器训练(Decoupled Encoder Training):
- 功能:把 CLIP 的双塔结构按"谁碰原始图像/谁只碰类别名"切开——图像编码器留在客户端保护隐私,文本编码器搬到服务器做全局语义对齐。
- 核心思路:客户端只用 LoRA 微调图像编码器最后 \(L-l\) 层(\(W=W_0+BA\),\(r\ll d\)),用 \(p(\hat y=c|x)=\frac{\exp(\text{sim}(\bar z_v,\bar z_{\text{text}}^c)/\tau)}{\sum_j\exp(\text{sim}(\bar z_v,\bar z_{\text{text}}^j)/\tau)}\) 与服务器广播的全局文本嵌入对齐;服务器收到所有客户端上传的图像 class-token 嵌入后,用 cross-entropy 训文本编码器的 LoRA \(\Delta\mathbf{W}_{\text{text}}\),把"a photo of a [classname]"映射到与全局视觉空间对齐的统一文本嵌入。
- 设计动机:跟"客户端全本地训 + 服务器只做参数平均"相比,全局文本编码器扮演不依赖任何具体客户端样本分布的语义"锚",强制所有客户端的视觉表征往一个统一坐标系收敛,从根上压制 representation-level client drift;同时上传的是高度压缩的 class-token 嵌入,进一步减少隐私泄露面与通信带宽。
-
SFT 暖启的本地任务适应阶段:
- 功能:在 RL 之前先用监督学习把图像编码器快速拉到一个稳定的任务相关初值,避免 RL 一上来就在欠拟合状态下做策略采样。
- 核心思路:客户端用前 \(M\) 个全局轮跑标准 cross-entropy \(\mathcal{L}_{ce}=-\frac{1}{N_k}\sum_{(x_i,y_i)}\sum_c y_i\log p(\hat y=c|x_i)\),目标是 \(\min_{\Delta\mathbf{W}_k}\mathcal{L}_{ce}([\mathbf{W}_0,\Delta\mathbf{W}_k];\{\bar z_{\text{text}}^c\},\mathcal{D}_k)\),每轮做 \(T_e=2\) 个本地 epoch。
- 设计动机:纯 RL 在分类微调场景样本效率太低,而纯 SFT 长轨迹下又会被本地标签/特征分布"喂偏";先 SFT 暖启再 RL 是把"快速适应"和"防过拟合"切成两阶段串联,分别交给最擅长的优化范式。
-
GRPO 启发的 RL 泛化增强阶段:
- 功能:用强化学习取代附加正则,在长轨迹本地训练中主动抑制 intra-client over-specialization。
- 核心思路:把 SFT 收敛后的图像编码器当作策略 \(\pi_{\theta_k}\)(logits 直接当类别分布),由于 CLIP 风格编码器对同一图像输出是确定的,作者在 latent 嵌入上注入 \(\varepsilon\sim\mathcal{N}(0,\sigma^2 I)\) 的小高斯噪声制造可控随机性,对每张图采 \(G=3\) 个动作;用"分类是否正确"作 0/1 奖励,组内归一化得相对优势 \(A_{i,j}=(r_{i,j}-\text{mean}_j r_{i,j})/\text{std}_j r_{i,j}\);然后做 GRPO 的 \(\epsilon\)-clip 策略梯度 \(\mathcal{L}_p=\min[\rho_{i,j}A_{i,j},\text{clip}(\rho_{i,j},1-\epsilon,1+\epsilon)A_{i,j}]\),并对一个 hybrid 参考模型(最终 SFT 模型与最新全局策略各 0.5 加权)做 unbiased KL 估计 \(\mathbb{D}_{\text{KL}}\) 防止过度漂移;最终 RL 目标 \(\mathcal{L}_{rl}=-\frac{1}{G}\sum_j\frac{1}{bs}\sum_i(\mathcal{L}_p-\beta\mathbb{D}_{\text{KL}})\),\(\beta=0.5\)。
- 设计动机:和把 GRPO 直接搬过来不同,作者必须解决"编码器输出确定 → 同组样本相同 → 优势为 0"的失效问题,解法是只在采样时注噪、策略更新时仍用确定模型,既保留 GRPO 的组内相对优化又保住训练稳定性;hybrid 参考模型则把 SFT 锚和最新策略锚等权混合,给 KL 一个"任务感知"的方向,比单一参考模型更不容易把策略拉死或放飞。
损失函数 / 训练策略¶
关键超参:ViT-B/16 backbone,LoRA rank \(r=4\) 从第 \(l=10\) 层插入;Adam,\(\eta=1e-3\),batch=64;\(T=20\) 全局轮,每轮本地 \(T_e=2\) (SFT) / \(3\) (RL) epoch,\(K=5\) 客户端;RL 阶段 \(\sigma=0.1\)、\(G=3\)、\(\epsilon=0.2\)、\(\beta=0.5\)。客户端只上传 class-token 嵌入;full-data 下可只采样子集进一步降通信。
实验关键数据¶
主实验¶
9 个 label skew 基准(CIFAR10/100, EuroSAT, TinyImageNet, OxfordPet, Flower102, Caltech101/256, Food101)的平均准确率,重点看 base(全局任务适应)和 novel(泛化)两列:
| 设定 | 方法 | Base | Novel |
|---|---|---|---|
| Few-shot Non-IID | FedMaPLe | 83.63 | 77.56 |
| Few-shot Non-IID | FedDTL | 89.58 | 83.01 |
| Few-shot Dir(0.1) | FedMaPLe | 84.05 | 77.69 |
| Few-shot Dir(0.1) | FedDTL | 90.95 | 82.64 |
| Full-data Non-IID | FedMaPLe | 80.56 | 69.41 |
| Full-data Non-IID | FedDTL | 91.64 | 77.72 |
| Full-data Dir(0.1) | FedMaPLe | 89.27 | 70.10 |
| Full-data Dir(0.1) | FedDTL | 92.40 | 76.59 |
Feature shift(DomainNet,Full-one / Full-Dir(0.1)):FedDTL 拿到 93.38 / 93.47,FedMaPLe 91.94 / 90.51。
消融实验¶
7 个数据集均值,看 base / novel / harmonic mean (HM):
| 配置 | Few_Non-IID Base / Novel / HM | Full_Non-IID Base / Novel / HM |
|---|---|---|
| FedLoRA(裸基线) | 78.32 / 78.86 / 78.56 | 58.11 / 70.51 / 63.12 |
| + 解耦编码器训练 | 86.42 / 79.52 / 82.60 | 86.68 / 73.57 / 79.20 |
| + 两阶段本地微调 | 79.46 / 83.84 / 81.47 | 47.91 / 76.43 / 57.86 |
| FedDTL(两者都有) | 90.06 / 83.58 / 86.51 | 90.58 / 80.62 / ≈85 |
关键发现¶
- 解耦编码器单独加上,base 准确率在 Full_Non-IID 下从 58 拉到 87(+28),说明 inter-client 不一致主要被这个模块吃掉;但 novel 涨幅有限,仍需要 RL。
- 两阶段微调单独加上反而把 Full_Non-IID 的 base 砸到 47.91,说明"没有全局语义锚"时纯 RL 在异构数据下不稳;必须配合解耦编码器才能既保 base 又涨 novel。
- 多个 baseline 从 few-shot 迁到 full-data 时 novel 大幅掉点(典型如 pFedMMA 在 Dir(0.1) 下 novel 从 74.91 掉到 65.56),FedDTL 在所有 4 种 Dirichlet/Non-IID 设置下波动很小,体现两阶段设计真正在抑制长轨迹过拟合。
亮点与洞察¶
- 把 CLIP 模态解耦类比 FL 服务器-客户端广播——这是整个工作的"哲学钩子":图像必须留在本地(隐私)+ 文本只吃类别名(可全局),与 FL 的物理约束天然对齐,几乎不需要新组件就把"全局语义锚"做出来。
- 用 RL 替代正则做 FL 抗过拟合,并不是直接套 GRPO——必须解决"确定性编码器导致组内优势失效"的工程问题,作者用"采样时注噪、更新时确定 + hybrid 参考模型"的组合拿到了一个能跑稳的 GRPO 变体,这个 trick 可以迁移到任何分类头当策略的视觉 RL 场景。
- 强调 full-data 评测的诊断价值:以前 federated VLM 工作大多只报 few-shot,full-data 才是真正暴露 inter-client 不一致和 intra-client 过拟合复合效应的环境,本文同时报两套结果让 baseline 的脆弱性显形。
局限与展望¶
- 作者承认通信成本随类别数 \(C\) 线性增长(每轮要传 \(C\) 个全局文本嵌入),虽然客户端上传可以采样子集,但全局广播没给出压缩方案。
- 实验全部基于 CLIP ViT-B/16,没验证更大 backbone(ViT-L、Eva-CLIP)下解耦编码器是否还能压住 client drift;同时 LoRA rank \(r=4\)、起插层 \(l=10\) 的固定选择跟 backbone 强耦合。
- RL 阶段需要再多 \(G\) 倍前向(\(G=3\)),客户端算力压力比纯 SFT 大不少,对算力极受限的边缘 FL 场景未必划算;hybrid 参考模型的 0.5/0.5 等权也是经验值,没给敏感性分析。
- 隐私分析停留在"只上传 class-token 嵌入 + 类别名"的定性论述,没做正式的 DP 保证或针对嵌入反演攻击的实测。
相关工作与启发¶
- vs FedMaPLe / PromptFL: 这两类纯本地优化 + 参数平均的方法依赖更复杂的 prompt tuning 来传递跨客户端知识;FedDTL 干脆把文本编码器搬到服务器训,从根上换掉"参数平均当知识传递"的范式,在 full-data 下优势明显(DomainNet Full-one 91.94→93.38)。
- vs FedPGP / pFedMMA: 都是靠额外的对齐/正则损失抑制过拟合,仍是 SFT 主导;FedDTL 用 RL 阶段替代正则,避免了"loss term 越加越多"的拼凑感,HM 指标在 Full_Non-IID 下从 ~57 拉到 ~85。
- vs FedPPO / AFedPG: 同样把 RL 引入 FL,但前者主要解决系统异构(落后者、异步策略),优化对象是 FL 调度策略;FedDTL 的 RL 直接作用在模型参数上、目标是统计异构下的泛化,研究问题正交。
评分¶
- 新颖性: ⭐⭐⭐⭐ "CLIP 模态解耦类比 FL 广播"的结构对位很漂亮,GRPO 在确定性编码器上的注噪适配也是实打实的新解法。
- 实验充分度: ⭐⭐⭐⭐ 9 个 label-skew + 2 个 feature-shift 数据集 × 5 种数据分布 × few-shot/full-data,覆盖面到位;消融能精确归因到两个核心模块。
- 写作质量: ⭐⭐⭐⭐ 动机链"inter-client 不一致 + intra-client 过拟合"两条线讲得清楚;公式编号到位,但 RL 阶段的实现细节比较密集,没读过 GRPO 的读者会有点门槛。
- 价值: ⭐⭐⭐⭐ Federated VLM 在 full-data 异构场景下的稳定性是真痛点;解耦编码器 + 两阶段微调的组合可直接被后续 FL+RL 工作借鉴。