FedALT: Federated Fine-Tuning through Adaptive Local Training with Rest-of-World LoRA¶
会议: AAAI 2026
arXiv: 2503.11880
代码: 无
领域: AI安全/联邦学习
关键词: 联邦学习, LoRA微调, 个性化, 跨客户端干扰, MoE
一句话总结¶
提出 FedALT,通过为每个客户端维护独立的 Individual LoRA(本地训练更新)和冻结的 Rest-of-World (RoW) LoRA(其他客户端平均),配合自适应 MoE 混合器动态平衡本地知识与全局知识,彻底避免 FedAvg 聚合导致的跨客户端干扰,在异构任务联邦 LLM 微调上显著优于 SOTA。
研究背景与动机¶
领域现状:联邦 LoRA 微调已成为隐私保护 LLM 适应的主流范式。FedIT 等方法沿用 FedAvg 框架——聚合本地 LoRA→用聚合模型初始化下轮训练。FedDPA 引入全局+本地双 LoRA 组件但仍基于 FedAvg。
现有痛点: - 有害的跨客户端干扰:当客户端任务差异大时(如文本摘要 vs 情感分析),FedAvg 聚合会抵消各个客户端在本地微调中取得的进步 - 缺乏有效的全局-本地平衡机制:FedDPA 等用固定权重组合全局和本地 LoRA,无法针对不同输入动态调整 - 实验验证:FedIT 在 Commonsense Reasoning 和 Text Classification 上反而不如纯本地微调
核心矛盾:如何从其他客户端获取有用知识,同时避免聚合破坏本地适应?
本文目标 设计一种摆脱 FedAvg 范式的个性化联邦 LoRA 微调方法。
切入角度:不再用聚合模型初始化本地训练。每个客户端继续在自己之前训练的本地模型上学习,全局知识通过一个冻结的"其余世界" LoRA 注入,配合自适应混合器按输入动态加权。
核心 idea:用冻结的 RoW LoRA 提供全局知识 + 可训练的 Individual LoRA 做本地适应 + MoE 混合器动态平衡,完全避免 FedAvg 聚合干扰。
方法详解¶
整体框架¶
每个客户端 \(k\) 维护两个 LoRA 模块和一个混合器: - Individual LoRA \(\mathbf{A}_k^L / \mathbf{B}_k^L\):本地训练更新,捕获客户端特有知识 - RoW LoRA \(\mathbf{A}_k^R / \mathbf{B}_k^R\):所有其他客户端 Individual LoRA 的平均,本地训练时冻结 - Mixer \(\mathbf{G}_k\):动态学习两个 LoRA 的输入相关权重
前向传播:\(y = \mathbf{W}_0 x + \alpha_k(x) \mathbf{B}_k^L \mathbf{A}_k^L x + (1-\alpha_k(x)) \mathbf{B}_k^R \mathbf{A}_k^R x\)
关键设计¶
-
Individual LoRA + RoW LoRA 分离:
- 功能:将本地知识和全局知识显式分离到两个独立 LoRA
- 核心思路:RoW LoRA 计算为 \(\mathbf{A}_k^R = \frac{1}{K-1} \sum_{m \neq k} \mathbf{A}_m^L\)。关键:RoW LoRA 在本地训练时完全冻结,不参与梯度更新
- 设计动机:FedAvg 范式中干扰来自两个环节——(1) 聚合抵消本地改进 (2) 用聚合模型初始化覆盖本地适应。冻结 RoW 完全消除这两个问题。且跳过 RoW 的本地训练将客户端计算量减半
-
自适应 MoE 混合器:
- 功能:按输入动态调整 Individual LoRA 和 RoW LoRA 的贡献权重
- 核心思路:\(\alpha(x), 1-\alpha(x) = \text{softmax}(\mathbf{G}_k x)\),其中 \(\mathbf{G}_k \in \mathbb{R}^{2 \times d}\) 是可训练的线性层
- 设计动机:不同输入从本地模型和全局模型获益程度不同。固定权重(如 FedDPA)是次优的。MoE 范式提供了输入自适应的灵活权重
- 重要:混合器是个性化的(不在客户端间平均),确保反映各客户端独特的数据分布
-
为什么不直接把 RoW 加到预训练模型:
- 论文专门讨论了这个替代方案并指出两个问题:(1) 如果 RoW 性能差会"污染"预训练模型,难以纠正 (2) 失去灵活性——不同输入需要不同的全局-本地平衡
训练策略¶
- 服务器端:收集所有客户端的 Individual LoRA,计算每个客户端的 RoW LoRA 并分发
- 客户端:用新 RoW LoRA 替换旧的,然后更新 Individual LoRA 和 Mixer(RoW 和预训练模型冻结)
- 上传:仅上传 Individual LoRA,Mixer 留在本地
实验关键数据¶
主实验(LLaMA2-7B,8个异构任务)¶
| 方法 | 常识推理 | 指代消解 | 文本分类 | 平均 |
|---|---|---|---|---|
| Local Only | 73.83 | 74.62 | 67.18 | 62.86 |
| FedIT (FedAvg) | 72.82 | 77.14 | 66.39 | 62.19 |
| FedDPA | 74.81 | 81.88 | 65.42 | 64.64 |
| FDLoRA | 76.29 | 75.60 | 67.59 | 65.17 |
| FedALT | 76.12 | 83.04 | 71.60 | 67.55 |
FedALT 平均性能 67.55%,比最佳基线 FDLoRA 高 2.38%,比 Local Only 高 4.69%。
消融实验¶
| 配置 | 平均性能 |
|---|---|
| FedALT (Full) | 67.55 |
| w/o Mixer (固定 α=0.5) | 65.82 |
| w/o RoW LoRA (Local Only) | 62.86 |
| 用 FedAvg 聚合 | 62.19 |
关键发现¶
- FedAvg 在部分任务上反而比纯本地差(常识推理:72.82 < 73.83),验证了跨客户端干扰的存在
- 简单拆分单个大 LoRA 为多个小 LoRA(FedIT-split)无法缓解干扰——干扰的根源在服务器聚合而非模型内部
- Mixer 贡献显著(+1.73%),验证了动态输入自适应加权的价值
- Bloom-560M 上同样有效,说明方法对模型规模不敏感
亮点与洞察¶
- 彻底摆脱 FedAvg 范式的思路很大胆——不再用聚合模型初始化,而是让每个客户端持续训练自己的模型。这从根本上消除了跨客户端干扰
- RoW LoRA 冻结+Mixer 动态加权的组合设计优雅:冻结保证不干扰→Mixer 保证灵活利用全局知识→两者互补
- Motivational Study 做得好:用 FedIT 和 Local Only 对比8个任务,清晰展示了干扰和收益共存的现实问题
局限与展望¶
- Mixer 是简单的 2×d 线性层+softmax,更复杂的路由机制可能带来进一步提升
- 每轮通信量与客户端数目无关(只传 Individual LoRA),但 RoW 计算需要所有客户端的 LoRA
- 仅在 NLP 任务上验证,多模态或视觉 LLM 的联邦微调有待探索
- 客户端部分参与(partial participation)场景下 RoW LoRA 的计算需要额外处理
相关工作与启发¶
- vs FedDPA: FedDPA 的全局 LoRA 仍用 FedAvg 训练→受干扰;FedALT 的 RoW 冻结完全避免
- vs FDLoRA: FDLoRA 依赖服务器端数据集且全局 LoRA 聚合仍有干扰;FedALT 无此依赖
- vs HydraLoRA: HydraLoRA 在集中式设置中用多 LoRA 减少干扰,但在联邦设置中同样无效——干扰来自聚合而非模型内部
评分¶
- 新颖性: ⭐⭐⭐⭐ 摆脱 FedAvg 范式+RoW 冻结+MoE 混合器,设计逻辑清晰
- 实验充分度: ⭐⭐⭐⭐ 2个LLM+8个任务+6个基线+充分消融
- 写作质量: ⭐⭐⭐⭐⭐ Motivational Study→问题定义→解决方案的叙事非常流畅
- 价值: ⭐⭐⭐⭐ 为异构联邦 LLM 微调提供了有效的个性化方案