Adaptive LoRA Experts Allocation and Selection for Federated Fine-Tuning¶
会议: NeurIPS 2025
arXiv: 2509.15087
代码: 无
领域: AI安全
关键词: 联邦学习, LoRA, 混合专家, 自适应聚类, 参数高效微调
一句话总结¶
提出 FedLEASE——解决联邦 LoRA 微调中两个关键问题:(1) 用 LoRA B 矩阵相似度聚类自动确定最优专家数量和分配,(2) 用扩展路由空间(\(2M-1\) 维)实现自适应 top-M 专家选择(每个客户端自动决定用几个专家),在 GLUE 上比最强基线平均提升 5.53%。
研究背景与动机¶
领域现状:联邦学习 (FL) 为分布式 LLM 微调提供隐私保护,LoRA 提供参数高效的微调方式。但单一 LoRA 模块难以处理跨客户端的异构数据(不同任务/领域)。
现有痛点:(a) 现有方法 (FedIT, FedSA) 让所有客户端共享一个 LoRA——对异构任务效果差;(b) 给每个客户端一个 LoRA——冗余且无跨客户端知识共享;(c) LoRA-MoE 需要手动指定固定的 top-k 专家数——不同客户端最优 k 不同。
核心矛盾:太少专家(1个)无法捕获领域多样性,太多专家(每客户端1个)导致冗余和性能退化。
切入角度:两个关键观察——(a) B 矩阵余弦相似度反映任务相似性(A 矩阵不行);(b) 不同客户端需要不同数量的专家。
核心 idea:用 B 矩阵聚类决定"训练几个专家+谁训哪个",用扩展路由空间让每个客户端自适应决定"用几个专家"。
方法详解¶
整体框架¶
两阶段:(1) 初始化——客户端各训几轮 LoRA → 上传 B 矩阵 → 服务器用轮廓系数聚类 → 确定 M 个专家并初始化;(2) 迭代训练——客户端只更新自己的专家 + 路由器 → 服务器按簇聚合 → 反复迭代。
关键设计¶
-
自适应专家分配 (LoRA Expert Allocation):
- 功能:自动确定专家数量 M 和客户端-专家映射
- 核心思路:
- 各客户端本地训 E epochs 得到 \((A_i, B_i)\)
- 用 B 矩阵的余弦距离:\(d(i,j) = \frac{1}{|L|}\sum_l (1 - \frac{\mathbf{B}_i^l \cdot \mathbf{B}_j^l}{\|\mathbf{B}_i^l\|\|\mathbf{B}_j^l\|})\)
- 对 \(k \in \{2,...,M_{max}\}\) 做层次聚类,用轮廓系数 \(S(k)\) 选最优 \(M = \arg\max S(k)\)
- 每个簇内客户端的 LoRA 参数平均化作为该簇的专家初始化
- 设计动机:LoRA B 矩阵编码任务特定信息(实验验证),A 矩阵编码通用语言特征
-
自适应 top-M 专家选择:
- 功能:让每个客户端自动决定每个输入用几个专家(1 到 M 个)
- 核心思路:将路由器输出从 \(\mathbb{R}^{M \times d}\) 扩展到 \(\mathbb{R}^{(2M-1) \times d}\)
- 前 M 个输出全连到客户端自己的专家 \(E_j\)
- 后 M-1 个输出分别连到其他专家
- 标准 top-M 选择:如果 M 个名额都被前 M 个(自己专家)占了 → 只用 1 个专家;如果部分名额给了其他专家 → 用多个专家
- 巧妙之处:保证自己的专家必参与(前 M 个位置都指向自己),同时允许灵活引入其他专家
- 无需手动调 k 值
-
联邦聚合:
- 每轮只上传/下载自己的专家和路由器,通信效率高
- 簇内聚合:同簇客户端的专家参数平均化
- 跨簇知识共享:通过路由器和其他专家的前向传播实现
训练策略¶
- NLU:RoBERTa-Large 355M,GLUE benchmark,16 客户端,25 轮
- NLG:LLaMA-2-7B(8-bit 量化),FLAN 数据集,8 客户端,10 轮
- LoRA 应用于 Q, V 矩阵
实验关键数据¶
主实验 (GLUE, RoBERTa-Large)¶
| 方法 | SST-2 | QNLI | MRPC | QQP | 平均 | Δ |
|---|---|---|---|---|---|---|
| FedIT | 93.33 | 85.43 | 76.35 | 73.82 | 82.23 | - |
| FedDPA | 91.90 | 83.13 | 81.60 | 81.35 | 84.49 | +2.26 |
| FedSA | 91.97 | 82.70 | 82.08 | 81.65 | 84.60 | +2.37 |
| FedLEASE | 93.33 | 87.22 | 86.93 | 83.57 | 87.76 | +5.53 |
消融实验¶
| 配置 | 效果 | 说明 |
|---|---|---|
| 固定 M(手动选专家数) | 不如自适应 | 轮廓系数选 M 更优 |
| 均匀分配(不聚类) | 显著下降 | 聚类分配关键 |
| 固定 top-k(不自适应) | 不如 top-M | k 对不同客户端不同最优值 |
| 去掉保证自己专家参与 | 下降 | 必须保证自己专家参与 |
关键发现¶
- B 矩阵是任务指纹:仅训练几轮后,B 矩阵的余弦相似度就能准确区分不同任务的客户端,比 A 矩阵和 BA 乘积更有效且更廉价
- 自适应 k 值差异大:实验表明不同客户端的最优 k 值从 2 到 4 不等(M=4 时),固定 k 必然对部分客户端次优
- 跨簇知识共享有用:与 IFCA+LoRA(聚类但簇间隔离)相比,FedLEASE 的路由机制允许跨簇知识流动
- 通信效率不增:只上传自己的专家和路由器,与基线相当
亮点与洞察¶
- B 矩阵作为任务相似度代理:发现 LoRA B 编码任务特定信息而 A 编码通用特征,这个 observation 可迁移到其他需要衡量任务相似度的场景(如课程学习、迁移学习)
- 路由空间扩展的巧妙设计:将 \(M\) 维扩展到 \(2M-1\) 维,前 M 维都指向自己专家,确保自己专家必参与。这比加约束优化更优雅
- 轮廓系数选最优聚类数:避免了手动选超参数 M 的困难,完全数据驱动
局限与展望¶
- 一次性聚类:聚类只在初始化做一次,训练过程中客户端的任务关系可能演变
- 轮廓系数的局限:对非凸聚类结构可能给出次优 M
- 扩展性:当客户端数极多(如数百)时,\(M_{max}\) 如何设置需要进一步研究
- 改进方向:(1) 动态重聚类(每若干轮更新分组);(2) 层级别的自适应分配(不同层可能需要不同专家数)
相关工作与启发¶
- vs FedIT:FedIT 用单一共享 LoRA——对异构任务不够;FedLEASE 多专家 + 聚类
- vs FedDPA:FedDPA 用全局+本地的二元结构——粒度不够;FedLEASE 数据驱动地确定专家数
- vs MoLoRA/LoRAMoE(集中式):集中式 LoRA-MoE 不面临联邦异构和通信约束问题,FedLEASE 在联邦场景下解决了专家分配和自适应选择
评分¶
- 新颖性: ⭐⭐⭐⭐ B 矩阵聚类 + 扩展路由空间的设计有创意,理论分析完整
- 实验充分度: ⭐⭐⭐⭐ NLU + NLG,多基线对比,充分消融,三个关键观察提供了实验动机
- 写作质量: ⭐⭐⭐⭐ 从观察→方法→实验的逻辑清晰,图示直观
- 价值: ⭐⭐⭐⭐ 解决了联邦 LoRA 微调中的实际痛点,方法即插即用