Adaptive LoRA Experts Allocation and Selection for Federated Fine-Tuning¶

会议: NeurIPS 2025
arXiv: 2509.15087
代码: 无
领域: AI安全
关键词: 联邦学习, LoRA, 混合专家, 自适应聚类, 参数高效微调

一句话总结¶

提出 FedLEASE——解决联邦 LoRA 微调中两个关键问题：(1) 用 LoRA B 矩阵相似度聚类自动确定最优专家数量和分配，(2) 用扩展路由空间（\(2M-1\) 维）实现自适应 top-M 专家选择（每个客户端自动决定用几个专家），在 GLUE 上比最强基线平均提升 5.53%。

研究背景与动机¶

领域现状：联邦学习 (FL) 为分布式 LLM 微调提供隐私保护，LoRA 提供参数高效的微调方式。但单一 LoRA 模块难以处理跨客户端的异构数据（不同任务/领域）。

现有痛点：(a) 现有方法 (FedIT, FedSA) 让所有客户端共享一个 LoRA——对异构任务效果差；(b) 给每个客户端一个 LoRA——冗余且无跨客户端知识共享；(c) LoRA-MoE 需要手动指定固定的 top-k 专家数——不同客户端最优 k 不同。

核心矛盾：太少专家（1个）无法捕获领域多样性，太多专家（每客户端1个）导致冗余和性能退化。

切入角度：两个关键观察——(a) B 矩阵余弦相似度反映任务相似性（A 矩阵不行）；(b) 不同客户端需要不同数量的专家。

核心 idea：用 B 矩阵聚类决定"训练几个专家+谁训哪个"，用扩展路由空间让每个客户端自适应决定"用几个专家"。

方法详解¶

整体框架¶

两阶段：(1) 初始化——客户端各训几轮 LoRA → 上传 B 矩阵 → 服务器用轮廓系数聚类 → 确定 M 个专家并初始化；(2) 迭代训练——客户端只更新自己的专家 + 路由器 → 服务器按簇聚合 → 反复迭代。

关键设计¶

自适应专家分配 (LoRA Expert Allocation):
- 功能：自动确定专家数量 M 和客户端-专家映射
- 核心思路：
  - 各客户端本地训 E epochs 得到 \((A_i, B_i)\)
  - 用 B 矩阵的余弦距离：\(d(i,j) = \frac{1}{|L|}\sum_l (1 - \frac{\mathbf{B}_i^l \cdot \mathbf{B}_j^l}{\|\mathbf{B}_i^l\|\|\mathbf{B}_j^l\|})\)
  - 对 \(k \in \{2,...,M_{max}\}\) 做层次聚类，用轮廓系数 \(S(k)\) 选最优 \(M = \arg\max S(k)\)
  - 每个簇内客户端的 LoRA 参数平均化作为该簇的专家初始化
- 设计动机：LoRA B 矩阵编码任务特定信息（实验验证），A 矩阵编码通用语言特征
自适应 top-M 专家选择:
- 功能：让每个客户端自动决定每个输入用几个专家（1 到 M 个）
- 核心思路：将路由器输出从 \(\mathbb{R}^{M \times d}\) 扩展到 \(\mathbb{R}^{(2M-1) \times d}\)
  - 前 M 个输出全连到客户端自己的专家 \(E_j\)
  - 后 M-1 个输出分别连到其他专家
  - 标准 top-M 选择：如果 M 个名额都被前 M 个（自己专家）占了 → 只用 1 个专家；如果部分名额给了其他专家 → 用多个专家
- 巧妙之处：保证自己的专家必参与（前 M 个位置都指向自己），同时允许灵活引入其他专家
- 无需手动调 k 值
联邦聚合:
- 每轮只上传/下载自己的专家和路由器，通信效率高
- 簇内聚合：同簇客户端的专家参数平均化
- 跨簇知识共享：通过路由器和其他专家的前向传播实现

训练策略¶

NLU：RoBERTa-Large 355M，GLUE benchmark，16 客户端，25 轮
NLG：LLaMA-2-7B（8-bit 量化），FLAN 数据集，8 客户端，10 轮
LoRA 应用于 Q, V 矩阵

实验关键数据¶

主实验 (GLUE, RoBERTa-Large)¶

方法	SST-2	QNLI	MRPC	QQP	平均	Δ
FedIT	93.33	85.43	76.35	73.82	82.23	-
FedDPA	91.90	83.13	81.60	81.35	84.49	+2.26
FedSA	91.97	82.70	82.08	81.65	84.60	+2.37
FedLEASE	93.33	87.22	86.93	83.57	87.76	+5.53

消融实验¶

配置	效果	说明
固定 M（手动选专家数）	不如自适应	轮廓系数选 M 更优
均匀分配（不聚类）	显著下降	聚类分配关键
固定 top-k（不自适应）	不如 top-M	k 对不同客户端不同最优值
去掉保证自己专家参与	下降	必须保证自己专家参与

关键发现¶

B 矩阵是任务指纹：仅训练几轮后，B 矩阵的余弦相似度就能准确区分不同任务的客户端，比 A 矩阵和 BA 乘积更有效且更廉价
自适应 k 值差异大：实验表明不同客户端的最优 k 值从 2 到 4 不等（M=4 时），固定 k 必然对部分客户端次优
跨簇知识共享有用：与 IFCA+LoRA（聚类但簇间隔离）相比，FedLEASE 的路由机制允许跨簇知识流动
通信效率不增：只上传自己的专家和路由器，与基线相当

亮点与洞察¶

B 矩阵作为任务相似度代理：发现 LoRA B 编码任务特定信息而 A 编码通用特征，这个 observation 可迁移到其他需要衡量任务相似度的场景（如课程学习、迁移学习）
路由空间扩展的巧妙设计：将 \(M\) 维扩展到 \(2M-1\) 维，前 M 维都指向自己专家，确保自己专家必参与。这比加约束优化更优雅
轮廓系数选最优聚类数：避免了手动选超参数 M 的困难，完全数据驱动

局限与展望¶

一次性聚类：聚类只在初始化做一次，训练过程中客户端的任务关系可能演变
轮廓系数的局限：对非凸聚类结构可能给出次优 M
扩展性：当客户端数极多（如数百）时，\(M_{max}\) 如何设置需要进一步研究
改进方向：(1) 动态重聚类（每若干轮更新分组）；(2) 层级别的自适应分配（不同层可能需要不同专家数）

评分¶

新颖性: ⭐⭐⭐⭐ B 矩阵聚类 + 扩展路由空间的设计有创意，理论分析完整
实验充分度: ⭐⭐⭐⭐ NLU + NLG，多基线对比，充分消融，三个关键观察提供了实验动机
写作质量: ⭐⭐⭐⭐ 从观察→方法→实验的逻辑清晰，图示直观
价值: ⭐⭐⭐⭐ 解决了联邦 LoRA 微调中的实际痛点，方法即插即用