Heterogeneous Federated Fine-Tuning with Parallel One-Rank Adaptation¶

会议: ICLR 2026
arXiv: 2602.16936
代码: GitHub
领域: AI安全
关键词: 联邦微调, LoRA, 异构秩, 初始化噪声, 聚合噪声

一句话总结¶

提出Fed-PLoRA框架，用多个并行一秩模块(PLoRA)替代多秩LoRA，通过Select-N-Fold策略（选N个训练+折叠其余到冻结权重）实现异构联邦微调的零初始化噪声和最小聚合噪声，在6个LLM/多任务上全面超越现有方法。

研究背景与动机¶

领域现状：联邦微调(FFT)用LoRA跨分布式客户端协作微调LLM，保持数据隐私。但客户端资源异构→不同LoRA秩→初始化和聚合出现维度不匹配问题。

现有痛点：(1) FLoRA：每轮随机重新初始化LoRA→巨大初始化噪声；(2) HETLoRA：截断全局LoRA→丢失低秩以外的信息+聚合偏差；(3) FlexLoRA：SVD重构→引入分解误差。所有方法在初始化噪声和聚合噪声之间存在不可调和的矛盾。

核心矛盾：全局模型秩R > 客户端秩 \(r_i\) → 客户端无法完整继承全局信息（初始化噪声），同时分别训练后的聚合也不完美（聚合噪声）。

切入角度：将多秩LoRA分解为多个并行一秩模块→每个模块独立→客户端选择子集训练+折叠其余到冻结权重→零初始化噪声。

方法详解¶

整体框架¶

这篇论文要解决的是异构联邦微调里一个绕不开的两难：当全局模型用秩 \(R\) 的 LoRA、而各客户端因算力不同只能跑更小的秩 \(r_i\) 时，客户端既无法完整继承全局信息（初始化噪声），分别训练后的结果也对不齐（聚合噪声）。Fed-PLoRA 的破局点是不再把 LoRA 当作一个不可拆的秩-\(R\) 矩阵，而是把它拆成 \(R\) 个相互独立、可单独取舍的秩-1 模块。整套流程是：服务器把这 \(R\) 个模块广播给客户端；客户端按自己的预算选出 \(r_i\) 个模块训练、把没选中的那些"折叠"进冻结的预训练权重里；本地训完后再按模块（秩维度）逐个上传，服务器对同一秩位的模块独立平均后进入下一轮。整个过程逐轮迭代直至收敛。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400, 'subGraphTitleMargin': {'top': 8, 'bottom': 16}}}%%
flowchart TD
    G["PLoRA 模块库<br/>R 个并行秩-1 模块"] -->|"服务器广播"| SNF
    subgraph SNF["Select-N-Fold（客户端本地）"]
        direction TB
        S["选 r_i 个模块训练<br/>（集合 K_i）"] --> F["其余 R−r_i 个模块<br/>折叠进冻结预训练权重"]
        F --> T["在含全局信息的<br/>基底上本地训练"]
    end
    SNF -->|"按秩位上传选中模块"| AGG["服务器按秩位聚合<br/>同一秩位独立求均值"]
    AGG -->|"进入下一轮"| G

关键设计¶

1. PLoRA：把秩-R 的 LoRA 拆成 R 个可独立调度的秩-1 模块

异构 FFT 的根源在于"一整块秩-\(R\) 矩阵"无法干净地切给只能跑 \(r_i < R\) 的客户端——截断会丢信息，重初始化会引噪声。PLoRA 的做法是利用一个恒等式把矩阵乘法显式写成秩-1 之和：\(\Delta W_{\text{PLoRA}} = \sum_{j=1}^R B_{(j)}A_{(j)} = \sum_{j=1}^R B_{[:,j]}A_{[j,:]} = BA = \Delta W_{\text{LoRA}}\)。也就是说，PLoRA 和标准 LoRA 在数学上完全等价，参数量、表达力都不变；唯一的区别是每个秩-1 模块 \(B_{(j)}A_{(j)}\) 现在是一个可单独取、单独训、单独聚合的独立单元。正是这种"等价但解耦"的结构，让后面的子集选择和按模块聚合变得自然成立。

2. Select-N-Fold：选 N 个模块训练、把其余折叠进冻结权重，换来零初始化噪声

光把模块拆开还不够——客户端只训自己选中的 \(r_i\) 个模块时，没被选中的那 \(R-r_i\) 个模块带着的全局信息怎么办？已有方法要么直接丢（HETLoRA 截断）、要么每轮重新随机初始化（FLoRA），都会在客户端起步时引入误差。Select-N-Fold 的答案是"折叠"：把本轮没选中的模块直接累加进客户端的冻结基底，训练在这个已经吸收了全局信息的权重上进行：

\[\mathcal{W}_i^t = \mathcal{W}^0 + \sum_{j \notin \mathcal{K}_i^t} B_{(j)}^{t-1}A_{(j)}^{t-1}\]

其中 \(\mathcal{K}_i^t\) 是客户端 \(i\) 本轮选来训练的模块集合。因为未训练模块的贡献被原封不动折进了基底，客户端起点和全局模型完全一致，初始化噪声严格为零；而模块由谁来选是随机的，这保证了每个秩位在期望意义下都会被各客户端轮流更新到，不会有模块长期"饿死"。

3. 噪声分析：把初始化噪声归零，并给聚合噪声一个会自动收紧的上界

前两个设计的价值需要一个统一的噪声框架来量化。论文把异构 FFT 的误差拆成两块：初始化噪声 \(\mathcal{N}_{\text{Init}}^t\) 和聚合噪声。借助折叠机制，Fed-PLoRA 的初始化噪声 \(\mathcal{N}_{\text{Init}}^t = 0\)，即客户端完美保留了全局信息；聚合噪声则被界在

\[\mathcal{N}_{\text{Agg}}^t \leq \sum_{j=1}^R \frac{1}{|\mathcal{Q}_{(j)}^t|}\sum_i \left( \|B_{i,(j)}^t - \bar{B}_{(j)}^t\|_2 + \|A_{i,(j)}^t - \bar{A}_{(j)}^t\|_2 \right)\]

也就是各客户端的模块参数离同一秩位均值的偏离之和。更关键的是，论文用余弦相似度分析说明：训练推进后，同一秩位的模块在不同客户端间会逐渐趋于一致，上式右端因此持续变小、上界自动收紧。这套框架还能反过来统一刻画 FLoRA / FlexLoRA / HETLoRA——把它们各自在两类噪声上的取舍摆到同一坐标系里对比，清晰解释了 Fed-PLoRA 为何能同时压住两边。

损失函数 / 训练策略¶

沿用标准联邦微调流程（服务器广播→客户端本地训练→服务器聚合），每轮随机抽 10% 客户端参与，本地用 SGD / AdamW 优化，没有引入额外的训练目标或正则项。

实验关键数据¶

主实验 (Llama-1B, Natural Instructions)¶

方法	IID准确率	non-IID准确率	初始化噪声
FedIT (同构)	66.88	61.28	0
FLoRA	中	中	高(随机重初始化)
FlexLoRA	中	中	中(截断+SVD误差)
HETLoRA	中	中	中(截断)
Fed-PLoRA	最高	最高	0

多模型/多任务验证¶

模型	任务	Fed-PLoRA vs 最佳baseline
BERT-base	GLUE	超越
Llama-3.1-8B	金融NLP	超越
Qwen3-4B	指令跟随	超越
Mistral-7B	医学QA	超越

关键发现¶

余弦相似度热力图显示：训练后同一秩位的PLoRA模块跨客户端趋于一致（对角线高），不同秩位间保持独立（非对角线低）→每个秩学到了不同的知识但客户端间收敛
Fed-PLoRA在non-IID设置下优势更大→零初始化噪声对异构数据更关键
通信/计算/内存开销与现有方法可比→没有额外代价

亮点与洞察¶

零初始化噪声：通过折叠而非截断/重初始化，完美保留全局信息。这个设计简洁但解决了异构FFT的根本问题。
PLoRA的模块独立性：虽然数学上等价于标准LoRA，但模块独立性使得子集选择+独立聚合自然成立。这是一个architectural trick带来的系统性改进。
统一噪声分析框架：为FLoRA/FlexLoRA/HETLoRA/Fed-PLoRA提供了统一的初始化噪声和聚合噪声分析，清晰展示了各方法的优劣。

局限与展望¶

随机选择模块可能不是最优——基于重要性/梯度的选择策略可能更有效
折叠操作在每轮增加 \(O(dk(R-r_i))\) 计算——虽然比训练小得多但非零
下行通信多了 \(O((d+k)(R-r_i))\) 比HETLoRA/FlexLoRA
仅测试了LoRA应用到self-attention层，应用到FFN层效果未知

评分¶

新颖性: ⭐⭐⭐⭐ PLoRA分解+Select-N-Fold策略设计巧妙
实验充分度: ⭐⭐⭐⭐⭐ 6个模型、多领域任务、IID/non-IID、多baseline
写作质量: ⭐⭐⭐⭐ 噪声分析框架清晰，对比公平
价值: ⭐⭐⭐⭐ 对異构联邦微调有直接实用价值