FLoRG: Federated Fine-tuning with Low-rank Gram Matrices and Procrustes Alignment¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=kntrZOm2AQ
代码: 待确认
领域: 大模型高效微调 / 联邦学习
关键词: 联邦微调, LoRA, Gram 矩阵, Procrustes 对齐, 通信效率, 收敛分析

一句话总结¶

FLoRG 把 LoRA 的两个低秩矩阵重参数化为单个低秩矩阵并只聚合其 Gram 矩阵，让服务器端聚合从「有偏的双线性运算」变成「无偏的线性运算」，再用 Procrustes 对齐解决分解非唯一带来的漂移，从而在联邦微调中同时消除聚合误差、压低通信开销（最高 2041×）并收紧收敛界。

研究背景与动机¶

领域现状：LoRA 把全参数微调换成 $W = W_0 + BA$ 两个低秩矩阵，已成为大模型适配下游任务的主流手段；而联邦学习（FL）让数据分散在多客户端时仍能协同微调而不暴露原始数据。两者结合——客户端本地用 LoRA 训练、上传低秩更新、服务器聚合——是非常自然的方案。

现有痛点：把 LoRA 直接塞进 FL 会撞上两类根本性矛盾。第一类是聚合误差：传统做法（FedIT 等）对 $B_n$、$A_n$ 分别取平均，得到的是 $(\frac{1}{N}\sum_n B_n)(\frac{1}{N}\sum_n A_n)$，而真正想要的更新是 $\frac{1}{N}\sum_n (B_n A_n)$，两者不相等，这个系统性偏差会随轮数累积、拖垮性能。第二类是分解漂移：另一派做法（FeDeRA 等）先聚合乘积 $B_n A_n$ 再做矩阵分解还原两个低秩矩阵，虽然消除了聚合误差，但聚合矩阵通常秩亏、还可能有重特征值，分解不唯一——不同分解会改变后续轮次的参数子空间与梯度方向，漂移同样会累积；而且分解后的秩可能与目标秩 $r$ 不匹配。

核心矛盾：只要 LoRA 还是「两个矩阵相乘」，分别聚合（产生误差）或聚合后分解（产生漂移）二者必居其一，无法两全。

本文目标：找到一种联邦微调方案，既消除分别聚合带来的误差，又最小化矩阵分解带来的漂移。

核心 idea：[重参数化] 用单个低秩矩阵承载 LoRA，并只聚合它的 Gram 矩阵（列向量内积矩阵）——因为 Gram 矩阵聚合是线性且保持半正定，服务器能拿到真正的无偏聚合；[对齐稳定] 再用 Procrustes 对齐 在保持 Gram 矩阵不变的前提下，把分解出的矩阵投影到离上一轮最近的方向，按掉非唯一分解造成的漂移。

方法详解¶

整体框架¶

FLoRG 把每个 LoRA 层的微调量写成 $\Delta W^t = L Q^t R = L (A^t)^\top A^t R$，其中 $L\in\mathbb{R}^{d_{out}\times k}$、$R\in\mathbb{R}^{k\times d_{in}}$ 是全局共享、固定的半正交基（$L^\top L = I_k$，$R R^\top = I_k$，$k=\min\{d_{in},d_{out}\}$），客户端只训练单个低秩矩阵 $A^t\in\mathbb{R}^{r\times k}$。每轮流程为：客户端本地用梯度更新 $A^t$ → 上传其 Gram 矩阵 $Q_n^{t+1/2}=(A_n^{t+1/2})^\top A_n^{t+1/2}$ → 服务器线性平均得到无偏的 $Q^{t+1}$ → 对 $Q^{t+1}$ 做特征分解、再用 Procrustes 对齐还原出下一轮的 $A^{t+1}$ → 广播回客户端。

flowchart LR
    A["客户端 n<br/>本地更新单矩阵 A_n"] -->|"上传 Gram 矩阵<br/>Q_n = AₙᵀAₙ"| B["服务器<br/>线性聚合 Q = 平均(Q_n)<br/>(无偏, 保持 PSD)"]
    B --> C["特征分解<br/>Q = PᵀΛP<br/>得 Ã = Λ^½ P"]
    C --> D["Procrustes 对齐<br/>S⋆ = U Vᵀ<br/>投影到 r 秩子空间"]
    D -->|"广播 A^{t+1} = S⋆ Ã"| A

关键设计¶

1. 单矩阵 + 共享半正交基的重参数化：让任意维度都能错误自由聚合。 LoRA 用两个矩阵是为了适配不同形状的权重矩阵 $W_0\in\mathbb{R}^{d_{out}\times d_{in}}$，但这正是聚合偏差的根源。FLoRG 把形状自由度外包给两个固定且共享的半正交基 $L$、$R$，真正可训练的只剩中间那个方阵参数 $Q^t=(A^t)^\top A^t$（通过单个 $A^t$ 表示）。客户端梯度也只对 $A^t$ 求：$\nabla_A F_n(W^t;\xi_n)=A^t\big(H_n^t+(H_n^t)^\top\big)$，其中 $H_n^t=L^\top \nabla F_n(W^t;\xi_n) R^\top$。由于客户端上传的是 Gram 矩阵，聚合 $Q^{t+1}=\frac{1}{N}\sum_n (A_n^{t+1/2})^\top A_n^{t+1/2}$ 是纯线性运算且保持半正定，服务器拿到的就是真实聚合结果——双线性不一致（聚合误差）被结构性地消除了。同时每客户端每轮只传一个矩阵而非两个，上行通信直接砍半以上。

2. Procrustes 对齐：在保 Gram 不变的前提下消分解漂移。 服务器对 PSD 的 $Q^{t+1}$ 做特征分解 $Q^{t+1}=(P^{t+1})^\top \Lambda^{t+1} P^{t+1}$，得到一个规范分解 $\tilde{A}^{t+1}=(\Lambda^{t+1})^{1/2}P^{t+1}$。但对任意正交列矩阵 $O$ 都有 $(O\tilde{A}^{t+1})^\top O\tilde{A}^{t+1}=Q^{t+1}$，分解非唯一；不同选择会让下一轮梯度路径发散。FLoRG 因此求一个半正交对齐矩阵 $S^t$，在所有合法分解里挑出与上一轮 $A^t$ 在 Frobenius 范数下最近的那个： $$\min_{S^t}\ \big\|S^t\tilde{A}^{t+1}-A^t\big\|_F^2\quad \text{s.t.}\ (S^t)^\top S^t=I.$$ 展开后等价于最大化 $\mathrm{Tr}\big(A^t(\tilde{A}^{t+1})^\top (S^t)^\top\big)$，这是经典正交 Procrustes 问题，对 $A^t(\tilde{A}^{t+1})^\top=U^t\Sigma^t(V^t)^\top$ 做 SVD 即得闭式最优解 $S^{t,\star}=U^t(V^t)^\top$。这一步一箭双雕：既从非唯一分解中选定了「最稳」的那个、稳住后续梯度，又用半正交投影把秩为 $r'^{,t}$ 的 $\tilde{A}^{t+1}$ 投回目标秩 $r$、解决秩失配。最终 $A^{t+1}=S^{t,\star}\tilde{A}^{t+1}$。服务器侧每轮计算量 $O(Lk^3)+O(L(krr'^{,t}+\dots))$ 与客户端数无关，可扩展。

3. 把 Procrustes 对齐写进收敛界：理论上证明对齐收紧 bound。 在 $L$-光滑、梯度有界、参数空间有界三条标准假设下，作者证明 FLoRG 在非凸损失下的收敛率（Theorem 2）由三项构成：随轮数 $T$ 消失的初始最优性间隙、不消失的残差偏差项、以及Procrustes 对齐漂移项——后者正比于 $\sum_t \Delta_{\text{proc}}^{t+1}/\sigma_{\min}(\cdot)$，其中 $\Delta_{\text{proc}}^{t+1}=\|S^t\tilde{A}^{t+1}-A^t\|_F^2-\|S^{t,\star}\tilde{A}^{t+1}-A^t\|_F^2\ge 0$ 度量了「没用最优对齐」造成的额外漂移。当采用最优 Procrustes 对齐时 $\Delta_{\text{proc}}^{t+1}=0$，第三项整体归零，从而得到更紧的收敛界。这把「对齐有用」从经验观察提升成了可证明的收敛优势。

实验关键数据¶

主实验表格（GLUE 测试准确率，N=20，r=4，非 IID ρ=0.5）¶

基座模型	数据集	FLoRG	FedIT	FeDeRA	FFA-LoRA	FedSA-LoRA	FedEx-LoRA
OPT-125M	MNLI	87.35	79.42	81.15	83.54	84.61	85.83
OPT-125M	WNLI	65.28	58.45	59.34	62.61	62.83	64.15
RoBERTa-large	MNLI	91.27	84.91	88.06	89.28	90.75	90.96
RoBERTa-large	RTE	71.26	64.25	67.12	68.49	69.93	70.98
Llama-3.2-3B	MNLI	93.15	87.24	89.83	91.05	92.38	92.74
Llama-3.2-3B	RTE	73.84	67.08	69.75	71.33	72.56	73.15

FLoRG 在三个不同规模基座上、四个数据集大多数设置下都优于五个 SOTA 基线，相对最强基线提升约 0.3~1.5 个点。

通信开销（QNLI，达到目标准确率所需传输参数总量）¶

基座	目标 Acc	FLoRG	FedIT	FedEx-LoRA
OPT-125M	80.00	8.2×10⁶	3.78×10⁷	1.25×10¹⁰
RoBERTa-large	85.00	1.45×10⁷	8.12×10⁷	2.96×10¹⁰

达到同样精度，FLoRG 传输的参数量比基线最多低 2041×（相对 FedEx-LoRA）。

消融实验表格（Procrustes 对齐的影响，准确率）¶

基座	设置	MRPC	MNLI	QNLI	WNLI	RTE
OPT-125M	w/ 对齐	86.54	87.20	89.69	65.41	68.77
OPT-125M	w/o 对齐	83.14	80.93	86.72	59.81	64.32
RoBERTa-large	w/ 对齐	89.87	91.39	92.48	66.41	71.40
RoBERTa-large	w/o 对齐	86.50	88.93	88.62	62.07	67.09

关键发现¶

Procrustes 对齐是性能命脉：去掉它后 RoBERTa-large 上各数据集掉 2.5~4.3 个点，整体只能勉强追平 FeDeRA，说明无偏 Gram 聚合若不配对齐，分解漂移会吃掉大部分收益。
跨秩稳健：在 $r=2,4,8$ 下 FLoRG 均优于全部基线，对秩选择不敏感。
规模无关的可扩展性：服务器计算量随 LoRA 层数线性、与客户端数解耦，从 125M 到 3B 基座都成立。

亮点与洞察¶

用结构换无偏：把「两矩阵」收缩成「单矩阵 + 固定共享基」，让聚合天然线性无偏，是从问题根源（双线性）下手，而非事后打补丁（如 FedEx-LoRA 加残差矩阵）。
Gram 聚合与 Procrustes 对齐恰好互补：Gram 聚合保证无偏但天然带来「分解非唯一」副作用，Procrustes 对齐正好把这个副作用按掉，两个设计是同一思路的正反面。
理论闭环漂亮：对齐项 $\Delta_{\text{proc}}$ 直接出现在收敛界里且最优对齐时归零，把工程 trick 升级为可证明的收敛改进。
通信收益量级大：2041× 的压缩主要来自「只传一个矩阵 + 收敛更快所需轮数更少」，对带宽受限的联邦场景实用价值高。

局限与展望¶

实验局限在 NLU/QA：评测集中在 GLUE + SQuAD v1.1，缺生成式任务、长上下文、指令微调等更贴近真实 LLM 微调的场景验证。
半正交基 $L$、$R$ 固定：共享基是预先初始化且全程冻结的，对极端异构权重形状或任务是否需要可学/可适配的基，论文未深入。
服务器侧每轮要做特征分解 + SVD：虽与客户端数解耦，但 $O(Lk^3)$ 在 $k=\min(d_{in},d_{out})$ 很大时仍不可忽略，超大模型下的服务器开销值得进一步优化。
客户端采样 / 掉线鲁棒性：默认全员参与，部分参与、异步、隐私（DP）等更现实的 FL 设定下的表现待补。

评分¶

新颖性: ⭐⭐⭐⭐ — 单低秩矩阵 + Gram 聚合 + Procrustes 对齐的组合是对联邦 LoRA 两大顽疾（聚合误差 / 分解漂移）的一次干净的根因式解法，且把对齐写进收敛界，理论与方法咬合得很紧。
实验充分度: ⭐⭐⭐⭐ — 三种规模基座、五个 SOTA 基线、通信/秩/对齐多维消融较完整；但任务面偏窄（NLU/QA），缺生成式与更现实 FL 设定。
写作质量: ⭐⭐⭐⭐ — 问题动机层层递进（误差→漂移→双难全消），公式与定理推导清晰，图示与复杂度分析到位。
价值: ⭐⭐⭐⭐ — 在带宽受限的联邦大模型微调中，2041× 通信压缩 + 一致精度提升有较强实用与参考价值。