跳转至

Unlocking the Potential of Weighting Methods in Federated Learning through Communication Compression

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=zOWljZMbCm
代码: 无
领域: 联邦学习 / 分布式优化 / 通信压缩
关键词: 加权联邦学习, 通信压缩, 鞍点问题, DIANA, 乐观外梯度

一句话总结

本文提出 ADI(Agnostic DIANA),把 DIANA 式的"差分压缩"嵌入到 agnostic 加权联邦学习的鞍点问题求解中,让"自动加权"与"通信压缩"两条原本互不兼容的路线第一次同时成立——既能用 \(\min_\theta\max_\pi\) 的加权框架对抗数据异质性,又只需上传压缩后的差分向量与一个标量损失,从而打破通信瓶颈;理论上覆盖精确梯度、随机梯度与部分参与三种场景,实验在 CIFAR-10 异质划分上收敛优于纯压缩 baseline。

研究背景与动机

领域现状:联邦/分布式学习的标准目标是 \(\min_\theta f(\theta)=\frac{1}{M}\sum_{i=1}^M f_i(\theta)\),对所有设备一视同仁。但各节点数据天然异质(数据量、类别分布、噪声水平都不同),于是出现了"加权方法"——把目标改写为 \(\min_\theta \sum_i \pi_i f_i(\theta)\),给干净/独特数据的客户端大权重、给噪声客户端小权重。其中最优雅的一支是 agnostic(对抗式)加权\(\min_\theta \max_{\pi\in\Lambda} \sum_i \pi_i f_i(\theta)\),权重在训练中自动选出,且服务器只需额外知道各节点的标量损失 \(f_i(\theta)\),几乎不增加通信。

现有痛点:加权方法迭代复杂度漂亮,却完全没碰联邦学习的另一大核心障碍——通信瓶颈。每轮要同步 \(d\) 维的局部梯度/模型状态,这一步可能贵到抵消并行的全部收益。换句话说,加权方法只解决了"异质性",没解决"通信成本",因此单独拿到真实系统里并不可用。

核心矛盾:通信压缩(如 RandK / TopK / 量化)虽然能把上传成本砍下来,但它和 agnostic 加权"接不上"。一是 agnostic 加权本质是鞍点问题(SPP)而非经典最小化,绝大多数压缩算法(QSGD、EF21、MARINA、DASHA)都是为最小化设计的,分析无法直接搬过来;二是无偏压缩器的失真随输入范数缩放——在最优点附近直接压缩局部梯度会注入不可消除的噪声,导致理论上出现 irreducible variance 项、实践中在解附近剧烈震荡。

本文目标:回答一个具体问题——能不能把基于加权的方法与通信压缩有效结合起来? 即在鞍点框架内引入压缩,同时给出精确梯度、随机 oracle、部分参与三种场景的收敛保证。

切入角度:作者注意到 DIANA 的关键 trick——不压缩梯度本身,而是压缩"梯度估计与局部记忆状态的差分"。由于差分在最优点附近随步长一起趋零,压缩这个量不会带来不可消除的噪声。把这个机制移植进鞍点求解,就能既享受压缩的便宜、又不破坏收敛到精确解的性质。

核心 idea:用"DIANA 式差分压缩 + 乐观外梯度/镜像下降"求解 agnostic 加权鞍点问题,让压缩与加权同时生效,且全程不传输完整梯度。

方法详解

整体框架

ADI 求解的是 agnostic 加权鞍点问题 \(\min_{\theta\in\mathbb{R}^d}\max_{\pi\in\Lambda}\sum_{i=1}^M \pi_i f_i(\theta)\),其中权重 \(\pi\) 被约束在单纯形子集 \(\Lambda\subseteq\Delta^{M-1}\) 上。每一轮迭代分"节点侧"和"服务器侧"两段:节点算出加权梯度 \(\tilde f_i=\pi_i\nabla f_i(\theta)\),与本地记忆 \(h_i\) 求差 \(\Delta_i=\tilde f_i-h_i\)只把压缩后的差分 \(\hat\Delta_i=Q(\Delta_i)\)标量损失 \(f_i(\theta)\) 上传;服务器聚合差分得到关于 \(\theta\) 的梯度估计 \(g\)、用各节点损失拼出关于 \(\pi\) 的梯度估计 \(p\),然后对 \(\theta\) 做一步乐观外梯度更新、对 \(\pi\) 做一步带 KL 散度的镜像下降,再把新的 \(\theta\)\(\pi_i\) 广播回去。整套设计的核心就是:让通信瓶颈所在的 \(d\) 维上行向量始终是"被压缩的差分",而决定权重的信息只是一个标量。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["输入:θ⁰, π⁰, 局部记忆 h⁰ᵢ"] --> B["Agnostic 加权鞍点<br/>节点算 f̃ᵢ=πᵢ∇fᵢ,上传标量损失 fᵢ(θ)"]
    B --> C["DIANA 差分压缩<br/>Δᵢ=f̃ᵢ−hᵢ,仅上传 Q(Δᵢ),更新 hᵢ"]
    C --> D["乐观外梯度 + 镜像下降<br/>θ 走外梯度步,π 走 KL 镜像下降步"]
    D --> E["单纯形正则 Λ=Δ∩Qₐ<br/>把权重上限压到 a/M"]
    E -->|未收敛,广播 θ,π 回节点| B
    E -->|达到 ε 精度| F["输出:θ_K, π_K"]

关键设计

1. Agnostic 加权鞍点:用标量损失换自动加权

加权方法的根本难点是"权重 \(\pi_i\) 从哪来"。FedAvg 按数据量定权 \(\pi_i=m_i/m\),训练前就固定,只管数量不管质量;后续动态加权方法要么靠梯度差异、要么靠分布散度,往往需要额外通信。本文采用 agnostic 形式 \(\min_\theta\max_{\pi\in\Lambda}\sum_i\pi_i f_i(\theta)\),把"选权重"变成对 \(\pi\) 的内层 \(\max\):哪个客户端损失下降慢(数据更独特/更难),它的 \(\pi_i\) 就会被自动抬高,从而把模型往高质量观测上拉、缓解数据失衡。最妙的是,这个机制对通信几乎免费——服务器只需知道每个节点的标量损失 \(f_i(\theta)\),上传一个数远比上传压缩梯度还便宜。代价是:问题从经典最小化变成了鞍点问题,给算法设计和收敛分析都带来额外难度,这也是为什么不能直接套用已有压缩算法。

2. DIANA 式差分压缩:把"压梯度"换成"压差分",消掉不可消除项

无偏压缩器满足 \(\mathbb{E}[Q(x)]=x,\ \mathbb{E}\|Q(x)\|^2\le\omega\|x\|^2\),其失真随输入范数 \(\|x\|\) 缩放。若直接压缩局部梯度,在最优点 \(\theta^*\) 附近聚合梯度本应趋零,但压缩注入的噪声却不随之消失,造成实践震荡和理论上的 irreducible variance 项。ADI 借鉴 DIANA:节点不压梯度 \(\tilde f_i\),而压它与本地记忆的差分 \(\Delta_i^k=\tilde f_i^k-h_i^k\),上传 \(\hat\Delta_i^k=Q(\Delta_i^k)\) 后更新 \(h_i^{k+1}=h_i^k+\beta\hat\Delta_i^k\)。由于各 \(f_i\)\(L\)-光滑的,临近两点的梯度差有界,算法逼近最优时步长变小、要压缩的差分也越来越细,于是局部状态 \(h_i^k\to\nabla f_i(\theta^*)\)、聚合估计 \(h^k\to 0\),从而收敛到精确最优而非其邻域。作者特意论证了为何选 DIANA 作压缩底座而非 SOTA 的 DASHA 或 MASHA:DASHA 的分析建立在非凸最小化上、难以移植到 SPP;MASHA 虽在 SPP 下做了压缩,却要周期性传输完整梯度,严重限制实用性。以 DIANA 为底,ADI 既避开了"传完整梯度",又拿到了消去 irreducible 项的好处。

3. 乐观外梯度 + 镜像下降:θ 与 π 的双变量交替更新

鞍点问题不能用朴素的 Descent-Ascent,那对很多简单目标都不收敛。ADI 对原变量 \(\theta\) 用乐观(optimistic)外梯度:先做外推 \(\hat g^k=(1+\alpha)g^k-\alpha g^{k-1}\),再 \(\theta^{k+1}=\theta^k-\gamma_\theta\hat g^k\),每轮只需一次梯度评估却保持外梯度的稳定性。对权重 \(\pi\),因为它被约束在单纯形子集 \(\Lambda\) 上,用镜像下降(Mirror Descent)、取 KL 散度作 Bregman 散度:

\[\pi^{k+1}=\arg\min_{\pi\in\Lambda}\Big\{-\gamma_\pi\langle\hat p^k,\pi\rangle+D_{\mathrm{KL}}(\pi,\pi^k)\Big\}\]

其中内积前的负号正是来自 agnostic 目标里对 \(\pi\)\(\max\)。把 \(\theta\) 的外梯度步与 \(\pi\) 的镜像步合在一起,整体构成一步乐观外梯度法,恰好与 DIANA 的差分压缩兼容——后者本身类似方差缩减,二者叠加才使收敛分析中的随机性项被消去。

4. 单纯形正则 \(\Lambda=\Delta^{M-1}\cap Q_a^M\):防止权重塌到噪声客户端

若让 \(\Lambda=\Delta^{M-1}\) 完全自由,最优解会退化成 \(\pi_{i_0}=1\)、其余为 \(0\),把全部权重压到损失最大的那个客户端身上。但损失大未必是"数据独特",也可能是"噪声严重"——噪声客户端损失降得慢,权重反而被越推越高,最终模型过拟合到噪声。作者用 \(\Lambda=\Delta^{M-1}\cap Q_a^M\) 约束,其中 \(Q_a^M=\{x\in\mathbb{R}^M\mid 0\le x_i\le a/M\}\)\(a\in[1,M]\)。参数 \(a\) 调节"灵活加权"与"强平均"的折中:\(a=1\) 退回均等的标准目标 (1),\(a=M\) 则无额外约束。正则不仅是工程 trick,在理论里也起作用——它能让平方根项加速一个 \(\sqrt{a/M}\) 因子。

损失函数 / 训练策略

ADI 在三类假设下给出收敛保证:各 \(f_i\) 满足 \(\tilde L\)-Lipschitz(Assumption 1)、\(L\)-光滑(Assumption 2)、凸(Assumption 3)。收敛以凸-凹鞍点的标准 Gap 函数度量。精确梯度下(Theorem 1,取 \(\alpha=1,\beta=1/\omega,\gamma_\pi=\gamma_\theta=\gamma\le\gamma_0\))有 \(\mathbb{E}[\mathrm{Gap}(z_K)]\le \frac{V}{2\gamma K}\),达到 \(\varepsilon\) 精度需

\[\mathcal{O}\!\left(\frac{1}{\varepsilon}\Big[\tilde L\omega^{3/2}+\tilde L M^{1/2}\omega+L\big(\sqrt{a\omega^3/M}+\omega\big)\Big]\right)\]

轮通信。随机 oracle下(Theorem 2,Assumption 5:无偏、方差 \(\le\sigma^2\))多出一个由 oracle 随机性引入的不可消除项 \(\gamma\frac{64a^2\omega^2}{M}\sigma^2\),最优步长相应变为 \(\gamma=\min\{\gamma_0,\sqrt{VM/(128a^2\omega^2\sigma^2 K)}\}\)部分参与下(Corollary 4-5,节点以 \(\eta\sim\mathrm{Bern}(p)\) 参与、上传 \(\hat\Delta_i=\frac{\eta_i}{p}Q(\Delta_i)\))只需把压缩率 \(\omega\) 按因子 \(p\) 缩放即可保持无偏。作者还把凸假设松弛为 Minty 型 Assumption 4,将分析扩展到非凸设定(Corollary 2)。

实验关键数据

主实验

实验在 CIFAR-10 + ResNet-18 上做图像分类,客户端数 \(M=10\),对比对象是只用压缩或只用加权的代表方法:ADI(无压缩)、DIANA、EF21。数据划分含 i.i.d.(各客户端样本量相同、类别均匀)与 non-i.i.d.(Dirichlet \(\alpha=0.5\),样本量不均)两种异质度,压缩器用 RandK(\(K=10\%,50\%\)),均跑 10k 轮随机 oracle 并各自调参。由于加权方法与经典方法形式上解的是不同优化问题 (1) 与 (3),损失不可直接比,故用准确率衡量。

设置 压缩器 对比基线 ADI 表现
non-i.i.d. Rand10% / Rand50% DIANA, EF21 收敛速度与最终准确率均优于纯压缩基线,异质性越强优势越明显
i.i.d.(同质) Rand10% / Rand50% DIANA, EF21 与基线相当(加权不损害同质场景)
ADI vs ADI(no comp.) RandK —— 压缩仅轻微拖慢迭代收敛,却带来显著的通信比特节省

核心结论:加权机制在 non-i.i.d. 下对收敛起决定性作用,且压缩与加权"叠加"几乎不损失迭代效率;当压缩器取 identity 时,ADI 退化为求解问题 (4) 的乐观外梯度法,即一个独立的加权优化器。

消融实验

第二组实验(Figure 2)把同样的压缩基线额外加上一个启发式 descent-ascent 风格的 agnostic 加权(RandK \(K=10\%\)、non-i.i.d.),用来隔离"本文这套有原则的联合压缩-加权设计"到底贡献了多少。

方法 是否加权 现象
DIANA / EF21(原版) 高异质下收敛较弱
DIANA / EF21(启发式加权) 是(朴素整合) 各方法均有一致提升,但增益有限
ADI(联合设计) 是(有原则) 在这些朴素整合之上取得最强增益

权重演化分析(Figure 3)显示:初始所有客户端权重相等,训练中权重迅速分化并各自收敛到稳定平台,揭示两个阶段——(i) 早期探索期权重剧烈调整;(ii) 后期稳定期一旦全局模型接近最优、权重几乎不再变。即加权主要作用于高梯度的瞬态阶段,恰是客户端贡献差异最具区分度之时。

局限与未来工作

  • 理论保证随压缩单调劣化:加权诱导的项会随压缩率提高而单调恶化收敛保证;只有当权重固定且 \(\omega\le M\) 时,压缩才保证不增加通信复杂度——这与加权方法普遍理论保证偏弱(如 FedAvg 强凸下仅次线性)的现状一致。
  • 依赖凸/光滑假设:主结果建立在凸 + 光滑 + Lipschitz 假设上,虽用 Minty 型假设扩展到非凸,但仍未覆盖一般非光滑、强非凸的真实深度网络场景。
  • 仅限无偏压缩器:分析只针对无偏压缩算子(RandK 类),未涵盖 TopK 这类 contractive(有偏)压缩器,作者将其列为未来方向。
  • 实验规模有限:主文实验为 \(M=10\)、CIFAR-10 量级,更大规模与更细的加权-压缩交互研究放在附录。
  • 未来方向:将鞍点问题的加速方法适配进本框架,以及把分析扩展到 contractive 压缩算子。