跳转至

Converge Faster, Talk Less: Hessian-Informed Federated Zeroth-Order Optimization

会议: ICLR 2026
arXiv: 2506.02370
代码: 待确认
领域: 优化 / 联邦学习
关键词: 联邦学习, zeroth-order optimization, Hessian preconditioning, 标量通信, LLM 微调

一句话总结

提出 HiSo(Hessian-informed Scalar-only communication),在联邦零阶优化中利用全局对角 Hessian 近似加速收敛,同时严格保持标量通信不传输任何二阶信息。理论证明在低有效秩和白化假设下收敛速率独立于 Lipschitz 常数 \(L\) 和模型维度 \(d\);实验在 OPT-350M/1.3B/2.7B 微调中实现 1.4~5.4× 通信轮次加速,通信成本仅 KB 级。

研究背景与动机

领域现状:联邦学习 LLM 微调面临严重的通信瓶颈——FedAvg 对 OPT-1.3B 每个客户端需约 1~5 TB 通信量。DeComFL 利用零阶梯度的标量-种子表示实现维度无关通信(TB→KB 级),但收敛极慢。

现有痛点:ZO-SGD 使用各向同性随机方向搜索梯度(\(u \sim \mathcal{N}(0, I)\)),完全忽略 LLM 参数空间的异构曲率——高曲率方向和低曲率方向被等权搜索,导致梯度估计方差大、收敛率 \(\mathcal{O}(\sqrt{Ld/mR})\) 依赖维度 \(d\) 和 Lipschitz 常数 \(L\)。传统的 Hessian 预处理需要 \(O(d)\)\(O(d^2)\) 通信,直接破坏标量通信框架。

核心矛盾:曲率信息能显著加速收敛(Adam/二阶方法已证明),但在标量通信框架下传输任何 Hessian 相关信息都会线性或二次增加通信开销——与维度无关通信的根本目标矛盾。

本文目标:如何在严格保持标量通信(每轮仅传递一个梯度标量 \(g\) 和随机种子)的前提下,利用 Hessian 信息加速联邦零阶优化的收敛?

切入角度:关键观察是全局聚合的零阶梯度更新量 \(\Delta x_r\) 本身可以从标量重构(已用于模型重构步骤),因此可以"免费"地用 Adam 风格的 EMA 从这些已有变量中计算对角 Hessian 近似——无需任何额外通信。

核心 idea:用 Hessian 逆平方根扭曲随机扰动方向使其沿高曲率方向更精细搜索,而 Hessian 本身从已有的全局梯度标量中免费计算,实现零额外通信成本的曲率加速。

方法详解

整体框架

首先提出通用标量通信 FL 框架(Algorithm 1),将标量通信与具体优化器解耦——不再绑定 ZO-SGD,而是允许任何能用标量+状态表示更新方向的优化算法。在此框架内,HiSo 用 Hessian 引导的零阶更新替代 ZO-SGD:扰动方向从各向同性 \(u \sim \mathcal{N}(0, I)\) 改为 \(z \sim \mathcal{N}(0, H_r^{-1})\),更新量的期望值从梯度下降 \(\nabla f\) 变为 Newton 风格下降 \(H_r^{-1}\nabla f\)

关键设计 1:Hessian 引导的零阶梯度估计

  • 功能:将 ZO 梯度估计从各向同性搜索升级为曲率引导的定向搜索
  • 核心思路:将局部更新形式化为最小化梯度估计误差的子问题(式 5-6),在标量表示约束下求解最优上升方向。解为 \(\Delta x = \frac{1}{\mu}[f(x + \mu H_r^{-1/2}u) - f(x)] \cdot H_r^{-1/2}u\),其期望值 \(\mathbb{E}[\Delta x] \approx H_r^{-1}\nabla f(x)\)——等价于自然梯度/Newton 下降。关键:更新仍只产生一个标量 \(g\),通信维度无关性完全保持
  • 设计动机\(H_r^{-1/2}\) 将各向同性搜索变换为沿 Hessian 特征方向的非均等搜索——高曲率方向搜索更精细、低曲率方向搜索更粗,大幅降低梯度估计方差

关键设计 2:零通信成本的全局对角 Hessian 学习

  • 功能:在服务端和客户端同步维护全局对角 Hessian 近似,不增加任何通信开销
  • 核心思路:利用 Adam 风格的 EMA 从全局聚合的更新量计算:\(H_{r+1} = (1-\nu)H_r + \nu \text{Diag}([\Delta x_r]^2 + \epsilon I)\)。关键观察是 \(\Delta x_r\) 可以完全从标量和随机种子重构(这些信息已用于模型重构步骤),因此 Hessian 计算是"免费的"——无需额外通信、无需额外函数求值
  • 设计动机:对角近似避免 \(d^2\) 存储,EMA 平滑避免噪声波动,\(\epsilon\) 保证正定性——与 RMSProp 在精神上一致但应用在零阶 FL 场景

关键设计 3:低白化秩的方差压缩理论

  • 功能:为 Hessian 引导带来的加速提供严格理论解释
  • 核心思路:引入"白化秩" \(\zeta = \text{Tr}(H^{-1/2}\Sigma H^{-1/2})\) 衡量 Hessian 近似的质量。当 \(H\) 是良好近似时,\(\zeta \ll L\kappa \ll Ld\),ZO 梯度方差从标准的 \(Ld\) 压缩到 \(\zeta\)——收敛率从 \(\mathcal{O}(\sqrt{Ld/mR})\) 改善为 \(\mathcal{O}(\sqrt{\zeta/mR})\),独立于 \(d\)\(L\)
  • 设计动机:LLM 的 Hessian 特征值呈长尾分布(有效秩远小于维度),对角 Hessian 近似的白化操作可以有效压平这一分布

损失函数/训练策略

标准联邦学习目标:\(\min_x f(x) = \frac{1}{M}\sum_{i=1}^M f_i(x)\)。每轮均匀采样客户端子集,客户端执行 \(\tau\) 步本地更新后上传标量。Hessian 仅在每轮开始时通过 \(\tau\) 步 EMA 更新一次。

实验关键数据

主实验:HiSo 通信轮次加速(Table 2)

模型 方法 SST-2 轮次 SST-2 加速 QQP 轮次 QQP 加速 SQuAD 轮次 SQuAD 加速
OPT-350M DeComFL 550 775 1350
HiSo 275 425 1.8× 250 5.4×
OPT-1.3B DeComFL 1500 1125 350
HiSo 1075 1.4× 750 1.5× 175
OPT-2.7B DeComFL 1250 1475 450
HiSo 775 1.6× 975 1.5× 200 2.3×

通信成本节省:29%~80%(如 OPT-350M SQuAD 从 52.73KB 降至 9.77KB,降 81%)。

全面基线对比:LLM 微调精度与通信成本(Table 3)

模型 方法 SST-2 Acc SST-2 通信 QQP Acc QQP 通信 SQuAD F1 SQuAD 通信
OPT-125M FedAvg 87.63% 0.15 TB 61.21% 0.08 TB 37.27 0.05 TB
FedAdam 88.29% 0.30 TB 63.18% 0.06 TB 37.98 0.03 TB
DeComFL 85.21% 22.92 KB 60.11% 32.17 KB 34.12 17.42 KB
HiSo 85.55% 14.69 KB 60.72% 21.23 KB 35.26 7.12 KB
OPT-350M FedAvg 89.79% 0.58 TB 63.32% 0.31 TB 43.38 0.12 TB
DeComFL 86.72% 21.56 KB 60.58% 30.35 KB 38.20 52.73 KB
HiSo 87.50% 17.33 KB 62.49% 18.63 KB 39.13 20.51 KB
OPT-1.3B FedAvg 90.48% 0.63 TB 65.77% 0.32 TB 60.39 0.41 TB
FedAdam 92.86% 0.79 TB 64.59% 1.10 TB 61.56 0.27 TB
FedZO 90.01% 4.73 TB 62.91% 3.53 TB 57.26 1.10 TB
DeComFL 90.22% 58.59 KB 63.25% 43.95 KB 57.14 13.67 KB
HiSo 90.34% 49.18 KB 64.20% 96.67 KB 57.58 7.81 KB

关键发现

  • HiSo vs DeComFL 全面胜出:在所有模型规模(OPT-125M ~ 2.7B)和所有任务上,HiSo 以更少通信轮次达到更高精度。最大加速 5.4×(OPT-350M SQuAD),最小 1.4×(OPT-1.3B SST-2)
  • 通信量 vs 一阶方法对比悬殊:HiSo 的通信成本为 KB 级(7~97 KB),一阶方法为 TB 级(0.03~4.73 TB),差距可达 9000 万倍(如 FedZO 4.73 TB vs HiSo 49.18 KB)
  • 精度 vs 一阶方法的差距可接受:HiSo SST-2 上 OPT-1.3B 达 90.34% vs FedAdam 92.86%,差 2.5 个百分点但通信成本从 0.79 TB 降至 49.18 KB
  • Hessian EMA 参数 \(\nu\) 鲁棒:不同 \(\nu\) 值对收敛和最终精度影响可忽略
  • 学习到的 Hessian 对角元呈长尾分布:与低有效秩假设一致,验证了理论基础

亮点与洞察

  • "免费的午餐"设计思想:Hessian 信息从已有的全局标量中提取(这些标量已用于模型重构),零额外通信——将"约束"(标量通信)转化为"优势"(免费的 Hessian)
  • 理论突破:首个在零阶 FL 中实现维度无关 + Lipschitz 无关收敛率的结果(\(\mathcal{O}(\sqrt{\zeta/mR})\)),同时解决了 DeComFL 在多步本地更新下无法提供低有效秩保证的开放问题
  • 通用框架贡献:将标量通信与特定优化器解耦的 Algorithm 1,未来可接入更多优化算法(如动量、方差减少等)
  • "白化秩"概念\(\zeta = \text{Tr}(H^{-1/2}\Sigma H^{-1/2})\) 提供了比"有效秩" \(\kappa\) 更紧的方差上界,从理论上解释了为什么实践中 ZO 收敛远快于 \(\mathcal{O}(d)\) 的最坏情况

局限与展望

  • 对角 Hessian 是粗糙近似——非对角曲率信息(如参数间交互)被完全忽略,对高度耦合的参数空间可能效果打折
  • 低有效秩 + 白化假设是否对所有 LLM 层都成立?论文承认难以验证但以实验间接支撑
  • 虽然精度与 HiSo 接近一阶方法了,但 OPT-1.3B QQP 上通信成本(96.67 KB)高于 DeComFL(43.95 KB),说明加速并非在所有场景下均匀
  • 仅在分类/QA 任务上验证,生成式任务(如续写、对话)未测试
  • 当前不含动量项(类似 RMSProp 而非 Adam),论文提到可扩展但未实验

相关工作与启发

  • vs DeComFL:HiSo 是 DeComFL 的严格推广(\(H_r \equiv I\) 时退化为 DeComFL),同为标量通信但加速 1.4~5.4×,且理论覆盖多步本地更新
  • vs FedAdam/FedYogi:一阶自适应 FL 方法精度更高但需 \(O(d)\) 通信。HiSo 在标量通信约束下近似实现了类似的自适应效果
  • vs Hessian-aware ZO (单机):Ye et al. (2018) 和 Zhao et al. (2025) 在单机设置验证了 Hessian ZO 的有效性;HiSo 首次将其推广到联邦标量通信场景并解决了 Hessian 通信问题
  • 启发:标量通信框架的通用性意味着方差减少、动量等技术都可能"免费"引入,通信受限的联邦优化还有很大提升空间

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 标量通信 + Hessian 引导的完美结合,"免费 Hessian"的观察巧妙,理论贡献(\(\zeta\) 和白化秩)扎实
  • 实验充分度: ⭐⭐⭐⭐ 三种 OPT 规模 × 三个任务的完整网格,与一阶和 ZO 基线全面对比,但缺少生成式任务验证
  • 写作质量: ⭐⭐⭐⭐ 框架推导和理论分析清晰,从子问题到算法到理论的逻辑链完整
  • 价值: ⭐⭐⭐⭐⭐ 对通信受限的联邦 LLM 微调有直接实用价值,通用框架打开了后续研究空间