Converge Faster, Talk Less: Hessian-Informed Federated Zeroth-Order Optimization¶

会议: ICLR 2026
arXiv: 2506.02370
代码: 待确认
领域: 优化 / 联邦学习
关键词: 联邦学习, zeroth-order optimization, Hessian preconditioning, 标量通信, LLM 微调

一句话总结¶

提出 HiSo（Hessian-informed Scalar-only communication），在联邦零阶优化中利用全局对角 Hessian 近似加速收敛，同时严格保持标量通信不传输任何二阶信息。理论证明在低有效秩和白化假设下收敛速率独立于 Lipschitz 常数 \(L\) 和模型维度 \(d\)；实验在 OPT-350M/1.3B/2.7B 微调中实现 1.4~5.4× 通信轮次加速，通信成本仅 KB 级。

研究背景与动机¶

领域现状：联邦学习 LLM 微调面临严重的通信瓶颈——FedAvg 对 OPT-1.3B 每个客户端需约 1~5 TB 通信量。DeComFL 利用零阶梯度的标量-种子表示实现维度无关通信（TB→KB 级），但收敛极慢。

现有痛点：ZO-SGD 使用各向同性随机方向搜索梯度（\(u \sim \mathcal{N}(0, I)\)），完全忽略 LLM 参数空间的异构曲率——高曲率方向和低曲率方向被等权搜索，导致梯度估计方差大、收敛率 \(\mathcal{O}(\sqrt{Ld/mR})\) 依赖维度 \(d\) 和 Lipschitz 常数 \(L\)。传统的 Hessian 预处理需要 \(O(d)\) 或 \(O(d^2)\) 通信，直接破坏标量通信框架。

核心矛盾：曲率信息能显著加速收敛（Adam/二阶方法已证明），但在标量通信框架下传输任何 Hessian 相关信息都会线性或二次增加通信开销——与维度无关通信的根本目标矛盾。

本文目标：如何在严格保持标量通信（每轮仅传递一个梯度标量 \(g\) 和随机种子）的前提下，利用 Hessian 信息加速联邦零阶优化的收敛？

切入角度：关键观察是全局聚合的零阶梯度更新量 \(\Delta x_r\) 本身可以从标量重构（已用于模型重构步骤），因此可以"免费"地用 Adam 风格的 EMA 从这些已有变量中计算对角 Hessian 近似——无需任何额外通信。

核心 idea：用 Hessian 逆平方根扭曲随机扰动方向使其沿高曲率方向更精细搜索，而 Hessian 本身从已有的全局梯度标量中免费计算，实现零额外通信成本的曲率加速。

方法详解¶

整体框架¶

首先提出通用标量通信 FL 框架（Algorithm 1），将标量通信与具体优化器解耦——不再绑定 ZO-SGD，而是允许任何能用标量+状态表示更新方向的优化算法。在此框架内，HiSo 用 Hessian 引导的零阶更新替代 ZO-SGD：扰动方向从各向同性 \(u \sim \mathcal{N}(0, I)\) 改为 \(z \sim \mathcal{N}(0, H_r^{-1})\)，更新量的期望值从梯度下降 \(\nabla f\) 变为 Newton 风格下降 \(H_r^{-1}\nabla f\)。

关键设计 1：Hessian 引导的零阶梯度估计¶

功能：将 ZO 梯度估计从各向同性搜索升级为曲率引导的定向搜索
核心思路：将局部更新形式化为最小化梯度估计误差的子问题（式 5-6），在标量表示约束下求解最优上升方向。解为 \(\Delta x = \frac{1}{\mu}[f(x + \mu H_r^{-1/2}u) - f(x)] \cdot H_r^{-1/2}u\)，其期望值 \(\mathbb{E}[\Delta x] \approx H_r^{-1}\nabla f(x)\)——等价于自然梯度/Newton 下降。关键：更新仍只产生一个标量 \(g\)，通信维度无关性完全保持
设计动机：\(H_r^{-1/2}\) 将各向同性搜索变换为沿 Hessian 特征方向的非均等搜索——高曲率方向搜索更精细、低曲率方向搜索更粗，大幅降低梯度估计方差

关键设计 2：零通信成本的全局对角 Hessian 学习¶

功能：在服务端和客户端同步维护全局对角 Hessian 近似，不增加任何通信开销
核心思路：利用 Adam 风格的 EMA 从全局聚合的更新量计算：\(H_{r+1} = (1-\nu)H_r + \nu \text{Diag}([\Delta x_r]^2 + \epsilon I)\)。关键观察是 \(\Delta x_r\) 可以完全从标量和随机种子重构（这些信息已用于模型重构步骤），因此 Hessian 计算是"免费的"——无需额外通信、无需额外函数求值
设计动机：对角近似避免 \(d^2\) 存储，EMA 平滑避免噪声波动，\(\epsilon\) 保证正定性——与 RMSProp 在精神上一致但应用在零阶 FL 场景

关键设计 3：低白化秩的方差压缩理论¶

功能：为 Hessian 引导带来的加速提供严格理论解释
核心思路：引入"白化秩" \(\zeta = \text{Tr}(H^{-1/2}\Sigma H^{-1/2})\) 衡量 Hessian 近似的质量。当 \(H\) 是良好近似时，\(\zeta \ll L\kappa \ll Ld\)，ZO 梯度方差从标准的 \(Ld\) 压缩到 \(\zeta\)——收敛率从 \(\mathcal{O}(\sqrt{Ld/mR})\) 改善为 \(\mathcal{O}(\sqrt{\zeta/mR})\)，独立于 \(d\) 和 \(L\)
设计动机：LLM 的 Hessian 特征值呈长尾分布（有效秩远小于维度），对角 Hessian 近似的白化操作可以有效压平这一分布

损失函数/训练策略¶

标准联邦学习目标：\(\min_x f(x) = \frac{1}{M}\sum_{i=1}^M f_i(x)\)。每轮均匀采样客户端子集，客户端执行 \(\tau\) 步本地更新后上传标量。Hessian 仅在每轮开始时通过 \(\tau\) 步 EMA 更新一次。

实验关键数据¶

主实验：HiSo 通信轮次加速（Table 2）¶

模型	方法	SST-2 轮次	SST-2 加速	QQP 轮次	QQP 加速	SQuAD 轮次	SQuAD 加速
OPT-350M	DeComFL	550	1×	775	1×	1350	1×
	HiSo	275	2×	425	1.8×	250	5.4×
OPT-1.3B	DeComFL	1500	1×	1125	1×	350	1×
	HiSo	1075	1.4×	750	1.5×	175	2×
OPT-2.7B	DeComFL	1250	1×	1475	1×	450	1×
	HiSo	775	1.6×	975	1.5×	200	2.3×

通信成本节省：29%~80%（如 OPT-350M SQuAD 从 52.73KB 降至 9.77KB，降 81%）。

全面基线对比：LLM 微调精度与通信成本（Table 3）¶

模型	方法	SST-2 Acc	SST-2 通信	QQP Acc	QQP 通信	SQuAD F1	SQuAD 通信
OPT-125M	FedAvg	87.63%	0.15 TB	61.21%	0.08 TB	37.27	0.05 TB
	FedAdam	88.29%	0.30 TB	63.18%	0.06 TB	37.98	0.03 TB
	DeComFL	85.21%	22.92 KB	60.11%	32.17 KB	34.12	17.42 KB
	HiSo	85.55%	14.69 KB	60.72%	21.23 KB	35.26	7.12 KB
OPT-350M	FedAvg	89.79%	0.58 TB	63.32%	0.31 TB	43.38	0.12 TB
	DeComFL	86.72%	21.56 KB	60.58%	30.35 KB	38.20	52.73 KB
	HiSo	87.50%	17.33 KB	62.49%	18.63 KB	39.13	20.51 KB
OPT-1.3B	FedAvg	90.48%	0.63 TB	65.77%	0.32 TB	60.39	0.41 TB
	FedAdam	92.86%	0.79 TB	64.59%	1.10 TB	61.56	0.27 TB
	FedZO	90.01%	4.73 TB	62.91%	3.53 TB	57.26	1.10 TB
	DeComFL	90.22%	58.59 KB	63.25%	43.95 KB	57.14	13.67 KB
	HiSo	90.34%	49.18 KB	64.20%	96.67 KB	57.58	7.81 KB

关键发现¶

HiSo vs DeComFL 全面胜出：在所有模型规模（OPT-125M ~ 2.7B）和所有任务上，HiSo 以更少通信轮次达到更高精度。最大加速 5.4×（OPT-350M SQuAD），最小 1.4×（OPT-1.3B SST-2）
通信量 vs 一阶方法对比悬殊：HiSo 的通信成本为 KB 级（7~97 KB），一阶方法为 TB 级（0.03~4.73 TB），差距可达 9000 万倍（如 FedZO 4.73 TB vs HiSo 49.18 KB）
精度 vs 一阶方法的差距可接受：HiSo SST-2 上 OPT-1.3B 达 90.34% vs FedAdam 92.86%，差 2.5 个百分点但通信成本从 0.79 TB 降至 49.18 KB
Hessian EMA 参数 \(\nu\) 鲁棒：不同 \(\nu\) 值对收敛和最终精度影响可忽略
学习到的 Hessian 对角元呈长尾分布：与低有效秩假设一致，验证了理论基础

亮点与洞察¶

"免费的午餐"设计思想：Hessian 信息从已有的全局标量中提取（这些标量已用于模型重构），零额外通信——将"约束"（标量通信）转化为"优势"（免费的 Hessian）
理论突破：首个在零阶 FL 中实现维度无关 + Lipschitz 无关收敛率的结果（\(\mathcal{O}(\sqrt{\zeta/mR})\)），同时解决了 DeComFL 在多步本地更新下无法提供低有效秩保证的开放问题
通用框架贡献：将标量通信与特定优化器解耦的 Algorithm 1，未来可接入更多优化算法（如动量、方差减少等）
"白化秩"概念：\(\zeta = \text{Tr}(H^{-1/2}\Sigma H^{-1/2})\) 提供了比"有效秩" \(\kappa\) 更紧的方差上界，从理论上解释了为什么实践中 ZO 收敛远快于 \(\mathcal{O}(d)\) 的最坏情况

局限与展望¶

对角 Hessian 是粗糙近似——非对角曲率信息（如参数间交互）被完全忽略，对高度耦合的参数空间可能效果打折
低有效秩 + 白化假设是否对所有 LLM 层都成立？论文承认难以验证但以实验间接支撑
虽然精度与 HiSo 接近一阶方法了，但 OPT-1.3B QQP 上通信成本（96.67 KB）高于 DeComFL（43.95 KB），说明加速并非在所有场景下均匀
仅在分类/QA 任务上验证，生成式任务（如续写、对话）未测试
当前不含动量项（类似 RMSProp 而非 Adam），论文提到可扩展但未实验

评分¶

新颖性: ⭐⭐⭐⭐⭐ 标量通信 + Hessian 引导的完美结合，"免费 Hessian"的观察巧妙，理论贡献（\(\zeta\) 和白化秩）扎实
实验充分度: ⭐⭐⭐⭐ 三种 OPT 规模 × 三个任务的完整网格，与一阶和 ZO 基线全面对比，但缺少生成式任务验证
写作质量: ⭐⭐⭐⭐ 框架推导和理论分析清晰，从子问题到算法到理论的逻辑链完整
价值: ⭐⭐⭐⭐⭐ 对通信受限的联邦 LLM 微调有直接实用价值，通用框架打开了后续研究空间