Zeroth-Order Fine-Tuning of LLMs in Random Subspaces¶

会议: ICCV 2025
arXiv: 2410.08989
代码: https://github.com/zimingyy/SubZero
领域: 优化
关键词: 零阶优化, LLM微调, 随机子空间, 低秩扰动, 内存高效

一句话总结¶

提出 SubZero（random Subspace Zeroth-order），通过逐层低秩扰动在随机子空间中估计梯度，显著降低零阶优化的梯度方差和角度误差，以接近推理的内存开销实现 LLM 的高效微调。

研究背景与动机¶

大语言模型（LLMs）的微调通常依赖一阶优化器（SGD/Adam），但随着模型规模增长，反向传播所需的内存开销变得难以承受。MeZO 首次将零阶（ZO）优化引入 LLM 微调，仅需前向传播即可估计梯度，内存开销与推理相当。

核心矛盾：ZO 梯度估计的方差与扰动维度（即模型参数量）成线性关系——对于拥有数十亿参数的 LLM，这会导致极大的方差，严重拖慢收敛速度和最终性能。

现有缓解方案存在不足： - 增大 batch size：后期开销急剧增加 - 稀疏扰动（如 S-MeZO 的剪枝掩码）：启发式选择，缺乏理论支撑 - 随机子空间方法（如 S-RGF）：需要存储 \(d \times q\) 的巨大投影矩阵（\(q\) 倍于模型大小），对 LLM 完全不可行

切入角度：利用 LLM 的层式矩阵结构，在每层独立构建低秩子空间（\(\mathbf{U}_i \in \mathbb{R}^{m_i \times r}\), \(\mathbf{V}_i \in \mathbb{R}^{n_i \times r}\)），只在 \(r \times r\) 的极小空间中采样扰动。投影矩阵是列正交的且惰性更新，既避免了巨大投影矩阵的存储，又保证了低方差。

方法详解¶

整体框架¶

SubZero 保持 MeZO 的"两次前向传播估计梯度"范式，但扰动方式从全参数空间的高斯随机向量改为逐层低秩矩阵 \(\tilde{\mathbf{Z}}_i = \mathbf{U}_i \mathbf{Z}_i \mathbf{V}_i^\top\)，其中 \(\mathbf{Z}_i \in \mathbb{R}^{r \times r}\) 是低维高斯随机矩阵，\(r \ll \min(m_i, n_i)\)。

关键设计¶

逐层低秩扰动：对第 \(i\) 层参数矩阵 \(\mathbf{W}_i \in \mathbb{R}^{m_i \times n_i}\)，通过 QR 分解两个高斯随机矩阵获得列正交投影矩阵 \(\mathbf{U}_i\) 和 \(\mathbf{V}_i\)。扰动的损失差为： \(\rho = \frac{\mathcal{L}(\mathcal{W} + \varepsilon\tilde{\mathcal{Z}}; \mathcal{B}) - \mathcal{L}(\mathcal{W} - \varepsilon\tilde{\mathcal{Z}}; \mathcal{B})}{2\varepsilon}\) 第 \(i\) 层的梯度估计为 \(\hat{\nabla}\mathcal{L}(\mathbf{W}_i) = \rho \mathbf{U}_i \mathbf{Z}_i \mathbf{V}_i^\top\)。

设计动机：相比模型级投影（S-RGF 的 \(\mathbf{P} \in \mathbb{R}^{d \times q}\)），层级投影矩阵是块对角的，等价形式为 \(\mathbf{P} = \text{bdiag}(\mathbf{V}_1 \otimes \mathbf{U}_1, \cdots, \mathbf{V}_l \otimes \mathbf{U}_l)\)，满足 \(\mathbf{P}^\top \mathbf{P} = \mathbf{I}_q\)，且不需要存储完整的 \(d \times q\) 矩阵。实验表明列正交矩阵显著优于高斯随机投影矩阵（Table 5，RTE 上 74.0% vs 67.5%）。

惰性子空间更新（Lazy Update）：投影矩阵 \(\mathbf{U}_i, \mathbf{V}_i\) 每 \(F\) 步重新生成一次（默认 \(F=1000\)），中间步骤复用。过于频繁的更新增加 QR 分解开销且限制子空间探索；过于稀疏则子空间过时。消融实验（Table 7）显示 \(F=1000\) 是较优选择。
非方阵 Reshape 策略：LoRA 的低秩矩阵 \(\mathbf{A}_i \in \mathbb{R}^{m_i \times k}\)（\(k \ll m_i\)）过于瘦长，无法找到更小的 \(r \ll k\) 来构造低秩扰动。解决方案：将 \(\mathbf{A}_i\) reshape 为近似方阵 \(\mathbf{A}'_i \in \mathbb{R}^{m'_i \times k'}\)（保持元素总量不变），再在方阵上应用低秩扰动。消融（Table 8）证实该策略对 PEFT 方案至关重要：prompt tuning 从 74.2% 提升到 89.1%。

损失函数 / 训练策略¶

默认使用 SGD（无 momentum）作为基础优化器，保持与 MeZO 相同的内存效率
采用范数对齐技巧（Norm Alignment）：将低秩扰动按 \(\mu = \sqrt{mn/r^2}\) 缩放，使其范数与全维扰动匹配，从而可直接复用 MeZO 的学习率和扰动尺度超参数
在 in-place 操作和逐层参数更新的实现下，内存开销与推理几乎相同

实验关键数据¶

主实验（OPT-13B, SuperGLUE 11 任务）¶

方法	SST-2	RTE	CB	BoolQ	WSC	WIC	MultiRC	COPA	ReCoRD	SQuAD	DROP	AVG偏差
MeZO(FT)	92.1	71.5	71.4	74.4	61.5	60.0	60.1	87.0	82.0	84.2	31.2	0%
SubZero(FT)	92.1	74.0	73.2	75.3	65.4	60.8	61.0	88.0	82.3	84.5	32.0	+1.89%
MeZO(LoRA)	92.2	74.4	69.6	75.2	64.4	59.7	58.2	87.0	82.0	82.9	31.0	0%
SubZero(LoRA)	93.8	75.5	71.4	76.1	65.4	60.3	60.3	89.0	81.9	83.7	31.3	+1.57%

消融实验¶

LLaMA2-7B 和 OPT-1.3B 在不同微调方案下的表现：

模型	方案	MeZO	SubZero	SGD
LLaMA2-7B	FT	64.3	71.4	69.6
LLaMA2-7B	Prompt	60.7	66.1	69.6
OPT-1.3B	FT	92.3	93.4	93.2
OPT-1.3B	Prompt	85.9	89.1	90.7

SubZero 在 LLaMA-7B 全参数微调上比 MeZO 提升 7.1%，甚至超过 SGD。

关键发现¶

梯度质量显著提升（Fig. 1）：SubZero 的梯度与期望梯度的余弦相似度显著高于 MeZO，方差显著更低
内存几乎不增加：OPT-13B 上 SubZero 仅比 MeZO 多 1.73% 内存（26.53 vs 26.08 GB），而 S-RGF 需要 23.8 GB（RoBERTa-large 实验）
时间开销可控：QR 分解带来的额外时间开销在所有 OPT 模型上均 < 9%

亮点与洞察¶

核心洞察精准：LLM 微调的梯度快速收敛到低维子空间，这为低秩扰动提供了天然 justification
Reshape 策略虽然简单，但对 PEFT 场景至关重要，解决了 LoRA 矩阵极端长宽比的问题
理论保证完善：证明了梯度估计与 BP 梯度在子空间中的接近性（Theorem 5b）和收敛率 \(\mathcal{O}(d/\epsilon)\)

局限与展望¶

未与二阶 ZO 优化器（如 HiZOO）和动量 ZO（如 ZO-AdaMU）进行系统组合评估
收敛率仍依赖参数维度 \(d\)，虽然常数项通过子空间减小了
QR 分解的频率 \(F\) 和秩 \(r\) 的选择目前依赖手动调参
理论分析基于二次损失假设，与实际 LLM 损失景观的匹配度有待验证

评分¶

新颖性：⭐⭐⭐⭐ — 层级低秩扰动 + 惰性更新的设计简洁有效
理论深度：⭐⭐⭐⭐ — 梯度逼近和收敛性分析完整
实验充分度：⭐⭐⭐⭐⭐ — 多模型、多方案、多任务全面对比
实用性：⭐⭐⭐⭐⭐ — 即插即用，内存开销与推理持平