Branch, or Layer? Zeroth-Order Optimization for Continual Learning of Vision-Language Models¶
会议: AAAI 2026
arXiv: 2506.12409
代码: 无
领域: 多模态VLM
关键词: 零阶优化, 持续学习, CLIP, 参数高效微调, 模态感知优化
一句话总结¶
本文系统探索了零阶(ZO)优化在基于PEFT的视觉-语言持续学习(VLCL)中的应用,发现全ZO替换会导致训练不稳定,提出从分支级(branch-wise)到层级(layer-wise)的渐进式ZO-FO混合策略,并基于视觉模态方差更大的理论发现提出MoZO策略(梯度符号归一化+视觉扰动约束),在四个benchmark上达到SOTA。
背景与动机¶
基于VLM(如CLIP)的持续学习(VLCL)近年发展迅速,PEFT策略(如LoRA、MoE adapter)让这些模型能以较低资源开销实现竞争力性能。然而,现有方法几乎清一色使用一阶(FO)优化(SGD/Adam),其确定性更新路径在PEFT的低维参数子空间中容易陷入尖锐局部极小值,导致对当前任务过拟合,加剧灾难性遗忘。零阶(ZO)优化通过随机扰动估计梯度,天然具有跳出局部极小的能力,且不需要反向传播,显存占用更低。但ZO在VLCL中的适用性从未被系统研究。
核心问题¶
如何将ZO优化有效地集成到VLCL中以提升性能? 具体而言:(1)简单地把FO全部替换为ZO会导致什么问题?(2)ZO应该被应用在哪个模态分支(视觉 vs 语言)?(3)在单个分支内部,ZO应该被应用在哪些层(连续层 vs 交错层)?(4)两个模态在ZO优化下的行为差异如何处理?
方法详解¶
整体框架¶
基于冻结的CLIP-ViT-B/16骨架,仅训练附加在每一层上的适配器模块(MoE adapter或LoRA)。核心思想是将FO和ZO优化协同应用于不同模态分支和网络层:一部分可训练单元用ZO优化(随机扰动估计梯度,提供探索能力),另一部分保持FO优化(精确梯度,提供稳定性)。最终通过MoZO策略进一步优化。
关键设计¶
-
分支级ZO探索(Branch-wise):首先研究三种分支级配置——Dual(双分支ZO)、Vision(仅视觉ZO+语言FO)、Language(仅语言ZO+视觉FO)。实验发现:Dual w/ ZO导致严重的loss震荡和性能崩溃(Last./Avg.平均下降8.5%/9.5%);单分支ZO则表现接近甚至超越baseline,且Language w/ ZO普遍优于Vision w/ ZO,因为语言分支张量维度更低、对随机扰动更鲁棒。
-
层级ZO探索(Layer-wise):在确定单分支ZO有效后,进一步探索四种层级配置:Hop-odd(奇数层ZO)、Hop-even(偶数层ZO)、Prefix(six)(前6层ZO)、Suffix(six)(后6层ZO)。关键发现:交错式(Hop-odd/even)显著优于连续式(Prefix/Suffix),因为浅层关注局部特征、深层捕获抽象语义,统一优化方法忽略了这种多样性,而ZO-FO交错能更好匹配每层对探索和稳定的不同需求。Dual w/ ZO + layer-wise平均比全分支ZO提升9.4%。
-
MoZO(Modality-aware ZO)策略:通过分析梯度方差分布,发现视觉分支在ZO下的梯度方差显著大于语言分支,导致优化不稳定。MoZO包含两个组件:
- 梯度符号归一化:对ZO估计的梯度取sign,只保留方向信息,丢弃幅度信息,抑制异常大梯度
- 模态差异化扰动:为视觉分支设置更小的扰动因子 \(\epsilon_v < \epsilon_l\),约束视觉分支的参数探索幅度
损失函数 / 训练策略¶
- ZO梯度估计:\(\nabla_{ZO}\mathcal{L}(\theta) \approx \frac{\mathcal{L}(\theta + \varepsilon\Delta) - \mathcal{L}(\theta)}{\varepsilon} \cdot \Delta\),其中 \(\Delta\) 为随机方向向量,\(\varepsilon=0.001\)
- 采用保守ZO策略:评估多个候选更新,选择loss最低的那个应用(而非激进的单次估计直接更新)
- MoZO更新规则:视觉分支用 \(\epsilon_v \xi_t\) 扰动,语言分支用 \(\epsilon_l \xi_t\) 扰动,\(\epsilon_v < \epsilon_l\)
- FO/ZO混合比例 \(\lambda=1\),在第一个task上验证超参后保持不变
实验关键数据¶
基线为MoE4Adapter(CVPR 2024 SOTA),骨架CLIP-ViT-B/16。
| 数据集 (配置) | 指标 | Baseline (FO) | Dual ZO | Vision ZO | Language ZO | Layer-wise最优 |
|---|---|---|---|---|---|---|
| CIFAR Inc10 | Last. | 80.47 | 69.29 (-11.2) | 76.05 | 80.94 (+0.5) | 82.41 (Vis. Hop-even) |
| CIFAR Inc10 | Avg. | 86.97 | 77.36 (-9.6) | 83.93 | 87.00 | 88.51 (Lan. Hop-odd) |
| TinyImg Inc10 | Last. | 77.52 | 67.64 (-9.9) | 72.98 | 76.74 | 79.39 (Vis. Hop-odd) |
| TinyImg Inc10 | Avg. | 85.21 | 75.88 (-9.3) | 82.08 | 85.03 | 87.05 (Lan. Hop-odd) |
| TinyImg Inc20 | Last. | 52.13 | 42.40 (-9.7) | 49.65 | 49.14 | 52.27 (Vis. Hop-even) |
| TinyImg Inc20 | Avg. | 60.55 | 47.64 (-12.9) | 57.90 | 58.69 | 60.98 (Vis. Hop-even) |
| ImgR Inc20 | Last. | 65.36 | 58.56 (-6.8) | 62.54 | 64.38 | 65.68 (Vis. Hop-odd) |
| ImgR Inc20 | Avg. | 71.53 | 65.92 (-5.6) | 69.84 | 70.38 | 72.16 (Lan. Hop-even) |
MoZO进一步提升(Dual w/ Hop-even → MoZO):
| 数据集 | Last. | Avg. |
|---|---|---|
| CIFAR Inc10 | 79.12 → 79.87 (+0.75) | 86.81 → 87.25 (+0.44) |
| TinyImg Inc20 | 51.95 → 52.46 (+0.51) | 60.53 → 61.23 (+0.70) |
| ImgR Inc20 | 64.99 → 65.80 (+0.81) | 71.29 → 71.82 (+0.53) |
显存效率(MoE设置):
| 配置 | MoE显存 | LoRA显存 |
|---|---|---|
| Baseline (全FO) | 19.96GB | 15.11GB |
| Dual w/ ZO | 2.17GB (-89.1%) | 1.73GB |
| Vision w/ ZO | 6.93GB (-65.3%) | 5.71GB |
| Language w/ ZO | 12.39GB (-37.9%) | 11.09GB |
消融实验要点¶
- ZO策略选择:激进ZO*(单次估计直接更新)性能最差(Dual: 66.67 Last.),保守ZO(多候选选最优)中等,加上Sign梯度归一化后最好(Language+Sign: 78.52 Last.),验证了梯度幅度控制的重要性
- 交错 vs 连续层:交错式(Hop-odd/even)始终优于连续式(Prefix/Suffix),因为交错时梯度方差显著更低,训练更稳定
- LoRA设置下的一致性:将MoE替换为LoRA后,所有趋势一致——layer-wise ZO有效、交错优于连续、MoZO进一步提升
- 显著性分析:5次运行中,Language w/ ZO的方差最小、性能最优,验证了语言分支更适合ZO的结论
亮点¶
- 系统性的实证探索:从branch-wise到layer-wise的渐进式研究路径清晰、实验设计严谨,逐层揭示ZO在VLCL中的最佳应用方式
- 理论动机与实验验证结合:视觉模态方差更大这一发现不是凭空假设,而是通过梯度方差分布图实验验证后,再提出针对性解决方案
- 显存优势明显:ZO消除了反向传播,Dual ZO减少89%显存,为资源受限场景提供可行方案
- 对PEFT优化的新视角:揭示了FO在低维子空间容易陷入局部极小这一被忽视的问题,ZO-FO协同是一种新颖的解决思路
局限与展望¶
- 仅限CLIP:只在CLIP-ViT-B/16上验证,未测试更大模型(如ViT-L/14)或其他VLM架构(如BLIP-2、LLaVA)
- 仅限图像-文本模态:未探索音频、视频等其他模态,而论文自己也指出这是limitation
- 数据集规模偏小:CIFAR-100、Tiny-ImageNet、ImageNet-R都是相对小规模数据集,未在更大规模CL benchmark上验证
- MoZO提升幅度有限:虽然一致提升,但幅度较小(0.4~0.8%),和layer-wise ZO带来的大幅提升相比显得不够显著
- 缺乏与其他CL方法的直接对比:主要对比的是MoE4Adapter+不同ZO配置,缺少与PROOF、CLAP4CLIP等其他VLCL方法的全面对比
- 超参\(\epsilon_v\)和\(\epsilon_l\)的选择:论文未详细说明视觉/语言扰动因子的具体值和调参过程
- 计算开销:保守ZO策略需要评估多个候选更新,虽然省显存但可能增加训练时间,论文缺少训练时间对比
与相关工作的对比¶
- vs MoE4Adapter (CVPR 2024):本文的直接baseline,用MoE架构实现PEFT-based VLCL的SOTA。本文在其基础上引入ZO优化,通过layer-wise配置可超越其全FO性能,同时大幅减少显存
- vs ZeroFlow (2025):同为将ZO应用于持续学习的工作,但ZeroFlow未区分模态差异,且主要面向CNN架构。本文首次系统研究ZO在VLM多模态场景下的应用,发现并解决了模态间优化差异问题
- vs MeZO (NeurIPS 2023):MeZO将ZO应用于LLM微调,但未考虑持续学习场景和多模态分支差异。本文发现简单全ZO替换在VLCL中失效,必须进行分支级和层级的精细配置
- vs BOFA:同在AAAI 2026的CLIP-based持续学习工作,使用正交低秩融合。两者解决同一问题但路径不同——BOFA从参数空间正交性出发,本文从优化器选择出发
启发与关联¶
- ZO-FO混合优化的思想可以推广到其他PEFT场景(如VLM的instruction tuning),特别是在显存受限时
- 视觉模态方差更大这一发现暗示,在多模态学习中视觉和语言分支可能需要不同的优化策略(不仅是学习率),这对多模态训练策略设计有启发
- 交错层优于连续层的发现与ResNet中skip connection的思想异曲同工,提示层间的优化器多样性有益于特征学习
评分¶
- 新颖性: ⭐⭐⭐⭐ 首次系统研究ZO在VLCL中的应用,视角新颖;但ZO本身不是新技术,MoZO的设计(sign+小扰动)较为直觉
- 实验充分度: ⭐⭐⭐⭐ 分支级+层级的系统探索非常全面,消融丰富;但数据集偏小,缺少与更多VLCL方法的对比
- 写作质量: ⭐⭐⭐ 逻辑框架清晰,但行文有冗余,部分段落重复表述同一观点;公式符号不够统一
- 价值: ⭐⭐⭐⭐ 为PEFT-based VLCL提供了新的优化视角和实用方案,显存优势明显;但CLIP+小数据集的场景限制了实际影响力