跳转至

ExPLoRA: Parameter-Efficient Extended Pre-Training to Adapt Vision Transformers under Domain Shifts

会议: ICML2025
arXiv: 2406.10973
代码: https://samar-khanna.github.io/ExPLoRA/
领域: 遥感
关键词: 参数高效微调, LoRA, 域迁移, 视觉基础模型, 遥感, 自监督预训练

一句话总结

提出 ExPLoRA,通过解冻 1-2 个 ViT block 并对其余层施加 LoRA,以参数高效的方式在目标域上继续自监督预训练,在遥感等域偏移场景下以 <10% 参数量超越从头全量预训练的 SOTA。

研究背景与动机

  • 问题核心:大型视觉基础模型 (VFM) 如 DinoV2、MAE 在自然图像上表现优异,但在遥感、医学等域偏移场景下性能显著下降。现有方案是在新域上从头全量预训练 VFM,计算成本极高(ViT-L 全量预训练需 960+ GPU 小时)。
  • LoRA 局限:标准 LoRA 假设权重更新 \(\Delta W\) 处于低秩子空间,该假设在源域与目标域分布相近时成立,但在自然图像 → 多光谱遥感等大域偏移时往往失效。
  • 研究问题:能否在保留自然图像预训练知识的前提下,仅用一小部分参数高效地将 VFM 适配到新域的无监督预训练中?

方法详解

核心思想

将最终目标域任务权重分解为三部分:

\[W_T^{(\tau)} \approx W_S + \Delta_T + \Delta^{(\tau)}\]

其中 \(W_S\) 为源域预训练权重,\(\Delta_T\) 为域适配无监督更新(ExPLoRA 阶段),\(\Delta^{(\tau)}\) 为下游任务有监督微调更新。

ExPLoRA 算法

  1. 初始化:用 DinoV2 或 MAE 的预训练权重 \(W_S\) 初始化 ViT。
  2. 选择性解冻:将 \(L\) 层 ViT block 划分为两组:
    • \(\mathcal{U}\)(如 \(\{L\}\)\(\{1, L\}\)):完全解冻全部参数。
    • \(\mathcal{L} \setminus \mathcal{U}\):冻结主体权重,仅在 Q、V 注意力矩阵上施加 LoRA(秩 \(r\)),同时解冻所有 block 的归一化层。
  3. 继续自监督预训练:在目标域无标签数据 \(\mathcal{X}_T\) 上,使用与 \(W_S\) 相同的无监督损失 \(\mathcal{C}_S\)(如 DinoV2 损失或 MAE 重建损失)训练所有解冻参数。

优化目标

\[\Delta_T = \arg\min_{\theta \in \Theta(\mathcal{U}, r)} \left( \min_\psi \sum_{\mathbf{x} \in \mathcal{X}_T} \mathcal{C}_S\left(g_\psi\left(f_\theta(\mathbf{x}; W_S)\right), \mathbf{x}\right) \right)\]

其中 \(f_\theta\) 为 ViT 编码器,\(g_\psi\) 为解码器(如 Dino/MAE head),\(\Theta(\mathcal{U}, r)\) 约束可训练参数空间。

下游微调

ExPLoRA 后得到 \(W_T^* = W_S + \Delta_T\),丢弃解码器 \(g_\psi\),将 LoRA 矩阵合并回 ViT 主体,保持原始架构不变。下游任务可灵活使用线性探测、LoRA 微调或全量微调。

多光谱扩展

对于 SatMAE 的多光谱 ViT,需额外解冻位置编码和各通道组的 patch embedding 权重,因为 \(W_S\) 仅在 RGB 上训练,无法直接初始化多通道输入。

实验关键数据

fMoW-RGB 分类(ViT-L,62 类)

方法 预训练参数 微调参数 预训练 GPU h Top-1 Acc
ScaleMAE (全量) 303.3M 303.3M 960 77.80%
SatMAE (全量) 303.3M 303.3M 960 77.78%
DinoV2 + LoRA-r8 0.8M 78.08%
DinoV2 + AdaLoRA-r8 1.2M 78.87%
D-[L]-r64 + LoRA-r8 18.7M 0.8M 100 79.28%

fMoW-RGB 线性探测

方法 Top-1 Acc
SatMAE (从头预训练) 65.94%
DinoV2 69.00%
D-[L]-r64 (ExPLoRA) 77.48%

ExPLoRA 线性探测精度较 DinoV2 提升 +8.48%,优于所有从头全量预训练方法。

消融实验要点

配置 参数量 GPU h LP Acc
DinoV2 基线 69.00%
从头全量预训练 303.3M 1200 54.29%
解冻 [L] + 无 LoRA 12.7M 90 74.83%
解冻 [L] + LoRA-r64 Q,V 18.7M 100 77.48%
解冻 [1,L-1,L] + LoRA-r64 43.4M 180 78.04%

多光谱 fMoW-Sentinel

ExPLoRA(M-[1,L]-r32)在仅 29.7M 预训练参数、320 GPU 小时下达到 60.15% top-1 准确率,接近从头全量预训练的 SatMAE(303.3M 参数,1150 GPU 小时,61.48%),计算成本降低约 3.6×。

亮点与洞察

  1. 参数效率极高:仅用全模型 6% 的参数(18.7M vs 303.3M)和 8× 更少的计算量就超越全量预训练 SOTA。
  2. 知识迁移范式转换:证明从头在新域预训练不是必需的,从自然图像模型高效迁移是更优路径。
  3. LoRA 发挥在预训练阶段:首次系统性地将 LoRA 用于无监督预训练的域适配,而非传统的有监督微调。
  4. 灵活组合性:ExPLoRA 与下游 PEFT 方法(LoRA、SA2VP、VPT 等)正交可组合。
  5. 关键发现:LoRA 仅作用于 Q、V 矩阵效果最优;作用于 MLP 或全部矩阵反而大幅降低性能。

局限与展望

  • 域覆盖有限:主要在遥感上做了深入 case study,医学/农业等域仅在 WILDS 上做了初步验证。
  • 仅限 ViT 架构:方法绑定 Transformer block 结构,对 CNN 或混合架构的适用性未探索。
  • 解冻策略依赖经验:解冻哪些 block(首/尾)目前靠消融确定,缺乏理论指导或自动选择机制。
  • 多光谱效果尚有差距:在 fMoW-Sentinel 上尚未完全追平从头预训练的 SatMAE,多光谱域偏移更大仍具挑战。
  • 预训练目标受限:ExPLoRA 要求使用与源模型相同的自监督目标函数,无法灵活替换为更适合目标域的预训练策略。

评分

  • 新颖性: ⭐⭐⭐⭐ — 将 LoRA 用于无监督预训练域适配的思路新颖,分解 \(W_S + \Delta_T + \Delta^{(\tau)}\) 的框架清晰
  • 实验充分度: ⭐⭐⭐⭐ — 消融全面(block 选择、秩大小、LoRA 位置),多数据集验证,计算成本对比详尽
  • 写作质量: ⭐⭐⭐⭐ — 符号清晰,算法伪代码简洁,图表信息量大
  • 价值: ⭐⭐⭐⭐⭐ — 为资源受限场景下的域适配提供了立即可用的高效方案,遥感领域实用性强