ExPLoRA: Parameter-Efficient Extended Pre-Training to Adapt Vision Transformers under Domain Shifts¶
会议: ICML2025
arXiv: 2406.10973
代码: https://samar-khanna.github.io/ExPLoRA/
领域: 遥感
关键词: 参数高效微调, LoRA, 域迁移, 视觉基础模型, 遥感, 自监督预训练
一句话总结¶
提出 ExPLoRA,通过解冻 1-2 个 ViT block 并对其余层施加 LoRA,以参数高效的方式在目标域上继续自监督预训练,在遥感等域偏移场景下以 <10% 参数量超越从头全量预训练的 SOTA。
研究背景与动机¶
- 问题核心:大型视觉基础模型 (VFM) 如 DinoV2、MAE 在自然图像上表现优异,但在遥感、医学等域偏移场景下性能显著下降。现有方案是在新域上从头全量预训练 VFM,计算成本极高(ViT-L 全量预训练需 960+ GPU 小时)。
- LoRA 局限:标准 LoRA 假设权重更新 \(\Delta W\) 处于低秩子空间,该假设在源域与目标域分布相近时成立,但在自然图像 → 多光谱遥感等大域偏移时往往失效。
- 研究问题:能否在保留自然图像预训练知识的前提下,仅用一小部分参数高效地将 VFM 适配到新域的无监督预训练中?
方法详解¶
核心思想¶
将最终目标域任务权重分解为三部分:
其中 \(W_S\) 为源域预训练权重,\(\Delta_T\) 为域适配无监督更新(ExPLoRA 阶段),\(\Delta^{(\tau)}\) 为下游任务有监督微调更新。
ExPLoRA 算法¶
- 初始化:用 DinoV2 或 MAE 的预训练权重 \(W_S\) 初始化 ViT。
- 选择性解冻:将 \(L\) 层 ViT block 划分为两组:
- \(\mathcal{U}\)(如 \(\{L\}\) 或 \(\{1, L\}\)):完全解冻全部参数。
- \(\mathcal{L} \setminus \mathcal{U}\):冻结主体权重,仅在 Q、V 注意力矩阵上施加 LoRA(秩 \(r\)),同时解冻所有 block 的归一化层。
- 继续自监督预训练:在目标域无标签数据 \(\mathcal{X}_T\) 上,使用与 \(W_S\) 相同的无监督损失 \(\mathcal{C}_S\)(如 DinoV2 损失或 MAE 重建损失)训练所有解冻参数。
优化目标¶
其中 \(f_\theta\) 为 ViT 编码器,\(g_\psi\) 为解码器(如 Dino/MAE head),\(\Theta(\mathcal{U}, r)\) 约束可训练参数空间。
下游微调¶
ExPLoRA 后得到 \(W_T^* = W_S + \Delta_T\),丢弃解码器 \(g_\psi\),将 LoRA 矩阵合并回 ViT 主体,保持原始架构不变。下游任务可灵活使用线性探测、LoRA 微调或全量微调。
多光谱扩展¶
对于 SatMAE 的多光谱 ViT,需额外解冻位置编码和各通道组的 patch embedding 权重,因为 \(W_S\) 仅在 RGB 上训练,无法直接初始化多通道输入。
实验关键数据¶
fMoW-RGB 分类(ViT-L,62 类)¶
| 方法 | 预训练参数 | 微调参数 | 预训练 GPU h | Top-1 Acc |
|---|---|---|---|---|
| ScaleMAE (全量) | 303.3M | 303.3M | 960 | 77.80% |
| SatMAE (全量) | 303.3M | 303.3M | 960 | 77.78% |
| DinoV2 + LoRA-r8 | – | 0.8M | – | 78.08% |
| DinoV2 + AdaLoRA-r8 | – | 1.2M | – | 78.87% |
| D-[L]-r64 + LoRA-r8 | 18.7M | 0.8M | 100 | 79.28% |
fMoW-RGB 线性探测¶
| 方法 | Top-1 Acc |
|---|---|
| SatMAE (从头预训练) | 65.94% |
| DinoV2 | 69.00% |
| D-[L]-r64 (ExPLoRA) | 77.48% |
ExPLoRA 线性探测精度较 DinoV2 提升 +8.48%,优于所有从头全量预训练方法。
消融实验要点¶
| 配置 | 参数量 | GPU h | LP Acc |
|---|---|---|---|
| DinoV2 基线 | – | – | 69.00% |
| 从头全量预训练 | 303.3M | 1200 | 54.29% |
| 解冻 [L] + 无 LoRA | 12.7M | 90 | 74.83% |
| 解冻 [L] + LoRA-r64 Q,V | 18.7M | 100 | 77.48% |
| 解冻 [1,L-1,L] + LoRA-r64 | 43.4M | 180 | 78.04% |
多光谱 fMoW-Sentinel¶
ExPLoRA(M-[1,L]-r32)在仅 29.7M 预训练参数、320 GPU 小时下达到 60.15% top-1 准确率,接近从头全量预训练的 SatMAE(303.3M 参数,1150 GPU 小时,61.48%),计算成本降低约 3.6×。
亮点与洞察¶
- 参数效率极高:仅用全模型 6% 的参数(18.7M vs 303.3M)和 8× 更少的计算量就超越全量预训练 SOTA。
- 知识迁移范式转换:证明从头在新域预训练不是必需的,从自然图像模型高效迁移是更优路径。
- LoRA 发挥在预训练阶段:首次系统性地将 LoRA 用于无监督预训练的域适配,而非传统的有监督微调。
- 灵活组合性:ExPLoRA 与下游 PEFT 方法(LoRA、SA2VP、VPT 等)正交可组合。
- 关键发现:LoRA 仅作用于 Q、V 矩阵效果最优;作用于 MLP 或全部矩阵反而大幅降低性能。
局限与展望¶
- 域覆盖有限:主要在遥感上做了深入 case study,医学/农业等域仅在 WILDS 上做了初步验证。
- 仅限 ViT 架构:方法绑定 Transformer block 结构,对 CNN 或混合架构的适用性未探索。
- 解冻策略依赖经验:解冻哪些 block(首/尾)目前靠消融确定,缺乏理论指导或自动选择机制。
- 多光谱效果尚有差距:在 fMoW-Sentinel 上尚未完全追平从头预训练的 SatMAE,多光谱域偏移更大仍具挑战。
- 预训练目标受限:ExPLoRA 要求使用与源模型相同的自监督目标函数,无法灵活替换为更适合目标域的预训练策略。
评分¶
- 新颖性: ⭐⭐⭐⭐ — 将 LoRA 用于无监督预训练域适配的思路新颖,分解 \(W_S + \Delta_T + \Delta^{(\tau)}\) 的框架清晰
- 实验充分度: ⭐⭐⭐⭐ — 消融全面(block 选择、秩大小、LoRA 位置),多数据集验证,计算成本对比详尽
- 写作质量: ⭐⭐⭐⭐ — 符号清晰,算法伪代码简洁,图表信息量大
- 价值: ⭐⭐⭐⭐⭐ — 为资源受限场景下的域适配提供了立即可用的高效方案,遥感领域实用性强