BiPA: Bilevel Prompt Adaptation for Underwater Instance Segmentation¶

会议: CVPR 2026
论文: CVF Open Access
代码: https://github.com/ZeAstra/BiPA
领域: 水下实例分割 / 分割
关键词: 水下实例分割, SAM 适配, 双层优化, 提示学习, 贝叶斯优化

一句话总结¶

BiPA 把 SAM 的 dense prompt 学习重新表述为一个「prompt 在上层、模型参数在下层」的双层优化问题，再用贝叶斯优化 + 两阶段训练策略把它做成可解，配上一个前景注意力注入模块补局部细节，从而把通用 SAM 高效迁移到严重退化的水下场景，在 UIIS / USIS10K 上 mAP 全面超过此前 SOTA。

研究背景与动机¶

领域现状：水下实例分割要在浑浊、散射、波长相关吸收的非空气介质里把每个目标实例分出来并预测精确 mask，支撑生态监测、资源勘探等任务。SAM 凭十亿级 mask 预训练有很强的通用分割与 zero-shot 能力，于是近期工作（UWSAM、USIS-SAM）纷纷想把 SAM 的视觉先验迁到水下。

现有痛点：水下与空气域存在巨大 domain gap——散射和偏色把数据分布整体搬走，SAM 在空气里学到的「prompt→mask」泛化被侵蚀，直接套用会急剧掉点。已有的 SAM 适配方法（如 USIS-SAM）通常把 dense prompt 冻结、只调别的部分，缺少一个显式机制去跨这道域间鸿沟、也没把 SAM 的知识真正挖出来。

核心矛盾：dense prompt 和模型参数是相互耦合的——更强的 dense prompt 会重塑 loss landscape 和下降轨迹，而模型权重又反过来约束 prompt 的可行空间。但 vanilla 端到端联合训练把这两个变量混在一起同时更新，抹掉了这层潜在的主从对应关系，导致 prompt 学不好、收敛到次优点（论文 Fig.4 的蓝色路径）。

本文目标：在把 SAM 适配到水下时，显式建模 prompt 与参数的相互依赖，学出一个真正面向水下的 domain-specific dense prompt，把跨域适配做对、做高效。

切入角度：作者借鉴超参学习视角——既然 dense prompt 本质上是调制模型行为的「超参数」，那就该用上层选 prompt、下层学权重的层级结构来优化，而不是把它当普通可学习参数一起梯度下降。

核心 idea：把 dense prompt 学习写成双层优化（上层用验证集选 prompt、下层用训练集学权重），并用「贝叶斯优化搜 prompt + 冻结 prompt 微调模型」的两阶段策略把这个原本昂贵的双层问题做成可解。

方法详解¶

整体框架¶

BiPA 由两大件组成：一个带双提示的水下 SAM 主干，和一个前景注意力注入（FAI）模块；外面再套一层把 dense prompt 当超参数学的双层优化 + 两阶段训练流程。

输入是一张水下图像 \(Y\)。主干用 adapter 增强的 ViT-Huge 作 image encoder 抽全局特征，SAM 的 mask decoder 在 dense prompt 与 sparse prompt 双重条件下预测实例 mask。和 USIS-SAM「冻结 dense prompt」不同，BiPA 让 dense（粗区域先验、定位目标）与 sparse（细化边界）两路提示端到端联合学习。与此并行，一个冻结的 ResNet-50 抽多尺度局部特征，经 FAI 模块在全局上下文引导下注入回 ViT 特征，补 ViT 全局自注意力容易丢的水下局部细节。训练时只微调双提示、adapter 和 FAI 模块，其余冻结。

关键在于 dense prompt 不和模型参数一起裸奔更新，而是被放到上层用贝叶斯优化来搜：先在「适配阶段」反复迭代——下层在训练集上跑 \(K_a\) 步学权重，上层用 Optuna 跑 \(K_b\) 步搜 prompt，warm-start 进下一轮；拿到最优 prompt \(\rho^*\) 后再进「微调阶段」，冻结 \(\rho^*\) 单独把模型参数在训练集上 fine-tune 到收敛。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["水下图像 Y"] --> B["双提示水下 SAM<br/>dense 粗定位 + sparse 细边界<br/>ViT-Huge + adapter"]
    A --> C["前景注意力注入 FAI<br/>ResNet-50 局部 + 全局引导融合"]
    C --> B
    B --> D["双层建模 dense prompt<br/>上层选 prompt·下层学权重"]
    D -->|适配阶段·贝叶斯优化搜 ρ| E["两阶段学习策略<br/>先搜 prompt 再冻结微调模型"]
    E -->|微调阶段·冻结 ρ* 调 ω| F["实例分割 mask"]

关键设计¶

1. 双提示水下 SAM + 前景注意力注入：补回 ViT 丢掉的局部前景

ViT encoder 靠全局自注意力建模，在低质量水下图像里常常丢失细小局部结构、在浑浊低对比区域力不从心。BiPA 一方面把 SAM 的提示拆成双提示协同：dense prompt 给一个粗区域先验来大致定位目标，sparse prompt（由一个 sparse prompt generator 产生）负责把边界细化成精确 mask，二者联合学习而非像 USIS-SAM 那样冻结 dense。另一方面用 FAI 模块把局部前景线索注回主干：冻结的 ResNet-50 抽多尺度特征 \(\{G_v\}_{v\in\{1,2,3,4\}}\)，ViT 在第 8/16/24/32 层抽 \(\{F_u\}\)，两路在空间分辨率上对齐。

注入时先各自净化——ResNet 流过 Efficient Multi-scale Attention 得 \(\bar G_v=\mathrm{EMA}(G_v)\)，ViT 流过一个尺度感知采样算子 \(\bar F_u=\mathrm{SS}(F_u)\)，它按分辨率大小决定上采样 / 不变 / 下采样：当 \(S(G_v)>S(F_u)\) 时上采样、相等时只过 multi-conv、更小时下采样。最后用一个权重生成器 \(\varphi\) 做全局引导融合：

\[H_o = (1-\alpha)\odot \bar G_v + \alpha\odot \bar F_u,\quad \alpha=\varphi(\bar F_u,\bar G_v),\]

其中 \(\varphi\) 分析两路异构主干的特征、输出逐位置的相关性权重 \(\alpha\)。这样融合是以 ViT 的全局上下文为条件来决定「该信局部还是信全局」，比简单相加更稳——消融里相加式融合只有 43.5 mAP，FAI 拿到 45.2。

2. dense prompt 的双层建模：把 prompt 当超参数，显式刻画与参数的主从依赖

vanilla 联合训练把 dense prompt \(\rho\) 和模型参数 \(\omega\) 同时梯度更新，混淆了二者的潜在对应关系。BiPA 借鉴超参学习视角，把 dense prompt 学习写成一个双层问题——上层在验证集上选 prompt，下层在训练集上学权重：

\[\min_{\rho} f\big(\rho,\omega(\rho);\mathcal{D}_{val}\big),\quad \text{s.t. }\ \omega(\rho)\in\arg\min_{\omega} g\big(\omega,\rho;\mathcal{D}_{tr}\big).\]

这里把 dense prompt \(\rho\) 当成模型参数 \(\omega\) 的超参数，划出一条清晰的优化边界：\(\mathcal{D}_{val}\) 只用来选 prompt，所有权重 \(\omega\) 只从 \(\mathcal{D}_{tr}\) 学、绝不参与上层目标的梯度更新。于是下层 \(g\) 在给定 \(\rho\) 下优化 \(\omega\)，上层 \(f\) 在给定 \(\omega\) 下优化 \(\rho\)，形成显式层级关系：下层解 \(\omega(\rho)\) 引导上层 prompt 学习、增强跨域适配能力，上层 prompt \(\rho\) 又塑造下层的 loss landscape 与下降轨迹。损失上取 \(f:=\ell_m\)（mask 像素 BCE）、\(g:=\ell_s=\ell_c+\ell_b+\ell_m\)（标准 Mask R-CNN 损失），上层只盯 mask 质量。

3. 两阶段学习策略：用贝叶斯优化替代昂贵的 hypergradient

双层问题常规解法是 hypergradient——展开内层若干训练步或用隐式微分回传。但代表性的 BLO-SAM 是在 few-shot（仅 2–8 张图）上做的，而这里内层是 USIS10K 的 7,442 张图，规模大近三个数量级；每次上层更新都要回传穿过大数据集上的多步内层梯度，显存和时间随内层迭代数、训练集规模、外层循环三重放大，根本跑不动。

BiPA 因此把上层当黑盒、用贝叶斯优化（BO）在现实算力预算下搜超参，绕开 hypergradient。适配阶段先从零学一个 256 维 dense prompt embedding；BO 时把它分成 \(N_g=16\) 组、每组配一个标量权重，把上层搜索空间从 256 维压到 16 维，只更新组权重来最小化验证目标：

\[\rho_{k+1}=\mathrm{Optuna}\big(\rho_k,\omega_{K_a},s_0,N,B,f,\mathcal{D}_{val}\big),\]

其中 \(\rho_k\) 是调制 256 维 prompt 的当前组权重，\(\omega_{K_a}\) 是在 \(\rho_k\) 下内层跑 \(K_a\) 步后的参数，\(s_0\) 是 BO 初始搜索空间（边界与先验），\(N\) 是 BO 试验数，\(B\) 是优化区间，黑盒 Optuna 返回让 \(f\) 最小的下一个候选。外层每轮 \(t\le T\)：给定 \(\rho_t\) 先在训练目标 \(g\) 上跑 \(K_a\) 步，固定 \(\omega_{K_a}\) 后把 \(f\) 当黑盒在 \(\rho\) 上搜 \(K_b\) 步，再用 \(\omega_0\leftarrow\omega_{K_a}\) warm-start 下一轮，循环得到适配后的 \(\rho^*\)。微调阶段冻结 \(\rho^*\)，单独把网络参数在 \(\mathcal{D}_{tr}\) 上更新至多 \(K_c\) 步或收敛：

\[\omega_{k+1}=\omega_k-\bar\eta_\omega\frac{\partial g(\omega_k,\rho^*;\mathcal{D}_{tr})}{\partial\omega}.\]

直觉（Fig.4）：同样 \(T\) 步，naive 路径在 landscape 里走到次优区，BiPA 因为先把 prompt 搜对、轨迹更短更直，能逼近最优点。

损失函数 / 训练策略¶

沿用水下实例分割惯用的标准 Mask R-CNN 损失 \(\ell_s=\ell_c+\ell_b+\ell_m\)（分类交叉熵 + smooth-\(\ell_1\) 回归 + 逐像素 BCE）。双层里上层目标 \(f:=\ell_m\)、下层目标 \(g:=\ell_s\)。ViT-Huge 与 ResNet-50（ImageNet 预训练）冻结，输入 resize 到 \(1024\times1024\)，batch size 2，AdamW，初始学习率 \(1\times10^{-4}\)、weight decay \(1\times10^{-3}\)。迭代超参 \(K_a=30,\ K_b=21,\ K_c=7,\ T=3\)，单张 RTX 4090，基于 MMDetection 实现，按验证最优选最终模型。

实验关键数据¶

主实验¶

UIIS 上的水下实例分割（mAP / AP 越高越好）：BiPA 五项指标全面最优，mAP 较 USIS-SAM 相对提升 8%+。

方法	mAP	AP50	AP75	APs	APm	APl
Mask2Former	28.1	42.9	30.5	5.3	22.5	43.5
WaterMask（水下专用）	26.4	43.6	28.8	9.1	21.1	38.1
USIS-SAM（前 SOTA）	29.5	45.9	31.9	8.1	23.8	41.0
BiPA（本文）	32.1	48.7	35.2	7.2	25.6	45.6

USIS10K 上的水下显著实例分割（multi-class / class-agnostic），每个 mAP 都比次优至少高 5%：

方法	MC mAP	MC AP50	MC AP75	CA mAP	CA AP50	CA AP75
ConvNeXt-V2	39.5	55.4	44.5	62.3	85.0	72.5
WaterMask	37.7	54.0	42.5	58.3	80.2	66.5
USIS-SAM	43.1	59.0	48.5	59.7	81.6	67.7
BiPA（本文）	45.2	60.5	52.5	64.2	85.1	74.0

消融实验¶

学习策略对比（frozen / naive / BiPA，Table 3）+ 两阶段中间结果（Table 4）+ FAI 必要性（Fig.9）：

配置	UIIS mAP	USIS10K mAP	说明
Frozen（冻结 prompt）	30.9	44.4	保留 SAM 先验但只抓粗形状
Naive（联合裸更新）	31.3	43.6	较 frozen 几乎没改进，印证 Fig.4 收敛到次优
BiPA	32.1	45.2	双层 + 两阶段，全指标最高
仅适配阶段	29.8	—	已能做出可用分割
+ 微调阶段	32.1	—	冻结 \(\rho^*\) 再调，UIIS mAP +2.3
FAI 相加式融合	—	43.5	简单相加不如 FAI 的 45.2，证明 FAI 必要

参数分析（Table 5，UIIS）：优化区间 \(B\) 越大越稳，\(B=[1,3]\) 最优（mAP 32.1）；分组数 \(N_g=16\) 最佳（8→31.5、16→32.1、32→30.8），组数过大反而掉点。

关键发现¶

两阶段是核心增益来源：仅适配阶段就有可用的 29.8 mAP，说明先学一个面向水下的 dense prompt 本身就立得住；冻结它再微调模型把 UIIS mAP 推到 32.1（+2.3），证明「先把 prompt 搜对、再独立调权重」比同时更新更有效。
naive 联合训练几乎无效：直接联合更新只比冻结好一点（31.3 vs 30.9），边界与覆盖都没本质改善，正面印证了「混淆 prompt 与参数依赖会收敛到次优」的动机。
代价小、收益大：相比 USIS-SAM，BiPA 多用 5.59% 参数、仅多 0.42% FLOPs（737M / 3314G vs 698M / 3300G），却把两数据集平均 mAP 提了 6.95%，accuracy-to-cost 更划算。
保住了 SAM 的泛化：直接把 UIIS 上训练的模型用到 UIIS10K 的未见类别（Artiodactyla / Mollusk / Garbage），BiPA 在 zero-shot 下仍能给出比 WaterMask、USIS-SAM 更完整准确的 mask，而 USIS-SAM 在未见类上的优势并不稳定。

亮点与洞察¶

把 prompt 当超参数、用双层优化建模 prompt↔参数依赖，是这篇最「啊哈」的点：它给出了一条清晰的优化边界（验证集只选 prompt、训练集只学权重），从理论上解释了为什么 naive 联合训练学不好 dense prompt。
用贝叶斯优化绕开 hypergradient 是务实的工程取舍：内层 7,442 张图让展开式双层求解不现实，把上层当黑盒搜、再把 256 维压成 16 组，直接把双层优化从「跑不动」变成单卡 4090 可训。这个「大数据集上做双层优化」的思路可迁移到别的 SAM/大模型适配任务。
FAI 的全局引导融合 不是简单拼接，而是用 \(\varphi\) 输出逐位置权重 \(\alpha\)、以 ViT 全局上下文决定信局部还是信全局，给「ViT 缺局部细节」提供了一个轻量但有效的补丁。

局限与展望¶

作者承认实时性受限：双提示 + FAI + ViT-Huge 的组合算力不小，未来想用知识蒸馏做硬件感知的轻量化，并把双层框架扩到严格效率约束下。
未见类别的泛化只给了定性证据：因 UIIS 与 UIIS10K 类别无可靠一一映射，作者放弃了定量评测、只展示可视化对比，跨域泛化的量化优势缺少硬指标支撑。
贝叶斯优化引入 \(K_a/K_b/K_c/T/N_g/B\) 等多个需调的超参，论文给了默认值但搜索成本与可复现性对算力较敏感；\(N_g\)、\(B\) 的甜点也提示该方法对这些设置不算鲁棒。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次把双层优化引入水下实例分割，并把 dense prompt 当超参数建模其与参数的主从依赖。
实验充分度: ⭐⭐⭐⭐ 两数据集主结果 + 学习策略/两阶段/FAI/参数多组消融充分，但跨域泛化只有定性证据。
写作质量: ⭐⭐⭐⭐ 动机—公式—算法—消融链条清晰，Fig.4 优化路径示意把核心直觉讲得直观。
价值: ⭐⭐⭐⭐ 给出一条「大数据集上低成本做双层 prompt 适配」的可迁移范式，对 SAM 域适配有借鉴意义。