Training-Free Open-Vocabulary Camouflaged Object Segmentation via Fine-Grained Object Binding and Adaptive Hybrid Prompt¶
会议: CVPR 2026
论文: CVF Open Access
领域: 语义分割 / 开放词表 / 伪装目标分割
关键词: 伪装目标分割, 开放词表, 训练自由, 对象绑定, CLIP+SAM
一句话总结¶
本文提出一个完全免训练的开放词表伪装目标分割(OVCOS)框架:用 MLLM 为每张图生成细粒度的「对象描述 + 背景描述」补全稀疏文本语义,再用语义探针(Semantic Probe)解耦对象/背景特征、按 Spearman 排序一致性建模 patch 之间的类别相似度实现精确「对象绑定」,配合熵引导的文本嵌入调整(EGTEA)和自适应混合提示(AHPG)驱动 SAM,在 OVCamo 上大幅超过此前最强的免训练方法 ResCLIP(六指标平均 +16.8%)。
研究背景与动机¶
领域现状:伪装目标分割(COS)旨在分割那些与背景高度相似、肉眼难辨的物体(如枯枝上的竹节虫、草丛里的麻鸦)。开放词表版本 OVCOS 进一步要求模型能分割训练时没见过的伪装类别。现有 OVCOS 方法(OVCoser、SuCLIP)走的是全监督路线,依赖像素级 mask 标注训练。
现有痛点:全监督范式有两个硬伤——一是需要昂贵的 mask 标注,二是容易过拟合到已见类(seen class),泛化到新伪装类别时掉点严重。而 OVSS 领域已有的免训练范式(直接复用 CLIP + SAM/DINO,无需任何训练)虽然能即插即用、快速迁移到新域,但搬到伪装场景就失灵了:它们普遍用稀疏文本提示("a photo of a {class}")并直接拿 patch-文本相似度图做分割,缺乏精确的「对象绑定」(object binding,即文本提示与具体视觉对象之间的准确映射)能力。
核心矛盾:作者把免训练方法在伪装场景失灵的根因归为两点。① 文本语义稀疏:一句"a photo of a {class}"只给了类别名,没有伪装对象的细粒度属性(颜色、纹理、形状)和背景语义描述,模型很容易被背景语义干扰。② 忽视 patch 间类别相似关系:现有方法直接用单个 patch 的相似度,而在伪装场景里物体和背景的局部视觉特征极其相似,单 patch 的文本相似度极易被背景扭曲。但同属一个伪装物体的不同 patch,其类别分布本应高度相关——这种相关性没被建模,进一步阻碍了准确绑定。
本文目标 & 核心 idea:不训练、不标注,靠「补全文本语义 + 显式建模 patch 间类别一致性」来恢复对象绑定能力。具体把 MLLM 生成的细粒度描述当文本先验,用语义探针 + Spearman 排序一致性把绑定做精,再用熵引导调整文本嵌入压制背景偏置,最后生成混合提示喂给 SAM 出 mask。
方法详解¶
整体框架¶
整个框架是一条全冻结、零训练的串行流水线:输入一张伪装图,输出该图中伪装物体的分割掩码及其开放词表类别。所有大模型(CLIP ViT-L/14、SAM ViT-H、LLaVA-1.5-7B)参数全程不动。流程是:先用 LLaVA 离线为每张图生成对象描述(OD)和背景描述(BD),把"一句话类名"扩成细粒度文本先验;CLIP 视觉/文本编码器分别抽取 patch 特征 \(F_{patch}\)、[CLS] 特征 \(F_{cls}\) 和文本嵌入;语义探针用 OD/BD 嵌入解耦对象与背景,并用 Spearman 排序一致性算出 patch 间类别相似度,对 patch 特征做重加权得到绑定后的对象/背景相似度图 \(S_o^*\)、\(S_b^*\);EGTEA 基于熵筛出对象/背景原型,去除文本嵌入在背景方向上的投影来纠偏;AHPG 从精化后的相似度图里生成点提示 + 框提示;最后把混合提示送进 SAM 解码出最终掩码。
需要强调的一个工程点:CLIP 原本只擅长 [CLS] 全局对齐、局部表示弱,作者沿用 ResCLIP 的做法,去掉 ViT 最后一层的残差连接和 FFN,用中间层注意力特征去精化末层视觉特征,从而保留更多密集预测所需的局部细节。
%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
A["输入伪装图 I"] --> B["MLLM 细粒度描述<br/>LLaVA 生成 OD + BD"]
B --> C["CLIP 编码<br/>patch / CLS / 文本嵌入"]
C --> D["语义探针<br/>解耦对象背景 + Spearman<br/>排序一致性算 patch 类别相似度"]
D --> E["EGTEA 文本嵌入调整<br/>熵选原型 + 背景去偏"]
E --> F["AHPG 自适应混合提示<br/>点提示 + 框提示"]
F --> G["SAM 解码<br/>输出伪装目标掩码"]
关键设计¶
1. MLLM 细粒度对象/背景描述:把稀疏类名扩成富语义文本先验
针对"文本语义稀疏"这个痛点,作者不再用"a photo of a {class}"这种空壳提示,而是调用 LLaVA-1.5 为每张输入图单独生成两段文本:对象描述(OD)聚焦伪装物体的判别性属性(颜色、纹理、形状,如"灰白羽毛、细长脖颈、尖喙,乍看难以发现"),背景描述(BD)聚焦场景属性(环境纹理、空间分布,如"密集的高草与芦苇丛,绿褐相间")。这两段文本经 CLIP 文本编码器得到 \(F_t^{od}\in\mathbb{R}^{C\times D}\) 和 \(F_t^{bd}\in\mathbb{R}^{C\times D}\),拼成语义探针 \(SP_t=[F_t^{od}, F_t^{bd}]\)。这么做的好处是给后续绑定提供了"对象长什么样"和"背景长什么样"两套对照先验,模型不再只能靠一个类名去硬猜,从源头缓解背景语义干扰。为了不拖慢推理,OD/BD 是离线生成并存成 JSON 的,推理时直接读取,不实时调用 MLLM。
2. 语义探针 + Spearman 排序一致性:显式建模 patch 间类别相似度实现对象绑定
这是全文核心,针对"忽视 patch 间类别相似关系"的痛点。先按 \(S=\cos(F_{patch}, F_t)\) 在每个 patch 与 \(2C\) 个语义探针(\(C\) 个对象 + \(C\) 个背景)之间算出得分矩阵 \(Score(n,m)\in\mathbb{R}^{N\times L\times 2C}\),并按探针归属拆出单维的对象相似度图 \(S_o\) 和背景相似度图 \(S_b\):
关键一步是不直接用绝对相似度,而是把每个 patch 的得分行 \(Score(n,:)\) 降序排序(并列取平均秩)得到排序向量 \(R(n,m)\),再用 Spearman 相关系数衡量任意两 patch 的类别相似度 \(Sim_{class}(n_1,n_2)\in[0,1]\):
其中 \(M\) 为语义探针数量。为什么用排序而不是绝对值:在伪装场景里对象和背景的绝对响应值会因视觉模糊而趋同,KL/JS 散度这类基于绝对响应分布的度量会把对象和背景误判为"分布相似";而 Spearman 只看语义排序向量之间的关系——同一伪装物体的不同 patch 哪怕视觉上和背景混淆,其类别排序模式仍高度一致,因此能稳健地把它们绑到一起(消融中 Spearman 明显优于 KL/JS)。最后用 \(Sim_{class}\) 分别乘 \(S_o\)、\(S_b\) 得到对象/背景语义置信分 \(Score_o=Sim_{class}\cdot S_o\)、\(Score_b=Sim_{class}\cdot S_b\),再去加权 \(F_{patch}\) 得到绑定后的 \(F_{patch}^o\)、\(F_{patch}^b\),回代得到精化的相似度图 \(S_o^*\)、\(S_b^*\)。
3. 熵引导文本嵌入调整 EGTEA:压制背景偏置、纠正类别预测
语义探针完成初步绑定后,对象与背景的高相似度仍会带来类别预测偏置。已有方法 CASS 用层次聚类从图像里抽"对象专属视觉向量"来优化文本嵌入,但伪装场景下根本抽不到可靠的对象专属向量。EGTEA 改用熵来定位可信原型:对 \(S_o^*\) 沿类别维做 Softmax 得到每个 patch 的概率分布 \(Probs_{i,j}\),算出逐 patch 熵 \(H=-\sum_c Probs_{i,c}\log Probs_{i,c}\);取熵最高的 top-K 个 patch 当伪装对象候选(最不确定 ≈ 与背景最纠缠,正是伪装物体所在),熵最低的 K 个当背景候选,分别求出对象视觉原型 \(\varepsilon_o\)、背景视觉原型 \(\varepsilon_b\) 和文本嵌入原型 \(\varepsilon_t\)。然后构造融合视觉上下文与语义先验的锚点,并把文本嵌入在背景方向上的投影减掉以去偏:
其中 \(\alpha=0.3\) 控制对象视觉原型的融合权重,\(\gamma=0.3\) 调节背景抑制强度与对齐程度。调整后的 \(F_t^*\) 与 [CLS] 重新做类别预测。这一步等于在文本侧"擦掉"背景语义分量、又"注入"对象视觉证据,让文本嵌入真正贴合伪装对象的判别特征。
4. 自适应混合提示生成 AHPG:给 SAM 喂点+框混合提示出完整掩码
SAM 虽通用,但伪装场景下若提示不准就会分割到无关区域、掩码残缺。AHPG 基于 \(S_o^*\)、\(S_b^*\) 自动生成提示。先取相似度最高的 top-\(K^*\)(\(K^*=[0.1\cdot L]\))空间位置求平均,选出最优前景类 \(c_o^*\) 和背景类 \(c_b^*\),导出对应单通道相似度图 \(\dot S_o^*\)、\(\dot S_b^*\);用阈值 \(\tau_m=0.8\) 取出前景/背景候选点 \(P_{fg}\)、\(P_{bg}\),再并集去重得到点提示 \(P=\text{Unique}(P_{fg}\cup P_{bg})\)。为提升稳定性,还从前景点集算最小外接矩形、并按 \(\delta=\rho\cdot\max(w_B,h_B)\)(\(\rho=0.1\))做轴对齐外扩,避免出现零面积框:
点提示 + 框提示一起送进 SAM。为什么要混合:消融显示只用点会分割不完整、只用框会漏掉局部,点负责定位、框负责约束完整范围,两者互补才能把伪装目标完整抠出来。
损失函数 / 训练策略¶
本方法完全免训练,无任何损失函数与参数更新。CLIP ViT-L/14(VLM)、SAM ViT-H(分割器)、LLaVA-1.5-7B(MLLM)全部冻结,输入图 resize 到 \(336\times336\),单张 NVIDIA A40 即可推理;OD/BD 离线生成存 JSON。
实验关键数据¶
主实验¶
OVCamo benchmark,novel 含 61 个未见伪装类别,六个指标 cSm / cF\(^\omega_\beta\) / cMAE / cFβ / cEm / cIoU(除 cMAE 越低越好外其余越高越好)。
| 模型 | 设定 | cSm↑ | cF\(^\omega_\beta\)↑ | cMAE↓ | cIoU↑ |
|---|---|---|---|---|---|
| ResCLIP (CVPR25) | 免训练 ViT-L/14 | 0.326 | 0.156 | 0.508 | 0.144 |
| CASS (CVPR25) | 免训练 ViT-B/16 | 0.328 | 0.128 | 0.424 | 0.097 |
| OVCoser (ECCV24) | 全监督 | 0.579 | 0.490 | 0.336 | 0.443 |
| SuCLIP (ICCV25) | 全监督 | 0.667 | 0.594 | 0.242 | 0.540 |
| 本文 | 免训练 ViT-B/16 | 0.371 | 0.294 | 0.399 | 0.243 |
| 本文 | 免训练 ViT-L/14 | 0.502 | 0.418 | 0.379 | 0.371 |
在免训练赛道里,本文 ViT-B/16 比同架构 CASS 六指标平均 +7.2%,ViT-L/14 比 ResCLIP 六指标平均 +16.8%,cIoU 从 0.144 拉到 0.371(约 2.6 倍),大幅刷新免训练 SOTA。需注意全监督的 SuCLIP/OVCoser 数值更高,但它们需要 mask 标注训练,与免训练方法不在同一可比设定下。
消融实验¶
组件逐步叠加(CLIP ViT-L/14 为 baseline),同时报告显存与速度(表 2):
| 配置 | 显存(G) | 速度(FPS) | cSm↑ | cIoU↑ | 说明 |
|---|---|---|---|---|---|
| #1 Baseline | 4.58 | 65.1 | 0.248 | 0.041 | 纯 CLIP 密集推理 |
| #2 +SP | 4.58 | 55.3 | 0.416 | 0.270 | 语义探针,六指标均 +15.1% |
| #3 +SP+SAM | 8.26 | 42.8 | 0.447 | 0.308 | 引入 SAM,+2.6% |
| #4 +SP+SAM+AHPG | 8.26 | 36.7 | 0.493 | 0.356 | 混合提示,+3.9% |
| #5 +全部+EGTEA | 8.26 | 30.2 | 0.502 | 0.371 | 完整模型,最优 |
语义探针内部消融(表 3):去掉 LLaVA 改用 CamoTemplate 平均 -2.4%;只用对象探针比只用背景探针反而掉 7.4%(说明背景描述对反衬伪装对象很关键);距离度量上 Spearman 全面优于 KL / JS 散度。AHPG/EGTEA 消融(表 4):去框 -0.6%、去点 -2.4%、只用对象图生成提示 -1.4%;用 CASS 替换 EGTEA -0.7%、去背景去偏模块 -0.2%。
关键发现¶
- 语义探针是涨点主力:单独加 SP 就让六指标平均 +15.1%、cIoU 从 0.041→0.270,远超 SAM(+2.6%)、AHPG(+3.9%) 的边际贡献——说明"建模 patch 间类别一致性"才是伪装场景绑定的核心瓶颈。
- 排序度量胜在抗模糊:Spearman 只看排序关系,不受对象/背景绝对响应值趋同的影响,因此在伪装这种"视觉混淆"场景比 KL/JS 更稳。
- 对象与背景描述缺一不可:只给对象描述比只给背景描述还差,背景描述提供了"什么不是对象"的对照,反而帮助绑定。
- 效率可接受:完整模型 30.2 FPS、8.26G 显存,OD/BD 离线化避免了 MLLM 实时开销。
亮点与洞察¶
- "绝对相似度 → 排序一致性"的视角转换很巧妙:伪装的本质就是对象/背景绝对响应趋同,作者绕开绝对值、改用 Spearman 排序相关来度量 patch 间类别相似,正中伪装场景的要害,是可迁移到其他"高混淆"密集预测任务的思路。
- 用熵定位伪装对象:把"熵最高=最不确定=最可能是伪装物体"当作原型筛选准则,再配合背景方向投影去偏,是一个不需训练就能纠正文本嵌入偏置的轻量技巧。
- 全免训练却逼近可用:在不碰任何标注、不更新任何参数的前提下把免训练 SOTA 的 cIoU 翻了约 2.6 倍,对快速处理未见伪装数据的实际部署很有吸引力。
- 混合提示驱动 SAM 的点(定位)+框(完整性)互补设计,给"如何把弱相似度图转成 SAM 高质量提示"提供了可复用范式。
局限与展望¶
- 强依赖 MLLM 描述质量:OD/BD 由 LLaVA-1.5-7B 离线生成,若描述出错或泛化,绑定会跟着崩;文中未分析换更强/更弱 MLLM 的鲁棒性。
- 与全监督仍有明显差距:本文 cIoU 0.371 vs 全监督 SuCLIP 0.540,免训练范式上限仍受限,离实用精度有距离。
- 多个手工阈值/系数:\(\alpha=0.3\)、\(\gamma=0.3\)、\(\tau_m=0.8\)、\(\rho=0.1\)、\(K^*=0.1L\) 等均为固定超参,跨数据集是否稳健、敏感性如何未充分讨论。
- 仅在 OVCamo 单一 benchmark 验证:缺少跨数据集/真实多对象场景的泛化检验,且当前流程默认场景里只有一个主伪装目标。
- 改进方向:可探索让 MLLM 描述与绑定形成反馈闭环、用自适应阈值替代手工常数,或把语义探针扩展到多伪装对象共存场景。
相关工作与启发¶
- vs ResCLIP / CASS / ProxyCLIP(免训练 OVSS): 它们直接用稀疏文本提示 + 单 patch-文本相似度,忽视 patch 间类别关系,搬到伪装场景失灵;本文补全细粒度描述并用 Spearman 排序一致性显式建模 patch 类别相似度,六指标大幅领先。
- vs CASS 的文本嵌入调整: CASS 靠层次聚类抽对象专属视觉向量,在伪装场景抽不可靠;本文 EGTEA 改用熵筛原型 + 背景方向去偏,消融中替换为 CASS 策略掉 0.7%。
- vs OVCoser / SuCLIP(全监督 OVCOS): 它们需 mask 标注训练、易过拟合已见类;本文走免训练路线,牺牲部分精度换来零标注、即插即用与对新类的强迁移性。
评分¶
- 新颖性: ⭐⭐⭐⭐ 把伪装绑定难点归到"绝对相似度趋同"并用 Spearman 排序一致性破局,视角新且对症。
- 实验充分度: ⭐⭐⭐⭐ 主表覆盖免训练/全监督多基线,组件/探针/AHPG/EGTEA 消融完整,含度量对比与可视化;但仅 OVCamo 单 benchmark。
- 写作质量: ⭐⭐⭐⭐ 动机—方法—消融逻辑清晰,公式与图示完整。
- 价值: ⭐⭐⭐⭐ 免训练即用、刷新该赛道 SOTA,对零标注伪装分割部署有实用意义。