Training-Free Open-Vocabulary Camouflaged Object Segmentation via Fine-Grained Object Binding and Adaptive Hybrid Prompt¶

会议: CVPR 2026
论文: CVF Open Access
领域: 语义分割 / 开放词表 / 伪装目标分割
关键词: 伪装目标分割, 开放词表, 训练自由, 对象绑定, CLIP+SAM

一句话总结¶

本文提出一个完全免训练的开放词表伪装目标分割（OVCOS）框架：用 MLLM 为每张图生成细粒度的「对象描述 + 背景描述」补全稀疏文本语义，再用语义探针（Semantic Probe）解耦对象/背景特征、按 Spearman 排序一致性建模 patch 之间的类别相似度实现精确「对象绑定」，配合熵引导的文本嵌入调整（EGTEA）和自适应混合提示（AHPG）驱动 SAM，在 OVCamo 上大幅超过此前最强的免训练方法 ResCLIP（六指标平均 +16.8%）。

研究背景与动机¶

领域现状：伪装目标分割（COS）旨在分割那些与背景高度相似、肉眼难辨的物体（如枯枝上的竹节虫、草丛里的麻鸦）。开放词表版本 OVCOS 进一步要求模型能分割训练时没见过的伪装类别。现有 OVCOS 方法（OVCoser、SuCLIP）走的是全监督路线，依赖像素级 mask 标注训练。

现有痛点：全监督范式有两个硬伤——一是需要昂贵的 mask 标注，二是容易过拟合到已见类（seen class），泛化到新伪装类别时掉点严重。而 OVSS 领域已有的免训练范式（直接复用 CLIP + SAM/DINO，无需任何训练）虽然能即插即用、快速迁移到新域，但搬到伪装场景就失灵了：它们普遍用稀疏文本提示（"a photo of a {class}"）并直接拿 patch-文本相似度图做分割，缺乏精确的「对象绑定」（object binding，即文本提示与具体视觉对象之间的准确映射）能力。

核心矛盾：作者把免训练方法在伪装场景失灵的根因归为两点。① 文本语义稀疏：一句"a photo of a {class}"只给了类别名，没有伪装对象的细粒度属性（颜色、纹理、形状）和背景语义描述，模型很容易被背景语义干扰。② 忽视 patch 间类别相似关系：现有方法直接用单个 patch 的相似度，而在伪装场景里物体和背景的局部视觉特征极其相似，单 patch 的文本相似度极易被背景扭曲。但同属一个伪装物体的不同 patch，其类别分布本应高度相关——这种相关性没被建模，进一步阻碍了准确绑定。

本文目标 & 核心 idea：不训练、不标注，靠「补全文本语义 + 显式建模 patch 间类别一致性」来恢复对象绑定能力。具体把 MLLM 生成的细粒度描述当文本先验，用语义探针 + Spearman 排序一致性把绑定做精，再用熵引导调整文本嵌入压制背景偏置，最后生成混合提示喂给 SAM 出 mask。

方法详解¶

整体框架¶

整个框架是一条全冻结、零训练的串行流水线：输入一张伪装图，输出该图中伪装物体的分割掩码及其开放词表类别。所有大模型（CLIP ViT-L/14、SAM ViT-H、LLaVA-1.5-7B）参数全程不动。流程是：先用 LLaVA 离线为每张图生成对象描述（OD）和背景描述（BD），把"一句话类名"扩成细粒度文本先验；CLIP 视觉/文本编码器分别抽取 patch 特征 \(F_{patch}\)、[CLS] 特征 \(F_{cls}\) 和文本嵌入；语义探针用 OD/BD 嵌入解耦对象与背景，并用 Spearman 排序一致性算出 patch 间类别相似度，对 patch 特征做重加权得到绑定后的对象/背景相似度图 \(S_o^*\)、\(S_b^*\)；EGTEA 基于熵筛出对象/背景原型，去除文本嵌入在背景方向上的投影来纠偏；AHPG 从精化后的相似度图里生成点提示 + 框提示；最后把混合提示送进 SAM 解码出最终掩码。

需要强调的一个工程点：CLIP 原本只擅长 [CLS] 全局对齐、局部表示弱，作者沿用 ResCLIP 的做法，去掉 ViT 最后一层的残差连接和 FFN，用中间层注意力特征去精化末层视觉特征，从而保留更多密集预测所需的局部细节。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["输入伪装图 I"] --> B["MLLM 细粒度描述<br/>LLaVA 生成 OD + BD"]
    B --> C["CLIP 编码<br/>patch / CLS / 文本嵌入"]
    C --> D["语义探针<br/>解耦对象背景 + Spearman<br/>排序一致性算 patch 类别相似度"]
    D --> E["EGTEA 文本嵌入调整<br/>熵选原型 + 背景去偏"]
    E --> F["AHPG 自适应混合提示<br/>点提示 + 框提示"]
    F --> G["SAM 解码<br/>输出伪装目标掩码"]

关键设计¶

1. MLLM 细粒度对象/背景描述：把稀疏类名扩成富语义文本先验

针对"文本语义稀疏"这个痛点，作者不再用"a photo of a {class}"这种空壳提示，而是调用 LLaVA-1.5 为每张输入图单独生成两段文本：对象描述（OD）聚焦伪装物体的判别性属性（颜色、纹理、形状，如"灰白羽毛、细长脖颈、尖喙，乍看难以发现"），背景描述（BD）聚焦场景属性（环境纹理、空间分布，如"密集的高草与芦苇丛，绿褐相间"）。这两段文本经 CLIP 文本编码器得到 \(F_t^{od}\in\mathbb{R}^{C\times D}\) 和 \(F_t^{bd}\in\mathbb{R}^{C\times D}\)，拼成语义探针 \(SP_t=[F_t^{od}, F_t^{bd}]\)。这么做的好处是给后续绑定提供了"对象长什么样"和"背景长什么样"两套对照先验，模型不再只能靠一个类名去硬猜，从源头缓解背景语义干扰。为了不拖慢推理，OD/BD 是离线生成并存成 JSON 的，推理时直接读取，不实时调用 MLLM。

2. 语义探针 + Spearman 排序一致性：显式建模 patch 间类别相似度实现对象绑定

这是全文核心，针对"忽视 patch 间类别相似关系"的痛点。先按 \(S=\cos(F_{patch}, F_t)\) 在每个 patch 与 \(2C\) 个语义探针（\(C\) 个对象 + \(C\) 个背景）之间算出得分矩阵 \(Score(n,m)\in\mathbb{R}^{N\times L\times 2C}\)，并按探针归属拆出单维的对象相似度图 \(S_o\) 和背景相似度图 \(S_b\)：

\[S_o = \frac{1}{C}\sum_{m=1}^{C}Score(n,m),\qquad S_b = \frac{1}{C}\sum_{m=C+1}^{2C}Score(n,m)\]

关键一步是不直接用绝对相似度，而是把每个 patch 的得分行 \(Score(n,:)\) 降序排序（并列取平均秩）得到排序向量 \(R(n,m)\)，再用 Spearman 相关系数衡量任意两 patch 的类别相似度 \(Sim_{class}(n_1,n_2)\in[0,1]\)：

\[Sim_{class}(n_1,n_2) = 1 - \frac{\sum_{m=1}^{2C}\big(R(n_1,m)-R(n_2,m)\big)^2}{M(M^2-1)}\]

其中 \(M\) 为语义探针数量。为什么用排序而不是绝对值：在伪装场景里对象和背景的绝对响应值会因视觉模糊而趋同，KL/JS 散度这类基于绝对响应分布的度量会把对象和背景误判为"分布相似"；而 Spearman 只看语义排序向量之间的关系——同一伪装物体的不同 patch 哪怕视觉上和背景混淆，其类别排序模式仍高度一致，因此能稳健地把它们绑到一起（消融中 Spearman 明显优于 KL/JS）。最后用 \(Sim_{class}\) 分别乘 \(S_o\)、\(S_b\) 得到对象/背景语义置信分 \(Score_o=Sim_{class}\cdot S_o\)、\(Score_b=Sim_{class}\cdot S_b\)，再去加权 \(F_{patch}\) 得到绑定后的 \(F_{patch}^o\)、\(F_{patch}^b\)，回代得到精化的相似度图 \(S_o^*\)、\(S_b^*\)。

3. 熵引导文本嵌入调整 EGTEA：压制背景偏置、纠正类别预测

语义探针完成初步绑定后，对象与背景的高相似度仍会带来类别预测偏置。已有方法 CASS 用层次聚类从图像里抽"对象专属视觉向量"来优化文本嵌入，但伪装场景下根本抽不到可靠的对象专属向量。EGTEA 改用熵来定位可信原型：对 \(S_o^*\) 沿类别维做 Softmax 得到每个 patch 的概率分布 \(Probs_{i,j}\)，算出逐 patch 熵 \(H=-\sum_c Probs_{i,c}\log Probs_{i,c}\)；取熵最高的 top-K 个 patch 当伪装对象候选（最不确定 ≈ 与背景最纠缠，正是伪装物体所在），熵最低的 K 个当背景候选，分别求出对象视觉原型 \(\varepsilon_o\)、背景视觉原型 \(\varepsilon_b\) 和文本嵌入原型 \(\varepsilon_t\)。然后构造融合视觉上下文与语义先验的锚点，并把文本嵌入在背景方向上的投影减掉以去偏：

\[A_{anchor} = \alpha\cdot\varepsilon_o + \varepsilon_t,\quad \dot{F}_t = \varepsilon_t - \Big(\varepsilon_t\cdot\frac{\varepsilon_b}{\lVert\varepsilon_b\rVert^2}\Big)\cdot\frac{\varepsilon_b}{\lVert\varepsilon_b\rVert^2}\]

\[F_t^* = \gamma\cdot A_{anchor} + (1-\gamma)\cdot\dot{F}_t\]

其中 \(\alpha=0.3\) 控制对象视觉原型的融合权重，\(\gamma=0.3\) 调节背景抑制强度与对齐程度。调整后的 \(F_t^*\) 与 [CLS] 重新做类别预测。这一步等于在文本侧"擦掉"背景语义分量、又"注入"对象视觉证据，让文本嵌入真正贴合伪装对象的判别特征。

4. 自适应混合提示生成 AHPG：给 SAM 喂点+框混合提示出完整掩码

SAM 虽通用，但伪装场景下若提示不准就会分割到无关区域、掩码残缺。AHPG 基于 \(S_o^*\)、\(S_b^*\) 自动生成提示。先取相似度最高的 top-\(K^*\)（\(K^*=[0.1\cdot L]\)）空间位置求平均，选出最优前景类 \(c_o^*\) 和背景类 \(c_b^*\)，导出对应单通道相似度图 \(\dot S_o^*\)、\(\dot S_b^*\)；用阈值 \(\tau_m=0.8\) 取出前景/背景候选点 \(P_{fg}\)、\(P_{bg}\)，再并集去重得到点提示 \(P=\text{Unique}(P_{fg}\cup P_{bg})\)。为提升稳定性，还从前景点集算最小外接矩形、并按 \(\delta=\rho\cdot\max(w_B,h_B)\)（\(\rho=0.1\)）做轴对齐外扩，避免出现零面积框：

\[B_{final} = [B_{min}-\delta,\; B_{max}+\delta]\]

点提示 + 框提示一起送进 SAM。为什么要混合：消融显示只用点会分割不完整、只用框会漏掉局部，点负责定位、框负责约束完整范围，两者互补才能把伪装目标完整抠出来。

损失函数 / 训练策略¶

本方法完全免训练，无任何损失函数与参数更新。CLIP ViT-L/14（VLM）、SAM ViT-H（分割器）、LLaVA-1.5-7B（MLLM）全部冻结，输入图 resize 到 \(336\times336\)，单张 NVIDIA A40 即可推理；OD/BD 离线生成存 JSON。

实验关键数据¶

主实验¶

OVCamo benchmark，novel 含 61 个未见伪装类别，六个指标 cSm / cF\(^\omega_\beta\) / cMAE / cFβ / cEm / cIoU（除 cMAE 越低越好外其余越高越好）。

模型	设定	cSm↑	cF\(^\omega_\beta\)↑	cMAE↓	cIoU↑
ResCLIP (CVPR25)	免训练 ViT-L/14	0.326	0.156	0.508	0.144
CASS (CVPR25)	免训练 ViT-B/16	0.328	0.128	0.424	0.097
OVCoser (ECCV24)	全监督	0.579	0.490	0.336	0.443
SuCLIP (ICCV25)	全监督	0.667	0.594	0.242	0.540
本文	免训练 ViT-B/16	0.371	0.294	0.399	0.243
本文	免训练 ViT-L/14	0.502	0.418	0.379	0.371

在免训练赛道里，本文 ViT-B/16 比同架构 CASS 六指标平均 +7.2%，ViT-L/14 比 ResCLIP 六指标平均 +16.8%，cIoU 从 0.144 拉到 0.371（约 2.6 倍），大幅刷新免训练 SOTA。需注意全监督的 SuCLIP/OVCoser 数值更高，但它们需要 mask 标注训练，与免训练方法不在同一可比设定下。

消融实验¶

组件逐步叠加（CLIP ViT-L/14 为 baseline），同时报告显存与速度（表 2）：

配置	显存(G)	速度(FPS)	cSm↑	cIoU↑	说明
#1 Baseline	4.58	65.1	0.248	0.041	纯 CLIP 密集推理
#2 +SP	4.58	55.3	0.416	0.270	语义探针，六指标均 +15.1%
#3 +SP+SAM	8.26	42.8	0.447	0.308	引入 SAM，+2.6%
#4 +SP+SAM+AHPG	8.26	36.7	0.493	0.356	混合提示，+3.9%
#5 +全部+EGTEA	8.26	30.2	0.502	0.371	完整模型，最优

语义探针内部消融（表 3）：去掉 LLaVA 改用 CamoTemplate 平均 -2.4%；只用对象探针比只用背景探针反而掉 7.4%（说明背景描述对反衬伪装对象很关键）；距离度量上 Spearman 全面优于 KL / JS 散度。AHPG/EGTEA 消融（表 4）：去框 -0.6%、去点 -2.4%、只用对象图生成提示 -1.4%；用 CASS 替换 EGTEA -0.7%、去背景去偏模块 -0.2%。

关键发现¶

语义探针是涨点主力：单独加 SP 就让六指标平均 +15.1%、cIoU 从 0.041→0.270，远超 SAM(+2.6%)、AHPG(+3.9%) 的边际贡献——说明"建模 patch 间类别一致性"才是伪装场景绑定的核心瓶颈。
排序度量胜在抗模糊：Spearman 只看排序关系，不受对象/背景绝对响应值趋同的影响，因此在伪装这种"视觉混淆"场景比 KL/JS 更稳。
对象与背景描述缺一不可：只给对象描述比只给背景描述还差，背景描述提供了"什么不是对象"的对照，反而帮助绑定。
效率可接受：完整模型 30.2 FPS、8.26G 显存，OD/BD 离线化避免了 MLLM 实时开销。

亮点与洞察¶

"绝对相似度 → 排序一致性"的视角转换很巧妙：伪装的本质就是对象/背景绝对响应趋同，作者绕开绝对值、改用 Spearman 排序相关来度量 patch 间类别相似，正中伪装场景的要害，是可迁移到其他"高混淆"密集预测任务的思路。
用熵定位伪装对象：把"熵最高=最不确定=最可能是伪装物体"当作原型筛选准则，再配合背景方向投影去偏，是一个不需训练就能纠正文本嵌入偏置的轻量技巧。
全免训练却逼近可用：在不碰任何标注、不更新任何参数的前提下把免训练 SOTA 的 cIoU 翻了约 2.6 倍，对快速处理未见伪装数据的实际部署很有吸引力。
混合提示驱动 SAM 的点（定位）+框（完整性）互补设计，给"如何把弱相似度图转成 SAM 高质量提示"提供了可复用范式。

局限与展望¶

强依赖 MLLM 描述质量：OD/BD 由 LLaVA-1.5-7B 离线生成，若描述出错或泛化，绑定会跟着崩；文中未分析换更强/更弱 MLLM 的鲁棒性。
与全监督仍有明显差距：本文 cIoU 0.371 vs 全监督 SuCLIP 0.540，免训练范式上限仍受限，离实用精度有距离。
多个手工阈值/系数：\(\alpha=0.3\)、\(\gamma=0.3\)、\(\tau_m=0.8\)、\(\rho=0.1\)、\(K^*=0.1L\) 等均为固定超参，跨数据集是否稳健、敏感性如何未充分讨论。
仅在 OVCamo 单一 benchmark 验证：缺少跨数据集/真实多对象场景的泛化检验，且当前流程默认场景里只有一个主伪装目标。
改进方向：可探索让 MLLM 描述与绑定形成反馈闭环、用自适应阈值替代手工常数，或把语义探针扩展到多伪装对象共存场景。

评分¶

新颖性: ⭐⭐⭐⭐ 把伪装绑定难点归到"绝对相似度趋同"并用 Spearman 排序一致性破局，视角新且对症。
实验充分度: ⭐⭐⭐⭐ 主表覆盖免训练/全监督多基线，组件/探针/AHPG/EGTEA 消融完整，含度量对比与可视化；但仅 OVCamo 单 benchmark。
写作质量: ⭐⭐⭐⭐ 动机—方法—消融逻辑清晰，公式与图示完整。
价值: ⭐⭐⭐⭐ 免训练即用、刷新该赛道 SOTA，对零标注伪装分割部署有实用意义。