ProMerge: Prompt and Merge for Unsupervised Instance Segmentation¶

会议: ECCV 2024
arXiv: 2409.18961
代码: 无
领域: 分割 / 无监督学习
关键词: 无监督实例分割, 自监督特征, DINO, 分组合并, 伪标签

一句话总结¶

提出 ProMerge，利用自监督视觉特征（DINO）进行初始 patch 分组，再通过策略性合并和背景感知掩码裁剪实现无监督实例分割，推理速度远超 normalized-cut 方法，且用生成的伪标签训练检测器可超越现有无监督 SOTA。

领域现状：无监督实例分割旨在不依赖人工标注数据分割图像中的独立目标实例。近期 SOTA 方法利用 DINO 等自监督模型的丰富视觉特征，将图像表示为图并求解归一化切 (normalized-cut) 来生成前景掩码。

现有痛点：(1) Normalized-cut 方法需要求解广义特征值系统，计算复杂度高，推理速度慢；(2) 虽然分割质量好但无法满足实时或大规模应用需求；(3) 图构建和特征值求解的内存消耗也较大。

核心矛盾：自监督特征提供了丰富的局部对应信息用于分组，但主流方法（normalized-cut）的利用方式太重量级——需要一种更轻量的分组策略。

本文目标：保持或超越 normalized-cut 方法的分割质量，同时大幅降低推理时间。

切入角度：直接在 DINO 特征空间中做 patch 分组和合并，用简单的相似度阈值和合并规则替代复杂的图优化。

核心 idea：先用自监督特征做初始 patch 分组（Prompt），再通过策略性合并消除过分割（Merge），配合基于背景的掩码裁剪去除误检，最终用预测掩码作为伪标签训练标准检测器。

输入图像 → DINO 提取 patch 特征 → 初始分组（基于特征相似度的 patch 聚合）→ 策略性合并（消除过分割）→ 背景感知掩码裁剪 → 输出实例掩码。可选：用掩码作为伪标签训练 Mask R-CNN。

初始 Patch 分组 (Prompt):
- 功能：利用 DINO 特征的局部对应性进行初步的语义分组
- 核心思路：计算相邻 patch 间的余弦相似度，高相似度的 patch 被分为同一组。通过连通分量分析获得初始过分割结果
- 设计动机：DINO 特征天然编码了语义相似性，简单的相似度阈值就能获得有意义的初始分组，无需复杂的图优化
策略性合并 (Merge):
- 功能：将过分割的片段合并为完整的实例掩码
- 核心思路：计算相邻分组之间的特征相似度，当相似度超过阈值时合并。合并策略考虑空间邻接性和语义一致性，迭代进行直到没有可合并的片段
- 设计动机：初始分组倾向于过分割（同一物体被切成多块），合并步骤重新恢复完整的实例边界
背景感知掩码裁剪:
- 功能：去除属于背景的假阳性掩码
- 核心思路：利用 DINO 特征中 [CLS] token 的注意力图来估计前景概率，低前景概率的掩码被裁剪掉
- 设计动机：分组-合并过程可能产生背景区域的假前景掩码，利用 DINO 的全局注意力作为前景先验有效过滤

ProMerge 本身无需训练。当用生成的掩码训练 Mask R-CNN 时，使用标准的实例分割损失。

方法	COCO AP	推理速度	类型
ProMerge	竞争力	快很多	无训练
Normalized-cut based	高	慢	无训练
ProMerge → Mask R-CNN	超越 SOTA	标准检测速度	伪标签训练

ProMerge 的推理速度大幅优于 normalized-cut 方法，使得无监督实例分割在实际规模数据集上变得可行
用 ProMerge 生成的伪标签训练检测器后，性能超越了直接使用 normalized-cut 方法——说明简单方法生成的多样化伪标签比复杂方法更适合训练检测器