Self-supervised Co-salient Object Detection via Feature Correspondences at Multiple Scales¶
会议: ECCV 2024
arXiv: 2403.11107
代码: https://github.com/sourachakra/SCoSPARC
领域: 图像分割
关键词: Co-salient Object Detection, Self-supervised, Feature Correspondence, Vision Transformer, Adaptive Thresholding
一句话总结¶
提出 SCoSPARC——一个两阶段自监督共显著目标检测模型,通过 patch 级和 region 级 ViT 特征对应关系检测图像组中的共显著物体,在 CoCA 数据集上 F-measure 比无监督 SOTA 高 13.7%,甚至超越多个有监督方法。
研究背景与动机¶
共显著目标检测(CoSOD)旨在从一组相关图像中同时检测共同出现的显著物体。现有方法面临两大挑战:
有监督方法(如 GCoNet+, DCFM)依赖昂贵的逐像素分割标注,限制了可扩展性
现有无监督方法的局限: - DVFDVD 仅利用局部 patch 级信息(聚类 ViT patch 描述子),忽略区域级语义 - ZS-CSD 和 US-CoSOD 依赖 SAM、STEGO 等重型预训练组件,计算开销大、推理速度慢 - 手工特征方法(如 UCCDGO)性能显著落后
核心观察:自监督 ViT(如 DINO)学到的特征同时包含丰富的局部语义(patch 描述子)和全局显著性信息(自注意力图),可在不同尺度上挖掘特征对应关系来实现无监督 CoSOD。
方法详解¶
整体框架¶
SCoSPARC 分为两个阶段: - Stage 1(Patch 级):训练自监督网络计算跨图像的 patch 级特征对应关系,生成 cross-attention map,再通过置信度自适应阈值得到中间分割结果 - Stage 2(Region 级):对中间分割结果进行连通域分析,剔除与全局前景特征不一致的区域,最后用 denseCRF 细化边界
关键设计¶
-
Patch 级特征对应关系(Stage 1):
- 使用 DINO 预训练的 ViT-B/8 作为特征编码器,提取 patch 特征 \(\mathbf{x}^{pat}_n \in \mathbb{R}^{C \times H \times W}\)
- 通过残差块增强特征:\(\mathcal{F}_{res} = \mathcal{F}_{init} + conv^{1\times 1}(\mathcal{F}_{init})\)
- 计算 Key 和 Query 映射,得到全局特征相似度矩阵 \(S = \frac{1}{\sqrt{d}} K Q^\top \in \mathbb{R}^{NHW \times NHW}\)
- 对每张图像取行均值得到 cross-attention map \(S_n \in \mathbb{R}^{H \times W}\),再通过改进的 Sigmoid 函数二值化:\(\mathcal{M}_n = \frac{1}{1 + e^{-k(S_n - s_{th})}}\)(\(k=6.66\), \(s_{th}=0.65\))
-
双损失自监督训练:
- 共现损失 \(\mathcal{L}_{cooc}\):基于对比学习思想,拉近不同图像中前景区域的特征嵌入(正样本),推开同一图像中前景与背景的特征嵌入(负样本),使用余弦相似度衡量:\(d^+_{nm} = 1 - \cos(f(\mathcal{M}^f_n, \mathbf{x}^{pat}), f(\mathcal{M}^f_m, \mathbf{x}^{pat}))\)
- 显著性损失 \(\mathcal{L}_{sal}\):利用 DINO 自注意力图(多头平均)作为显著性先验,最大化检测区域的平均显著性:\(\mathcal{L}_{sal} = 1 - \frac{1}{N}\sum_{n=1}^{N} \mathcal{M}_n \otimes SA_n\)
- 总损失:\(\mathcal{L}_{total} = \mathcal{L}_{cooc} + \lambda_{sal} \mathcal{L}_{sal}\)(\(\lambda_{sal} = 0.3\))
- 设计精妙之处:不需要外部显著性模型,直接复用 ViT 编码器的自注意力图和 patch 特征
-
置信度自适应阈值(CAT):
- 核心发现:高置信度 attention map 需要较低阈值,低置信度需要较高阈值,固定 0.5 阈值并非最优
- 计算预测置信度:\(c_M = \frac{1}{n_{conf}} \sum_{p \geq \bar{\mathcal{M}}} \mathcal{M}_p\)
- 自适应阈值:\(th = th_0 + \alpha_c (b_M - \overline{b_M})\),其中 \(b_M = 1 - c_M\),\(th_0 = 0.5\),\(\alpha_c = 1\)
-
Region 级特征对应关系(Stage 2):
- 对中间分割 mask 做连通域标注,得到每张图像的子区域
- 计算所有图像前景区域的平均特征嵌入 \(F_G\)(全局共识表征)
- 对每个子区域计算其特征嵌入与 \(F_G\) 的余弦相似度,仅保留相似度 \(\geq d_f^{th}=0.75\) 的区域
- 这一步有效剔除了 Stage 1 中因局部特征匹配而产生的假阳性(如共同背景区域)
损失函数 / 训练策略¶
- 训练数据:COCO9213(9,213图,65组)+ DUTS-Class(8,250图,291组),无需分割标注
- 优化器:Adam,80 epochs,总训练时间约 10 小时
- 推理:所有组内图像(resize 到 224×224)一次性输入
- 后处理:Dense CRF 保证空间连续性和边界锐利度
实验关键数据¶
主实验¶
与无监督和有监督 SOTA 在三个基准上的对比(部分关键结果):
| 方法 | 类型 | CoCA \(F_\beta^{max}\)↑ | CoCA MAE↓ | Cosal2015 \(F_\beta^{max}\)↑ | CoSOD3k \(F_\beta^{max}\)↑ |
|---|---|---|---|---|---|
| US-CoSOD | 无监督 | 0.546 | 0.116 | 0.845 | 0.779 |
| TokenCut | 无监督 | 0.467 | 0.167 | 0.805 | 0.720 |
| DCFM | 有监督 | 0.598 | 0.085 | 0.856 | 0.805 |
| GCoNet+ | 有监督 | 0.637 | 0.081 | 0.891 | 0.834 |
| SCoSPARC | 自监督 | 0.614 | 0.092 | 0.869 | 0.827 |
消融实验¶
| ID | Co-oc. | Sal. | CAT | RFC | d-CRF | CoCA \(F_\beta^{max}\) | Cosal2015 \(F_\beta^{max}\) | 说明 |
|---|---|---|---|---|---|---|---|---|
| 1 | ✓ | 0.565 | 0.851 | 仅共现损失 | ||||
| 2 | ✓ | ✓ | 0.564 | 0.853 | +显著性损失 | |||
| 3 | ✓ | ✓ | ✓ | 0.567 | 0.840 | +自适应阈值 | ||
| 4 | ✓ | ✓ | ✓ | ✓ | 0.601 | 0.851 | +Region级精炼 | |
| 5 | ✓ | ✓ | ✓ | ✓ | ✓ | 0.614 | 0.869 | 完整模型 |
关键发现¶
- 自监督超越有监督:SCoSPARC 在 CoCA 上 F-measure 超过 DCFM(+1.6%)、CoRP、UFO 等多个有监督方法,说明在标注有限的场景下自监督方法的优势
- Region 级精炼至关重要:从 ID3→ID4 的跳跃(CoCA F-measure 0.567→0.601)证明 region 级特征对应可以有效过滤 patch 级的假阳性
- 轻量高效:无 CRF 时推理速度达 20.5 FPS(远超 SegSwap 的 0.5 FPS 和 Group TokenCut 的 0.05 FPS),有 CRF 时仍有 4.1 FPS
- 低数据有监督不如自监督:GCoNet+ 使用 50% 标签时在所有指标上都劣于零标签的 SCoSPARC,使用 75% 标签时也在多数指标上落后——有监督方法在标注不足时容易过拟合
亮点与洞察¶
- 多尺度特征对应思路:patch 级(局部语义匹配)+ region 级(全局一致性验证)的两阶段设计,是一个可推广的特征对应挖掘范式
- 充分复用自监督 ViT 知识:不引入额外的显著性模型或分割模型,而是直接利用 DINO 的 patch 描述子(构建共现/对比信号)和自注意力图(构建显著性信号),保持模型轻量
- 置信度自适应阈值:简单但有效的思路——将预测置信度和分割阈值挂钩,优于固定阈值 0.5,可推广到其他二值分割任务
- Group TokenCut Baseline:将单图像 TokenCut 推广到图像组的 baseline 实验设计值得学习,清晰展示了方法各组件的增益来源
局限与展望¶
- 分辨率受限:ViT-B/8 的 patch 大小为 8×8,推理分辨率为 224×224,对小物体分割精度有限(patch 大小增大到 16 后性能显著下降)
- Dense CRF 推理开销:20 FPS→4 FPS 的速度下降主要来自 CRF 后处理,可考虑端到端可训练的 CRF 替代方案
- 组内所有图像一次性输入:大组别时可能面临显存瓶颈(训练时截断为 min(24, 组大小))
- 仅处理二值前景/背景:无法区分不同的共显著物体实例,未来可探索实例级 CoSOD
相关工作与启发¶
- 与 DVFDVD 的对比说明仅聚类 patch 描述子不够,需要 region 级语义理解
- 与 US-CoSOD 的对比说明依赖重型预训练组件(SAM、STEGO 等)不如直接挖掘 ViT 自身特征
- 启发:DINO ViT 的自注意力图作为免费的显著性先验,是一个在许多无监督视觉任务中可以复用的信号
评分¶
- 新颖性: ⭐⭐⭐⭐ 多尺度特征对应的两阶段自监督 CoSOD 是全新的问题解法,置信度自适应阈值设计巧妙
- 实验充分度: ⭐⭐⭐⭐⭐ 三个基准、4 种指标、完整消融(各组件、backbone、数据集、推理速度)、与有监督方法的低数据对比
- 写作质量: ⭐⭐⭐⭐ 图1的三方法对比直观展示贡献,Algorithm 1 清晰呈现 Stage 2 流程
- 实用价值: ⭐⭐⭐⭐ 轻量模型 + 无需标注 + 超越有监督方法,对标注稀缺的实际场景有很强的应用价值