Self-supervised Co-salient Object Detection via Feature Correspondences at Multiple Scales¶

会议: ECCV 2024
arXiv: 2403.11107
代码: https://github.com/sourachakra/SCoSPARC
领域: 图像分割
关键词: Co-salient Object Detection, Self-supervised, Feature Correspondence, Vision Transformer, Adaptive Thresholding

一句话总结¶

提出 SCoSPARC——一个两阶段自监督共显著目标检测模型，通过 patch 级和 region 级 ViT 特征对应关系检测图像组中的共显著物体，在 CoCA 数据集上 F-measure 比无监督 SOTA 高 13.7%，甚至超越多个有监督方法。

研究背景与动机¶

共显著目标检测（CoSOD）旨在从一组相关图像中同时检测共同出现的显著物体。现有方法面临两大挑战：

有监督方法（如 GCoNet+, DCFM）依赖昂贵的逐像素分割标注，限制了可扩展性

现有无监督方法的局限： - DVFDVD 仅利用局部 patch 级信息（聚类 ViT patch 描述子），忽略区域级语义 - ZS-CSD 和 US-CoSOD 依赖 SAM、STEGO 等重型预训练组件，计算开销大、推理速度慢 - 手工特征方法（如 UCCDGO）性能显著落后

核心观察：自监督 ViT（如 DINO）学到的特征同时包含丰富的局部语义（patch 描述子）和全局显著性信息（自注意力图），可在不同尺度上挖掘特征对应关系来实现无监督 CoSOD。

方法详解¶

整体框架¶

SCoSPARC 分为两个阶段： - Stage 1（Patch 级）：训练自监督网络计算跨图像的 patch 级特征对应关系，生成 cross-attention map，再通过置信度自适应阈值得到中间分割结果 - Stage 2（Region 级）：对中间分割结果进行连通域分析，剔除与全局前景特征不一致的区域，最后用 denseCRF 细化边界

关键设计¶

Patch 级特征对应关系（Stage 1）：
- 使用 DINO 预训练的 ViT-B/8 作为特征编码器，提取 patch 特征 \(\mathbf{x}^{pat}_n \in \mathbb{R}^{C \times H \times W}\)
- 通过残差块增强特征：\(\mathcal{F}_{res} = \mathcal{F}_{init} + conv^{1\times 1}(\mathcal{F}_{init})\)
- 计算 Key 和 Query 映射，得到全局特征相似度矩阵 \(S = \frac{1}{\sqrt{d}} K Q^\top \in \mathbb{R}^{NHW \times NHW}\)
- 对每张图像取行均值得到 cross-attention map \(S_n \in \mathbb{R}^{H \times W}\)，再通过改进的 Sigmoid 函数二值化：\(\mathcal{M}_n = \frac{1}{1 + e^{-k(S_n - s_{th})}}\)（\(k=6.66\), \(s_{th}=0.65\)）
双损失自监督训练：
- 共现损失 \(\mathcal{L}_{cooc}\)：基于对比学习思想，拉近不同图像中前景区域的特征嵌入（正样本），推开同一图像中前景与背景的特征嵌入（负样本），使用余弦相似度衡量：\(d^+_{nm} = 1 - \cos(f(\mathcal{M}^f_n, \mathbf{x}^{pat}), f(\mathcal{M}^f_m, \mathbf{x}^{pat}))\)
- 显著性损失 \(\mathcal{L}_{sal}\)：利用 DINO 自注意力图（多头平均）作为显著性先验，最大化检测区域的平均显著性：\(\mathcal{L}_{sal} = 1 - \frac{1}{N}\sum_{n=1}^{N} \mathcal{M}_n \otimes SA_n\)
- 总损失：\(\mathcal{L}_{total} = \mathcal{L}_{cooc} + \lambda_{sal} \mathcal{L}_{sal}\)（\(\lambda_{sal} = 0.3\)）
- 设计精妙之处：不需要外部显著性模型，直接复用 ViT 编码器的自注意力图和 patch 特征
置信度自适应阈值（CAT）：
- 核心发现：高置信度 attention map 需要较低阈值，低置信度需要较高阈值，固定 0.5 阈值并非最优
- 计算预测置信度：\(c_M = \frac{1}{n_{conf}} \sum_{p \geq \bar{\mathcal{M}}} \mathcal{M}_p\)
- 自适应阈值：\(th = th_0 + \alpha_c (b_M - \overline{b_M})\)，其中 \(b_M = 1 - c_M\)，\(th_0 = 0.5\)，\(\alpha_c = 1\)
Region 级特征对应关系（Stage 2）：
- 对中间分割 mask 做连通域标注，得到每张图像的子区域
- 计算所有图像前景区域的平均特征嵌入 \(F_G\)（全局共识表征）
- 对每个子区域计算其特征嵌入与 \(F_G\) 的余弦相似度，仅保留相似度 \(\geq d_f^{th}=0.75\) 的区域
- 这一步有效剔除了 Stage 1 中因局部特征匹配而产生的假阳性（如共同背景区域）

损失函数 / 训练策略¶

训练数据：COCO9213（9,213图，65组）+ DUTS-Class（8,250图，291组），无需分割标注
优化器：Adam，80 epochs，总训练时间约 10 小时
推理：所有组内图像（resize 到 224×224）一次性输入
后处理：Dense CRF 保证空间连续性和边界锐利度

实验关键数据¶

主实验¶

与无监督和有监督 SOTA 在三个基准上的对比（部分关键结果）：

方法	类型	CoCA \(F_\beta^{max}\)↑	CoCA MAE↓	Cosal2015 \(F_\beta^{max}\)↑	CoSOD3k \(F_\beta^{max}\)↑
US-CoSOD	无监督	0.546	0.116	0.845	0.779
TokenCut	无监督	0.467	0.167	0.805	0.720
DCFM	有监督	0.598	0.085	0.856	0.805
GCoNet+	有监督	0.637	0.081	0.891	0.834
SCoSPARC	自监督	0.614	0.092	0.869	0.827

消融实验¶

ID	Co-oc.	Sal.	CAT	RFC	d-CRF	CoCA \(F_\beta^{max}\)	Cosal2015 \(F_\beta^{max}\)	说明
1	✓					0.565	0.851	仅共现损失
2	✓	✓				0.564	0.853	+显著性损失
3	✓	✓	✓			0.567	0.840	+自适应阈值
4	✓	✓	✓	✓		0.601	0.851	+Region级精炼
5	✓	✓	✓	✓	✓	0.614	0.869	完整模型

关键发现¶

自监督超越有监督：SCoSPARC 在 CoCA 上 F-measure 超过 DCFM（+1.6%）、CoRP、UFO 等多个有监督方法，说明在标注有限的场景下自监督方法的优势
Region 级精炼至关重要：从 ID3→ID4 的跳跃（CoCA F-measure 0.567→0.601）证明 region 级特征对应可以有效过滤 patch 级的假阳性
轻量高效：无 CRF 时推理速度达 20.5 FPS（远超 SegSwap 的 0.5 FPS 和 Group TokenCut 的 0.05 FPS），有 CRF 时仍有 4.1 FPS
低数据有监督不如自监督：GCoNet+ 使用 50% 标签时在所有指标上都劣于零标签的 SCoSPARC，使用 75% 标签时也在多数指标上落后——有监督方法在标注不足时容易过拟合

亮点与洞察¶

多尺度特征对应思路：patch 级（局部语义匹配）+ region 级（全局一致性验证）的两阶段设计，是一个可推广的特征对应挖掘范式
充分复用自监督 ViT 知识：不引入额外的显著性模型或分割模型，而是直接利用 DINO 的 patch 描述子（构建共现/对比信号）和自注意力图（构建显著性信号），保持模型轻量
置信度自适应阈值：简单但有效的思路——将预测置信度和分割阈值挂钩，优于固定阈值 0.5，可推广到其他二值分割任务
Group TokenCut Baseline：将单图像 TokenCut 推广到图像组的 baseline 实验设计值得学习，清晰展示了方法各组件的增益来源

局限与展望¶

分辨率受限：ViT-B/8 的 patch 大小为 8×8，推理分辨率为 224×224，对小物体分割精度有限（patch 大小增大到 16 后性能显著下降）
Dense CRF 推理开销：20 FPS→4 FPS 的速度下降主要来自 CRF 后处理，可考虑端到端可训练的 CRF 替代方案
组内所有图像一次性输入：大组别时可能面临显存瓶颈（训练时截断为 min(24, 组大小)）
仅处理二值前景/背景：无法区分不同的共显著物体实例，未来可探索实例级 CoSOD

评分¶

新颖性: ⭐⭐⭐⭐ 多尺度特征对应的两阶段自监督 CoSOD 是全新的问题解法，置信度自适应阈值设计巧妙
实验充分度: ⭐⭐⭐⭐⭐ 三个基准、4 种指标、完整消融（各组件、backbone、数据集、推理速度）、与有监督方法的低数据对比
写作质量: ⭐⭐⭐⭐ 图1的三方法对比直观展示贡献，Algorithm 1 清晰呈现 Stage 2 流程
实用价值: ⭐⭐⭐⭐ 轻量模型 + 无需标注 + 超越有监督方法，对标注稀缺的实际场景有很强的应用价值