跳转至

MarvelOVD: 融合目标检测器与视觉语言模型实现鲁棒开放词汇目标检测

会议: ECCV2024
arXiv: 2407.21465
代码: https://github.com/wkfdb/MarvelOVD
领域: 多模态VLM
关键词: 开放词汇目标检测, 伪标签学习, CLIP, 在线挖掘, 自适应重加权

一句话总结

提出 MarvelOVD 框架,通过将检测器的上下文感知能力和背景识别能力融入 VLM 的伪标签生成与训练流程,在线净化噪声伪标签并自适应重加权训练框,在 COCO 和 LVIS 上大幅超越已有方法。

研究背景与动机

开放词汇目标检测(OVD)旨在训练时仅标注 base 类别,但推理时需检测 novel 类别。主流方案是利用 CLIP 等 VLM 为 novel 类别生成伪标签来训练检测器。然而,VLM 在裁剪的局部区域(proposal)上存在严重的领域偏移,导致伪标签噪声极大。

论文深入分析了 CLIP 伪标签的噪声来源,发现:

  • 误分类率很低(仅 3.3%),CLIP 对真正包含 novel 物体的框分类准确
  • 噪声率极高(76.6%),CLIP 无法区分"不包含有效物体的框"(如狗腿、人臂局部)

根本原因有两点:

缺乏上下文信息:CLIP 在完整图像上预训练,无法利用裁剪区域外的上下文(如人臂被误判为"领带",因缺少全身上下文)

缺少"背景"概念:CLIP 的推理不含"背景"类别,即使输入无关内容也必须给出某个类别的预测(如狗腿被强行分类为"牛")

关键洞察:检测器通过 RoI Align 天然具有上下文特征提取能力,且训练中包含"背景"类别。因此检测器可作为 VLM 的有力补充,帮助过滤噪声伪标签。

方法详解

整体框架

MarvelOVD 包含三个核心模块:

  1. 候选伪标签分配(离线):用 CLIP 对所有 proposal 预测,以低阈值(0.5)保留候选框
  2. 在线伪标签挖掘(Online Mining):训练时结合检测器的新颖性评估动态筛选高质量伪标签
  3. 自适应训练优化:分层标签分配 + 自适应 proposal 重加权

关键设计

1. 在线伪标签挖掘(Online Pseudo-label Mining)

Burn-in 阶段:前 \(\omega=500\) 步用 CLIP 高置信度(>0.8)伪标签初步训练检测器,使其具备区分 novel/base/background 的初始能力。

在线挖掘阶段:Burn-in 后,用弱增强图像输入检测器,计算每个候选框的新颖性得分:

\[z_i = \frac{\sum_{k \in \mathcal{C}^N} \exp(\mathbf{r}_i \cdot \mathbf{c}_k)}{\sum_{j \in \mathcal{C}^B \cup \mathcal{C}^N \cup \{c_{bg}\}} \exp(\mathbf{r}_i \cdot \mathbf{c}_j)}\]

再做 max-norm 归一化得到 \(s_i^{det}\),最终置信度为 CLIP 与检测器的加权融合:

\[s_i = \lambda \cdot s_i^{CLIP} + (1-\lambda) \cdot s_i^{det}\]

\(\lambda=0.5\),阈值 \(\delta=0.9\) 筛选最终伪标签。随训练推进检测器变强,伪标签质量持续提升。

2. 分层标签分配(Stratified Label Assignment)

发现直接使用 novel 伪标签会因与 base 标注的 IoU 重叠导致 base-novel 冲突,降低 base 类别检测性能。解决方案:

  • 第一步:先用 base 标注做 IoU 匹配,分配 base 标签
  • 第二步:第一步中被标记为背景的框,再与 novel 伪标签匹配

从而保证 base 类别的学习不受伪标签干扰。

3. 自适应 Proposal 重加权(Adaptive Proposal Reweighting)

伪标签定位不精确,导致与之匹配的训练框与真实物体的重叠度差异极大。传统方法对所有匹配框等权计算损失,效果不佳。本文为每个 novel 训练框独立计算权重:

\[w_i = \lambda' \cdot s_i + (1-\lambda') \cdot r_i\]

其中 \(s_i\) 为伪标签置信度,\(r_i = 1 - b_i\)\(b_i\) 为背景得分)。发现弱增强图像上的背景得分与训练框和真实物体的重叠度呈负相关,因此背景得分越低的框获得越高权重。

损失函数

\[\mathcal{L} = \frac{1}{N}\left(\sum_{i=1}^{n^{base}} l(b_i^{base}, \mathcal{G}^{base}) + \gamma \sum_{i=1}^{n^{novel}} w_i \cdot l(b_i^{novel}, \mathcal{G}^{novel})\right)\]

其中 \(\gamma=2\) 为 novel 损失全局权重,\(w_i\) 为自适应独立权重。

实验关键数据

主实验:COCO OVD 对比

方法 额外数据 AP50_Novel AP50_Base AP50_All
OV-RCNN 迁移学习 22.8 46.0 39.9
ViLD CLIP蒸馏 27.6 59.5 51.3
RegionCLIP 图文对+预训练 31.4 57.1 50.4
VL-PLM (baseline) CLIP伪标签 32.3 54.0 48.3
BARON CLIP蒸馏 34.0 60.4 53.5
OADP CLIP蒸馏+伪标签 35.6 55.8 50.5
Rasheed et al. 图文对+图像级标签 36.6 54.0 49.4
SAS-Det CNN-CLIP RoI特征 37.4 58.0 53.0
MarvelOVD CLIP伪标签 38.9 56.5 51.9

相比 baseline VL-PLM,novel AP 提升 +6.6,且不需要任何额外数据或预训练。

主实验:LVIS OVD 对比

方法 AP_r (novel) AP_c AP_f AP
VLDet 22.4 - - 34.4
Detic 24.6 32.5 35.6 32.4
Rasheed et al. 25.2 33.4 35.8 32.9
MarvelOVD 26.0 34.2 36.9 34.2

在大规模词汇空间(1203类)下同样取得最优。

消融实验:各组件逐步贡献

配置 AP50_Novel AP50_Base AP50_All
VL-PLM baseline 32.7 54.0 48.5
+弱强增强 34.2 53.9 49.1
+分层标签分配 34.4 56.4↑ 50.5
+在线伪标签挖掘 37.8↑ 56.5 51.3
+自适应重加权 38.9↑ 56.6 51.8
  • 分层标签分配:base AP 从 53.9 恢复到 56.4(监督训练水平),novel 不受影响
  • 在线挖掘:novel AP 大幅提升 +3.4,核心贡献
  • 自适应重加权:再提 +1.1

阈值与 Burn-in 消融

阈值 δ 0.8 0.85 0.9 0.95
AP50_Novel 37.0 38.2 38.9 38.4
Burn-in 步数 ω 0.5k 1k 2k 5k
AP50_Novel 38.9 38.7 38.7 38.5

burn-in 步数影响很小(模型收敛后伪标签质量趋同),阈值 0.9 最优。

关键发现

  1. CLIP 伪标签的核心问题不是误分类(3.3%),而是噪声框无法过滤(76.6%)
  2. 检测器的背景得分与训练框质量高度负相关,是最佳的可靠性指标(AP50_Novel=39.8 vs IoU的37.6)
  3. λ 和 λ' 在 [0.3, 0.7] 范围内表现稳健,极端值(仅靠检测器或仅靠CLIP)性能均下降
  4. 伪标签质量随训练持续提升,形成正反馈循环

亮点与洞察

  1. 问题分析深入:精确量化了 CLIP 伪标签噪声的两大根因(缺上下文 + 无背景概念),而非笼统归因于"领域偏移"
  2. 在线互补机制:检测器和 VLM 互补——CLIP 分类准但不识噪声,检测器识噪声但分类弱,加权融合效果显著
  3. 正反馈循环:检测器变强→伪标签更干净→检测器更强,无需外部迭代即可在线完成
  4. 分层标签分配:发现并解决了被忽视的 base-novel 冲突问题,仅此一项就将 base AP 恢复到监督水平
  5. 无需额外数据:不需要图文对、分类数据或预训练,仅利用训练集本身的潜在 novel 物体

局限性

  1. 依赖预训练的类无关 proposal 生成器,如果 proposal 覆盖不全则 novel 物体无法被发现
  2. Burn-in 阶段仍需高阈值 CLIP 伪标签,对 CLIP 的初始质量有基本依赖
  3. 仅在两阶段检测器(Mask-RCNN / CenterNet2)上验证,未扩展到 DETR 等端到端检测器
  4. 实验仅使用 ViT-B/32 CLIP,更强的 VLM(如 ViT-L)可能改变检测器与 VLM 的互补关系
  5. novel 类别需在训练前已知,不适用于完全未知类别的场景

相关工作与启发

  • VL-PLM:本文的直接 baseline,仅用 CLIP 离线生成伪标签,噪声严重
  • Detic:利用 ImageNet-21K 图像级标签扩展检测器词汇,但需要大量额外分类数据
  • BARON:从 CLIP 做知识蒸馏,思路不同但同样关注 VLM 到检测的迁移
  • 半监督检测:弱强增强、教师-学生范式的思路在 OVD 伪标签学习中同样有效
  • 启发:检测器自身的"背景感知"能力是被忽视的宝贵信号,可推广到其他利用 VLM 做密集预测的任务(如开放词汇分割)

评分

  • 新颖性: ⭐⭐⭐⭐ — 将检测器作为 VLM 补充来去噪的思路新颖且符合直觉
  • 实验充分度: ⭐⭐⭐⭐⭐ — COCO+LVIS 两个数据集,消融全面,分析深入
  • 写作质量: ⭐⭐⭐⭐ — 问题分析清晰,图表直观,逻辑流畅
  • 价值: ⭐⭐⭐⭐ — 在伪标签OVD方向上的重要改进,方法简洁有效可复现