FSOD-VFM: Few-Shot Object Detection with Vision Foundation Models and Graph Diffusion¶
会议: ICLR 2026
arXiv: 2602.03137
代码: https://intellindust-ai-lab.github.io/projects/FSOD-VFM
领域: 目标检测 / 少样本学习
关键词: 少样本目标检测, 视觉基础模型, 图扩散, 免训练, SAM2
一句话总结¶
提出一个无需训练的少样本目标检测框架,组合 UPN、SAM2 和 DINOv2 三个基础模型生成提案和匹配特征,并通过图扩散算法精化置信度分数和抑制碎片化提案,在 Pascal-5i 和 COCO-20i 上大幅超越 SOTA。
研究背景与动机¶
领域现状:少样本目标检测(FSOD)旨在从少量标注样本中检测新类别。传统方法需要微调训练,而最近的 training-free 方法利用基础模型直接进行检测。
现有痛点:基础模型(如 UPN)生成的提案常常过度碎片化——同一目标被切分为多个重叠的小框,且提案之间的冗余难以通过简单的 NMS 有效处理。
核心矛盾:SoftNMS 等后处理方法只考虑框的空间关系,无法利用提案间的语义和掩码重叠信息来判断哪个提案更好。
本文目标 如何在 training-free 的框架中有效抑制碎片化提案,产生高质量检测结果?
切入角度:将提案关系建模为有向图,通过 PageRank 式的图扩散传播置信度。
核心 idea:用图扩散算法在提案图上传播抑制信号,让被大框"覆盖"的碎片提案自动降低置信度。
方法详解¶
整体框架¶
UPN 生成类别无关的提案 -> SAM2 精化掩码 -> DINOv2 提取特征 -> 与 support 原型余弦匹配 -> 图扩散精化置信度 -> NMS 输出最终检测。
关键设计¶
-
RoI 特征提取与原型匹配:
- 功能:从 support 样本构建类别原型,与 query 提案匹配
- 核心思路:SAM2 为每个 support 标注生成二值掩码,DINOv2 提取密集特征后用掩码池化得到 support 特征。对同类 support 特征取均值+L2 归一化构建原型。query 提案的匹配通过余弦相似度完成。
- 设计动机:利用 SAM2 掩码精确提取前景特征,避免背景噪声。
-
图扩散(核心创新):
- 功能:构建提案间的有向图,通过迭代扩散传播抑制碎片提案的置信度
- 核心思路:节点为提案,边权由掩码重叠比例定义——如果提案 i 的 UPN 分数低于 j,则从 j 到 i 的边权为 Area(M_i ∩ M_j) / Area(M_i)。然后用 PageRank 式迭代:pi^{t+1} = alpha * P * pi^t + (1-alpha) * w。最终置信度 = (1 - pi)^lambda * cos_sim,被覆盖的碎片提案 pi 值高,置信度降低。
- 设计动机:相比 NMS/SoftNMS 只用框的 IoU,图扩散利用精确的掩码重叠和 UPN objectness 分数,能更准确地判断哪些提案是冗余的。
训练策略¶
完全无需训练,所有组件均使用预训练权重直接推理。
实验关键数据¶
主实验¶
| 数据集 | Shot | FSOD-VFM | 之前 SOTA (NtTT) | 提升 |
|---|---|---|---|---|
| Pascal-5i | 1-shot | 77.5 | 70.8 | +6.7 |
| Pascal-5i | 5-shot | 85.8 | 77.2 | +8.6 |
| COCO-20i | 10-shot | 59.4 (nAP50) | 54.1 | +5.3 |
| CD-FSOD (ArTaxOr) | 1-shot | 51.4 | 28.2 | +23.2 |
消融实验¶
| 后处理方法 | Pascal-5i | COCO-20i |
|---|---|---|
| 无后处理 | 7.4 | 9.9 |
| NMS | 23.4 | 26.1 |
| Soft NMS | 28.1 | 26.6 |
| Soft Merging | 66.0 | 50.4 |
| Graph Diffusion | 77.5 | 59.4 |
关键发现¶
- 图扩散比最接近的 Soft Merging 提升 11.5/9.0 个点
- 在跨域 FSOD(CD-FSOD)上提升最显著(+23.2),说明图扩散的通用性
- 超参数 alpha=0.3, lambda=0.5 时最优,5-30 步收敛
亮点与洞察¶
- 图扩散替代 NMS:将提案抑制从启发式规则提升为基于图结构的信息传播,工程上优雅且效果显著。可迁移到任何需要提案去冗余的任务。
- 纯组装式框架:三个基础模型的组合+一个图扩散后处理,完全不需要训练。展示了基础模型组装的潜力。
局限与展望¶
- 推理速度较慢(2.4s/图 on A40),UPN+SAM2+DINOv2 三次前向推理开销大
- 图扩散需要掩码重叠计算,提案数多时计算量增加
- 依赖 UPN 生成的初始提案质量
相关工作与启发¶
- vs No-Time-To-Train: 同为 training-free FSOD,但 NtTT 用 SoftNMS 后处理,本文用图扩散
- vs DINOv2/DINOv3: 作为特征提取器使用,DINOv3 比 DINOv2 带来一致的小幅提升
评分¶
- 新颖性: ⭐⭐⭐⭐ 图扩散用于提案去冗余是新颖的,但整体是组件组装
- 实验充分度: ⭐⭐⭐⭐⭐ Pascal/COCO/CD-FSOD 全覆盖,消融详细
- 写作质量: ⭐⭐⭐⭐ 算法描述清晰
- 价值: ⭐⭐⭐⭐ 为 training-free FSOD 提供了强基线