FSOD-VFM: Few-Shot Object Detection with Vision Foundation Models and Graph Diffusion¶

会议: ICLR 2026
arXiv: 2602.03137
代码: https://intellindust-ai-lab.github.io/projects/FSOD-VFM
领域: 目标检测 / 少样本学习
关键词: 少样本目标检测, 视觉基础模型, 图扩散, 免训练, SAM2

一句话总结¶

提出一个无需训练的少样本目标检测框架，组合 UPN、SAM2 和 DINOv2 三个基础模型生成提案和匹配特征，并通过图扩散算法精化置信度分数和抑制碎片化提案，在 Pascal-5i 和 COCO-20i 上大幅超越 SOTA。

领域现状：少样本目标检测（FSOD）旨在从少量标注样本中检测新类别。传统方法需要微调训练，而最近的 training-free 方法利用基础模型直接进行检测。

现有痛点：基础模型（如 UPN）生成的提案常常过度碎片化——同一目标被切分为多个重叠的小框，且提案之间的冗余难以通过简单的 NMS 有效处理。

核心矛盾：SoftNMS 等后处理方法只考虑框的空间关系，无法利用提案间的语义和掩码重叠信息来判断哪个提案更好。

本文目标 如何在 training-free 的框架中有效抑制碎片化提案，产生高质量检测结果？

切入角度：将提案关系建模为有向图，通过 PageRank 式的图扩散传播置信度。

核心 idea：用图扩散算法在提案图上传播抑制信号，让被大框"覆盖"的碎片提案自动降低置信度。

UPN 生成类别无关的提案 -> SAM2 精化掩码 -> DINOv2 提取特征 -> 与 support 原型余弦匹配 -> 图扩散精化置信度 -> NMS 输出最终检测。

RoI 特征提取与原型匹配:
- 功能：从 support 样本构建类别原型，与 query 提案匹配
- 核心思路：SAM2 为每个 support 标注生成二值掩码，DINOv2 提取密集特征后用掩码池化得到 support 特征。对同类 support 特征取均值+L2 归一化构建原型。query 提案的匹配通过余弦相似度完成。
- 设计动机：利用 SAM2 掩码精确提取前景特征，避免背景噪声。
图扩散（核心创新）:
- 功能：构建提案间的有向图，通过迭代扩散传播抑制碎片提案的置信度
- 核心思路：节点为提案，边权由掩码重叠比例定义——如果提案 i 的 UPN 分数低于 j，则从 j 到 i 的边权为 Area(M_i ∩ M_j) / Area(M_i)。然后用 PageRank 式迭代：pi^{t+1} = alpha * P * pi^t + (1-alpha) * w。最终置信度 = (1 - pi)^lambda * cos_sim，被覆盖的碎片提案 pi 值高，置信度降低。
- 设计动机：相比 NMS/SoftNMS 只用框的 IoU，图扩散利用精确的掩码重叠和 UPN objectness 分数，能更准确地判断哪些提案是冗余的。

完全无需训练，所有组件均使用预训练权重直接推理。

数据集	Shot	FSOD-VFM	之前 SOTA (NtTT)	提升
Pascal-5i	1-shot	77.5	70.8	+6.7
Pascal-5i	5-shot	85.8	77.2	+8.6
COCO-20i	10-shot	59.4 (nAP50)	54.1	+5.3
CD-FSOD (ArTaxOr)	1-shot	51.4	28.2	+23.2