跳转至

AnomalyVFM -- Transforming Vision Foundation Models into Zero-Shot Anomaly Detectors

会议: CVPR 2026
arXiv: 2601.20524
代码: Project Page
领域: Multimodal VLM / Anomaly Detection
关键词: 零样本异常检测, 视觉基础模型, 合成数据, 参数高效微调, LoRA

一句话总结

AnomalyVFM 提出了一个通用框架,通过三阶段合成数据生成方案和参数高效的 LoRA 适配机制,将任意视觉基础模型(VFM)转化为强零样本异常检测器,以 RADIO 为骨干在 9 个工业数据集上达到 94.1% 图像级 AUROC,超越 SOTA 3.3 个百分点。

研究背景与动机

领域现状:零样本异常检测要求在未见过的物体类别上无需任何域内图像即可检测异常。当前 SOTA 方法(AnomalyCLIP、AdaCLIP 等)依赖 CLIP 等视觉-语言模型的高层概念知识。

现有痛点: - 纯视觉基础模型(VFM,如 DINOv2)拥有更强的视觉表示但在零样本异常检测中落后于 VLM 方法——这不合理,因为异常检测本质上是视觉任务; - 原因一:现有辅助异常数据集多样性不足,VLM 可靠高层概念知识弥补数据不足,但 VFM 无法依赖; - 原因二:现有 VFM 适配策略过于浅层(仅训练输出头),未改变内部视觉表示。

核心矛盾:VFM 有更强的视觉表征能力,但缺乏多样化训练数据和有效的深层适配方法来释放其潜力。

本文切入角度:同时解决数据和方法两个瓶颈——合成大规模多样化数据 + LoRA 深层适配。

核心 idea:生成式数据 + 参数高效骨干适配 + 置信度加权损失 = 释放 VFM 的零样本异常检测潜力。

方法详解

整体框架

三阶段数据生成 → LoRA 注入 VFM Transformer → 轻量解码器 → 置信度加权损失训练 → 推理时直接输出异常分割图和图像级分数。

关键设计

  1. 三阶段合成数据生成

    • Stage 1 - 无异常图像生成:用 FLUX 模型根据文本 prompt 生成无缺陷物体图像 \(I = G(p)\),prompt 包含 LLM 生成的 100 种物体 × 50 种背景
    • Stage 2 - 异常图像生成:提取前景掩码 → 随机采样异常区域 \(R\) → 用异常 prompt 进行局部重绘(inpainting),异常描述(cracked, damaged 等)由 LLM 针对每种物体生成
    • Stage 3 - 数据过滤:用 DINOv2 提取正常和异常图像的特征,计算余弦距离作为距离分数 \(D\),过滤未成功生成异常的样本(\(D < T\)),同时通过阈值化获得异常掩码 \(M\)
    • 设计动机:现有数据集(MVTec、VisA)多样性不足。合成管线不需要任何真实样本,可无限扩展物体类别和异常类型。过滤步骤确保数据质量。
  2. Feature Adaptation Module(特征适配模块)

    • 功能:在 VFM 的每个 Transformer 块中注入 LoRA,适配内部表示。
    • 核心思路:在注意力机制的 Query、Value 和 Output 投影层注入 LoRA(rank=64)
    • 解码器:两个上采样块(Conv + GroupNorm + ReLU + 双线性上采样)+ 最终卷积层输出异常分割图 \(M_o\) 和置信度图 \(c\)
    • 图像级分数:[CLS] token 经线性层预测
    • 设计动机:仅训练输出头(如之前的方法)无法改变 VFM 内部的特征表示,限制了从正常到异常的区分能力。LoRA 以极少参数(<1%)即可适配所有层。
  3. 置信度加权损失(Confidence-Weighted Loss)

    • 功能:降低合成标注中不确定区域的损失权重。
    • 核心思路\(\mathcal{L}_{seg} = \mathcal{L}_{base}(M_o, M_{GT}) \cdot C - \alpha \log(C)\) 其中 \(C = 1 + \exp(c)\)\(c\) 是解码器预测的置信度图
    • 基础损失 \(\mathcal{L}_{base} = \ell_1 + 5 \cdot \ell_{focal}\)
    • 设计动机:合成数据的异常掩码不可避免地存在噪声。置信度加权允许模型在不确定区域降低损失权重,避免被噪声标注误导。

损失函数 / 训练策略

  • 总损失 \(\mathcal{L} = \mathcal{L}_{seg} + \mathcal{L}_{img}\)(图像级用 Focal Loss)
  • 模型无关:可应用于任何 Transformer 骨干的 VFM

实验关键数据

主实验(9 个工业数据集零样本,图像级 AUROC)

方法 MVTec AD VisA BTAD RealIAD DTD 平均
WinCLIP 91.8 78.1 68.2 74.7 95.1 83.2
AnomalyCLIP 91.6 82.0 88.2 78.7 93.9 87.6
Bayes-PFL 92.3 87.0 93.2 85.2 95.1 90.8
AnomalyVFM 94.9 93.6 96.0 88.0 99.4 94.1

消融实验(VFM 通用性验证)

骨干 合成数据 LoRA 适配 图像 AUROC 像素 AUROC 提升
DINOv2 83.0 80.4 基线
DINOv2 90.2 (+7.2) 93.4 (+13.0) 显著提升
RADIO 89.1 84.9 基线
RADIO 94.1 (+5.0) 96.9 (+12.0) 全面最优

关键发现

  • 合成数据和 LoRA 适配各自都带来显著提升,两者组合效果最优
  • 在三个 VFM(DINOv2、DINOv3、RADIO)上均有效,证明框架通用性
  • 像素级 AUROC 提升尤为显著:RADIO 从 84.9 到 96.9(+12.0)
  • 在医学异常检测数据集上也表现出色(无需额外微调)

亮点与洞察

  • 核心发现具有启发性:VFM 在零样本异常检测上的落后不是能力问题,而是数据和适配方法的问题
  • 合成数据管线高度可扩展,不依赖任何真实异常样本
  • 置信度加权损失优雅地处理了合成标注的噪声问题
  • 框架通用性强:换不同 VFM 骨干均有效

局限与展望

  • 数据生成依赖 FLUX 模型的生成质量和 prompt 覆盖度
  • LoRA rank=64 相对较高,更小 rank 是否可行未充分探索
  • 某些特定领域(如 KSDD 钢铁表面)的像素级性能仍有不足

相关工作与启发

  • 与 DRÆM 的合成异常思路类似但不需要真实正常样本
  • 置信度加权损失类似 NeRF 中的不确定性建模方法

评分

  • 新颖性: ⭐⭐⭐⭐ 解决了"为什么VFM不如VLM"的关键问题
  • 实验充分度: ⭐⭐⭐⭐⭐ 9个工业+医学数据集,三种VFM骨干
  • 写作质量: ⭐⭐⭐⭐ 问题分析到位,方法动机清晰
  • 价值: ⭐⭐⭐⭐⭐ 为VFM在异常检测中的应用开辟了新路径