Omni-AD: A Large-scale and Versatile Benchmark for Industrial Anomaly Detection¶

会议: CVPR 2026
论文: CVF Open Access
代码: 项目页 https://omni-ad.github.io
领域: 目标检测 / 工业异常检测 / 基准数据集
关键词: 工业异常检测, 大规模基准, MLLM 评测, 视觉问答, 视觉定位

一句话总结¶

Omni-AD 是一个从真实产线采集、覆盖 16 个行业 150 个品类、约 3.5 万张像素级标注图像的工业异常检测（IAD）基准；它既支持传统无监督 IAD 评测，又首次为多模态大模型（MLLM）设计了「判别—分类—定位」三个递进难度的子任务，实验证明现有方法与 MLLM 在这个数据集上都远未饱和。

研究背景与动机¶

领域现状：工业异常检测的主流范式是无监督学习——只用正常（无缺陷）图像训练，让模型在测试时检出未知缺陷，从而省去昂贵的缺陷数据采集与标注。这一范式的发展深度依赖基准数据集，MVTec AD（5,354 张、15 品类）催生了大量算法，VisA、Real-IAD 等随后把规模逐步推大。

现有痛点：作者指出两个卡脖子的问题。其一是性能饱和：当下顶尖算法在 MVTec AD 上的 image-level / pixel-level AUROC 都已超过 99%，不同算法的优劣几乎无法区分，基准失去了甄别力。其二是缺少面向 MLLM 的评测：MLLM 在通用领域展现出强大能力，但它们到底能不能做工业质检几乎无人系统评估；已有的 MMAD 用「多选 VQA」形式做了初步尝试，但多选题与真实质检需求并不对齐。

核心矛盾：现有数据集大多在实验室里人工构造，品类与缺陷多样性有限，从实验室迁移到真实产线时差距巨大；同时既有评测协议（无监督 + 多选 VQA）无法同时满足「甄别难度足够」和「贴近 MLLM 实际用法」两个要求。

本文目标：构建一个（i）规模与多样性显著更大、（ii）同时支持无监督与 MLLM 两套协议、（iii）对当前 SOTA 仍有挑战性的统一基准。

切入角度：从真实产线直接采集数据（而非人工合成缺陷），并把 MLLM 的能力拆成贴近工业现场的三个问题——「有没有缺陷 / 是什么缺陷 / 缺陷在哪」。

核心 idea：用一个大规模真实产线数据集 + 三个递进的 MLLM 子任务（两个 VQA + 一个视觉定位），把 IAD 评测从「饱和、只针对无监督」推进到「有甄别力、原生支持 MLLM」。

方法详解¶

整体框架¶

Omni-AD 本质是「数据集 + 双协议基准」，不含可训练的新模型，因此核心工作是四块：真实产线数据采集与对齐 → 循环两阶段像素级标注 → 无监督 IAD 协议 + MLLM 三子任务协议（含层级化语义 QA 生成）。数据集最终包含 34,886 张图像、150 个品类、16 个行业，正常/异常约 1:1（16,989 正常 / 17,897 异常），每个品类含 1–7 种缺陷类型。基准侧把评测拆成两条互补的路径：传统无监督路径沿用「只用正常图训练、正常+异常一起测」的设定；MLLM 路径则把缺陷理解组织成「判别（Discrimination）→ 分类（Classification）→ 定位（Localization）」三个难度递增的子任务。这是一篇纯基准/数据集论文，下面按四个关键设计展开。

关键设计¶

1. 真实产线数据采集与前景对齐：让基准更贴近落地、对比更公平

针对「实验室合成数据多样性不足、迁移到产线就崩」的痛点，作者直接从多条真实生产线采集约 3.5 万张高分辨率图，覆盖金属、塑料、陶瓷、纸、织物、木材等材料的 150 个品类、16 个行业。与人工合成数据不同，真实数据事先并不知道缺陷类型与位置，因此作者为每个品类按厂商对产品用途和质量要求的描述，定义一套专属缺陷类别集合 \(A_{cat}\)，再据此把图像人工划分为正常/异常。采集后还做前景对齐：对刚性产品用模板匹配把前景对齐，对可形变/纹理类产品用裁剪把 RoI 推到图像中心。这一步削弱了背景干扰与目标错位对模型（尤其是基于重建的方法）的负面影响，让不同算法的横向比较更公平。

2. 循环两阶段像素级标注：在大规模下保证标注质量一致性

跨众多工业场景做细粒度像素标注极易出错且难以一致。作者设计了一个循环的两阶段标注流水线。第一阶段是人工主导标注：专业标注员勾勒缺陷类型与多边形掩码；先用 500 张精标图建立「控制集」，所有标注员必须通过资格测试（与控制集的差异率低于严格阈值）才能上岗；团队分为标注员与检查员，每个品类的图均分成三批顺序标注，检查员逐批复核，任何含错的批次被打回原标注员修正——既纠错又强制同一品类内规则一致。第二阶段是模型辅助标注：把每品类人工标注数据均分两份（正常/异常等量），训练一个有监督语义分割模型（如 U-Net）来发现潜在标注错误，标注员核查模型预测与人工标注不一致的区域并修正；这个「模型审、人工改」的过程反复迭代，直到差异率低于预设阈值。

3. MLLM 三子任务协议：把缺陷理解拆成贴近质检的递进难度

已有 MMAD 用多选 VQA，与真实需求不对齐。Omni-AD 把 MLLM 评测拆成难度递增、且直接对应现场三问的子任务：缺陷判别——给定图像或指定框 + 富语义问题，模型二选一回答 Yes/No；缺陷分类——在若干候选缺陷类型中选出正确类型（或 Not any），形式上是 VQA；缺陷定位——把任务设为视觉定位（visual grounding），模型须输出 JSON 格式 {'box':[xmin,ymin,xmax,ymax],'label':'defect type'}。每个子任务都在 0-shot 与 1-shot 两种设定下评测，1-shot 允许模型参考正常集中最相似的样本作为视觉指引。判别/分类用 VQA 准确率（分 image-level 与 box-level），定位因为 MLLM 缺乏可靠置信度而改用 IoU=0.5 下的 Recall / Precision / F1。

4. 层级化语义 QA 生成流水线：把结构化元数据转成语义丰富的问答对

数据集每个样本虽有结构化元数据（产品、缺陷信息），但格式化文本缺乏 MLLM 评测所需的语义丰富度。作者在 MMAD 流水线基础上，用 GPT-4o 做层级化数据增强，分三步：（a）先验增强（Prior Enrichment）——构造视觉提示（原图叠加由掩码得到的边缘高亮缺陷轮廓 + 同产品的一张正常图做对比），结合实例结构化元数据，引导 GPT-4o 补全使用场景、功能、缺陷形态、成因机制、影响等高层语义，得到「增强后的实例先验」；（b）知识整合（Knowledge Consolidation）——把同一产品所有实例的增强先验聚合，用 GPT-4o 过滤掉位置/背景噪声等实例特有变化，蒸馏成一致的「产品级先验」，再经人工筛选保证可靠；（c）QA 生成——以视觉提示 + 实例先验 + 产品先验作为上下文，按任务定义与格式要求生成语义丰富的问答对。最终产出 12K 个 QA 数据和 3K 个 grounding 数据。

实验关键数据¶

评测指标说明：I-AUROC / I-AUPR 为 image-level 的 ROC/PR 曲线下面积（异常分类）；P-AUROC / P-AUPRO 为 pixel-level 的 ROC 曲线下面积与 Per-Region-Overlap 曲线下面积（异常分割，PRO 更能兼顾不同缺陷尺寸与正负像素不平衡）；MLLM 侧 Img-Acc / Box-Acc 为整图/指定框输入下的 VQA 准确率，定位用 IoU=0.5 下的 Recall/Precision/F1。指标越低代表数据集越难。

数据集规模对比¶

数据集	品类数	正常	异常	总图像	像素标注
MVTec AD	15	4,096	1,258	5,354	✓
VisA	12	9,621	1,200	10,821	✓
GoodsAD	6	4,464	1,660	6,124	✓
Real-IAD（单视角）	30	14,568	15,642	30,210	✓
Omni-AD	150	16,989	17,897	34,886	✓

品类数比 MVTec AD 多一个数量级（150 vs. 15）、比 VisA 多约 12.5 倍；总图像约为 MVTec AD 的 6 倍、VisA 的 3 倍。

无监督 IAD：在 Omni-AD 上普遍掉点且分化更明显¶

方法	范式	MVTec AD (I-AUROC)	Real-IAD (I-AUROC)	Omni-AD (I-AUROC)	Omni-AD (P-AUPRO)
PatchCore	MemoryBank	99.1	90.4	87.8	81.1
Dinomaly	重建	99.6	89.3	84.5	71.4
SimpleNet	数据增强	99.6	91.7	82.1	76.7
GLASS	数据增强	99.9	92.3	83.1	74.8

关键观察：在 MVTec AD 上所有方法 I-AUROC 挤在 94.9%–99.9% 几乎无法区分，到 Omni-AD 上区间拉开到 82.1%–87.8%、P-AUPRO 更是低至 71.4%–81.6%；号称「多类媲美单类」的 Dinomaly 在 Omni-AD 上 P-AUPRO 掉到 71.4，分化最显著，说明该基准既更难也更有甄别力。

MLLM 三子任务：随难度递增逐级下滑，定位是最大短板¶

模型	设定	判别 Img-Acc	分类 Img-Acc	定位 F1
随机基线	-	50.00	20.00	N/A
人类专家	-	95.67	91.67	79.32
LLaVA-NeXT 34B	0-shot	59.43	38.84	N/A（未输出合法 JSON）
InternVL-3.5 38B	0-shot	57.58	40.70	10.07
Qwen3-VL-Instruct 30B-A3B	1-shot	64.65	65.94	14.84
Qwen3-VL-Thinking 30B-A3B	1-shot	69.38	64.29	25.64

关键发现¶

任务难度递进有效：所有模型在「判别 → 分类 → 定位」上性能依次下滑，最难的定位子任务上最佳模型（Qwen3-VL-30B-A3B-Thinking）F1 仅 26.20（0-shot），远低于人类的 79.32，说明精确定位仍是 IAD 的硬骨头。
Box-level 普遍优于 Image-level：把注意力聚焦到指定区域后，判别与分类准确率都更高，说明给定 RoI 能帮 MLLM 抽到更有意义的特征。
Thinking 模式利于定位：Qwen3-VL-30B-A3B-Thinking 在定位上 F1 26.20 明显高于 Instruct 版的 19.12，提示带「思考」的 MLLM 有更强的视觉定位潜力。
1-shot 对判别/分类多为正向，对定位偶有反效果：参考正常模板样本能帮助多数模型做配对比较提升判别/分类，但在更难的定位子任务上多数方法反而略降。
与人类差距巨大：人类专家在全部 7 个指标上大幅领先所有 MLLM，既说明基准之难，也说明 MLLM 异常检测仍有巨大提升空间。

亮点与洞察¶

「真实产线 + 双协议」一次到位：既用规模和多样性把无监督 IAD 的饱和度打回去，又原生支持 MLLM 评测，避免了「换个数据集只是变大、评测方式还是老一套」的窠臼。
三子任务的设计直接映射现场三问（有没有/是什么/在哪），并刻意把定位做成 grounding 输出 JSON——这个设定一下子暴露了 MLLM「能判断却定不准」的能力断层，比多选 VQA 更有诊断价值。
层级化 QA 生成把结构化标注「语义化」：用「实例先验 → 产品先验」的两级整合再生成问答，思路可迁移到任何「有结构化元数据但缺语义描述」的垂直领域基准构建（如医学、遥感质检）。
循环两阶段标注 + 控制集资格测试是大规模像素标注保质的实用工程范式，可直接复用。

局限与展望¶

本质是基准而非方法：论文不提出新检测算法，价值在于「提供更难、更全的尺子」，而非推动单个模型性能。
MLLM 评测依赖 GPT-4o 生成 QA：QA 质量受 GPT-4o 能力与提示设计影响，虽有人工筛选，但「用一个强 MLLM 生成题目去考别的 MLLM」存在潜在偏置（⚠️ 论文未量化该偏置）。
定位评测仅用 IoU=0.5 单阈值的 R/P/F1，对「轻微偏移但语义正确」的预测较严苛；不同 MLLM 输出格式合规率差异（如 LLaVA-NeXT 直接 N/A）也会放大分数差距。
可改进方向：补充 few-shot/微调后的 MLLM 上限、加入多视角或多光照设定、对 QA 生成偏置做对照实验。

评分¶

新颖性: ⭐⭐⭐⭐ 数据集本身是「更大更真」的延续，但「原生支持 MLLM 三子任务 + 层级化 QA 生成」是实质性的新角度
实验充分度: ⭐⭐⭐⭐ 覆盖 6 种无监督方法、4 个 MLLM 家族、双协议 + 人类对照，但缺少 MLLM 微调/few-shot 上限与 QA 偏置对照
写作质量: ⭐⭐⭐⭐ 动机清晰、协议与指标定义完整、图表自洽
价值: ⭐⭐⭐⭐⭐ 提供了一把更难、能甄别、且原生面向 MLLM 的工业异常检测尺子，对推动该方向落地很有价值