跳转至

Rethinking Transfer Learning for Industrial Inspection: DINOv3 vs. ImageNet Pretraining Across RGB and X-ray Tasks

会议: CVPR 2026
arXiv: 2605.23472
代码: 无
领域: 目标检测 / 工业质检 / 迁移学习
关键词: 视觉基础模型, DINOv3, 工业缺陷检测, 迁移学习, X 光成像

一句话总结

这是一篇受控对照研究:在工业视觉质检(语义分割 / 实例分割 / 目标检测)上,把 DINOv3 蒸馏预训练的 ConvNeXt 和有监督 ImageNet 预训练的 ConvNeXt 在「冻结」和「全量微调」两种适配方式下逐一对比,结论是——DINOv3 在 RGB 任务上只有在全量微调后才显出优势(收敛更快、终点更高),而在 X 光这种模态偏移大的场景下,老牌的有监督 ImageNet 预训练在冻结和微调下都更稳更强

研究背景与动机

领域现状:网页规模数据上训练的视觉基础模型(DINOv3、MAE、CLIP 等)在自然图像 benchmark 上展示了很强的迁移能力,业界自然期待它们成为「新的标准初始化策略」,取代沿用多年的有监督 ImageNet 预训练。工业质检领域因为标注稀缺,长期把 ImageNet 预训练当作默认起点。

现有痛点:工业数据和网页数据差异巨大——标注极少、前景/背景严重失衡(缺陷只占图像很小一块)、需要细粒度的稠密预测、且不同产品/采集条件下外观差异大;一旦从 RGB 走到 X 光这种模态,视觉统计分布与自然图像更是天差地别。基础模型在自然图像上的强迁移能力,到底能不能迁到工业质检上,没人系统验证过

核心矛盾:现有把基础模型用到工业场景的工作几乎都聚焦在异常检测(判断「是否偏离正常样本」),而真正的工业质检需要的是有类别标签、空间精确的稠密预测(语义分割 / 实例分割 / 检测)。这两类问题的诉求不同,异常检测上的好结论不能直接外推。同时这些工作大多还叠加了 prompt tuning、adapter 等额外适配,无法回答「预训练特征本身够不够用」这个干净的问题。

本文目标:在不引入任何新方法的前提下,干净地回答三个子问题——(1) DINOv3 特征能否直接迁移(冻结)到工业质检;(2) 它和传统 ImageNet 迁移有何本质差异;(3) 在 X 光这种强模态偏移下能否扛住。

切入角度:为了把「预训练范式」的影响和「架构差异」的影响分离开,作者刻意把对比锁死在同一个卷积骨干 ConvNeXt-T 上,只换预训练方式(有监督 ImageNet 分类 vs. DINOv3 蒸馏),并以经典 ResNet-50(ImageNet 有监督)作参照;同时横跨 4 个数据集 × 3 类任务 × 2 种适配方式做网格式评测。

核心 idea:把「基础模型能否替代 ImageNet 预训练」这个含糊的判断,拆成「任务类型 × 目标模态 × 适配方式」三维受控实验,用统一协议给出可信的经验结论。

方法详解

整体框架

本文不提出新模型,而是搭建一套受控对照评测协议。固定变量、只动预训练方式,是整套设计的灵魂:骨干网络统一用 ConvNeXt-T,下游解码器对每类任务固定(语义分割用 Mask2Former、实例分割用 Mask R-CNN、检测用 Faster R-CNN),训练 recipe 尽量沿用各架构默认配置、不做数据集专属调参,全部在 Detectron2 里跑、随机种子固定为 42。这样一来,性能差异就能尽量归因到「预训练特征质量」本身,而不是架构或调参的副作用。

在这个固定框架下,作者扫描三个对照轴:① 预训练范式——有监督 ImageNet-1k 分类 vs. DINOv3(在 LVD-1689M 上蒸馏)vs. 参照基线 ResNet-50;② 适配方式——骨干冻结(只训任务头,类似 linear probing)vs. 全量微调;③ 任务/模态——4 个数据集覆盖 RGB 表面缺陷分割(Severstal、Rubber Rings)、RGB 实例级定位(RarePlanes 航拍代理)、X 光铸件缺陷检测(GDXray)。

关键设计

(本文是经验研究,"关键设计"即研究的对照设置与据此得出的发现。)

1. 架构对齐的受控对比:把"预训练"从"架构"里剥出来

工业质检里换骨干往往同时换了架构和预训练,结论很难归因。本文把骨干统一钉死在 ConvNeXt-T,只改预训练目标(ImageNet 有监督分类 vs. DINOv3 蒸馏),再用 ResNet-50(同样 ImageNet 有监督)作"老 recipe"参照。之所以选卷积网络而非 ViT,是因为工业稠密预测需要对小缺陷、重复纹理、细结构做精确定位,ConvNet 的局部性与平移等变性归纳偏置天然契合;同时把对比限制在卷积骨干内,也能更干净地隔离预训练的影响。DINOv3 本身是从 ViT 教师蒸馏出来的,但学生是 ConvNeXt——这个 ViT→CNN 的蒸馏错配,后面恰好成了解释冻结迁移弱的关键线索。

2. 双适配方式诊断:"冻结特征好不好用"≠"初始化好不好"

只比最终精度会掩盖一个重要区别:一个预训练特征可能作为固定描述子很弱、但作为微调起点很强。本文对每个骨干都跑两种 regime——冻结骨干(衡量特征的直接可迁移性)和全量微调(衡量它作为初始化的价值),并配上学习曲线(mIoU / mAP vs. 迭代步)观察收敛行为。正是这个设计揭示了 DINOv3 的核心特性:在 Severstal 上冻结时 DINOv3 与 ImageNet 几乎打平(62.40 vs. 62.04 mIoU),但全量微调后 DINOv3 反超且 ImageNet 微调几乎没涨——说明 DINOv3 的价值在「更好的微调先验」而非「更强的冻结描述子」。

3. 跨模态压力测试:用 X 光戳破"通用迁移"幻觉

自然图像与 X 光在外观统计、纹理结构、成像方式上差异极大,是检验「网页预训练特征是否真通用」的最强压力测试。本文专门纳入 GDXray 铸件 X 光子集,与三个 RGB 数据集形成对照。结果非常干脆:冻结时 DINOv3 的 box mAP@50 只有 7.88,而 ImageNet 有 21.32;即便全量微调,ImageNet(29.74)仍优于 DINOv3(27.84)。这说明自监督预训练编码的语义先验严重依赖「目标数据接近自然图像统计」,一旦模态走远,先验不仅没用甚至拖后腿,反倒是有监督 ImageNet 初始化更稳。

损失函数 / 训练策略

没有新损失。训练上有两处针对工业数据的小适配:① 缺陷感知裁剪——Severstal/Rubber Rings 前景占比极小,训练时以概率 \(p=0.7\) 强制裁剪框至少包含一部分标注缺陷区域,减少全背景 crop;② GDXray 上按小缺陷实例调整 anchor-box 配置。调度上语义分割用 Mask2Former 默认 schedule,检测/实例分割用线性 warm-up + multi-step 衰减(RarePlanes 用 3× schedule,GDXray 用更长的 6×)。ResNet-50 按惯例把 BatchNorm 换成 GroupNorm 以稳定检测/分割训练。其余一律沿用 Detectron2 默认,刻意不做数据集专属调参。

实验关键数据

主实验

评测指标:语义分割报 mIoU(Severstal / Rubber Rings),RarePlanes 报 mask mAP@[0.5:0.95],GDXray 报 box mAP@50。全部在各自验证集、训练终点处取值。

骨干 / 预训练 适配 Severstal (mIoU) Rubber Rings (mIoU) RarePlanes (mask mAP) GDXray (box mAP@50)
ResNet-50 / ImageNet 有监督 Full 63.28 73.87 78.39 24.42
ConvNeXt-T / ImageNet 有监督 Frozen 62.04 73.25 72.89 21.32
ConvNeXt-T / ImageNet 有监督 Full 62.97 73.26 82.88 29.74
ConvNeXt-T / DINOv3 蒸馏 Frozen 62.40 72.32 70.36 7.88
ConvNeXt-T / DINOv3 蒸馏 Full 64.01 75.60 84.50 27.84

读表要点:① RGB 全量微调这一行 DINOv3 全面最优(三个 RGB 数据集都拿第一);② X 光列上 ImageNet 反超,且 DINOv3 冻结崩到 7.88;③ ConvNeXt-T 全量微调一旦放开,普遍比 ResNet-50 基线强——说明更强的卷积架构本身就带来可观的工业迁移收益。

关键发现(按任务)

场景 现象 解释
RGB 语义分割(冻结) DINOv3≈ImageNet(62.40 vs 62.04) 作为固定描述子,DINOv3 在工业表面缺陷上没有自然图像 benchmark 上那种大优势
RGB 语义分割(微调) DINOv3 反超,比 ResNet-50 +10.59、比 ImageNet-ConvNeXt +10.29 mIoU DINOv3 是更好的微调初始化;ImageNet-ConvNeXt 微调后几乎不涨
RGB 实例定位 RarePlanes 冻结 ImageNet 略强,微调 DINOv3 最优(84.50 vs 82.88) DINO 自蒸馏偏全局语义不变性,而 Mask R-CNN 重实例定位/框回归;ViT→ConvNeXt 蒸馏存在归纳偏置错配,微调后才补齐
X 光 GDXray 冻结 7.88 vs 21.32,微调 27.84 vs 29.74 DINOv3 语义先验依赖接近自然图像;强模态偏移下失效,ImageNet 更稳

消融实验要点

本文没有传统意义的"模块消融",其消融性质的对照来自三个正交轴的交叉:

  • 适配方式是最强的"开关":同一 DINOv3 特征,冻结 vs 微调的结论可以完全反转(Severstal 冻结打平 → 微调 +10.29;RarePlanes 冻结落后 → 微调反超)。只看冻结或只看微调都会得出片面结论。
  • 模态是第二强的调节变量:把数据从 RGB 换到 X 光,DINOv3 的优势直接消失甚至大幅倒挂(冻结 7.88),证明"通用视觉表征"被预训练数据分布(仍以自然图像为主)牢牢约束。
  • 架构红利与预训练红利可分离:无论哪种预训练,ConvNeXt-T 全量微调后普遍优于 ResNet-50,说明换更强的卷积骨干本身就有稳定收益,这部分收益独立于「用不用基础模型」。
  • 学习曲线佐证:RGB 全量微调下 DINOv3 不仅终点高,收敛也更快,支持「DINOv3 提供了更易优化的初始化」这一解释,而非偶然的终点波动。

亮点与洞察

  • 把一个含糊问题做成干净实验:「基础模型能否替代 ImageNet」常被笼统地回答。本文用「固定骨干只换预训练 + 双适配 + 跨模态」三维网格,把结论钉到「任务 × 模态 × 适配」的具体格子里,这种受控对照的范式本身就值得借鉴。
  • 「好描述子」与「好初始化」是两回事:DINOv3 在冻结下平平、微调后却最强,这个解耦提醒大家——评估预训练特征不能只 linear probing,必须同时看微调,否则会低估(或高估)一个表征的真实价值。
  • ViT→CNN 蒸馏的归纳偏置错配:作者指出 DINOv3 学生是 ConvNeXt 卷积架构,其局部性/权重共享等先验与从 ViT 教师蒸来的表征存在部分错配,这解释了"冻结弱、微调强"——一个可迁移到其他蒸馏迁移场景的诊断视角。
  • 给工业界的直接行动建议:RGB 任务且允许全量微调时,优先用 DINOv3-ConvNeXt;标注/算力受限只能冻结,或任务是 X 光等强模态偏移时,老老实实用 ImageNet 有监督预训练。

局限性

  • 作者承认:通用视觉表征受预训练数据分布约束,当前数据仍以自然图像网页数据为主,X 光等非标准模态本就不在分布内;作者据此呼吁「工业专属自监督预训练」作为下一步。
  • 覆盖面有限:只测了 ConvNeXt-T 一个容量、一种 DINOv3 蒸馏配置,ViT 骨干被明确留到未来工作;规模更大的骨干是否改变结论未知。
  • 代理数据集:RarePlanes 是航拍图像,作为"细粒度实例定位"代理而非严格工业 benchmark,X 光只有 GDXray 铸件一个子集,X 光结论的外推性有待更多数据验证。
  • 协议刻意不调参:为公平统一用默认 recipe,没有针对各数据集精调超参,意味着每个数字未必是该设置的上限,绝对值不宜过度解读,更应看「相对趋势」。
  • 单一随机种子:所有实验固定 seed=42,没有报方差,部分接近的对比(如 Severstal 冻结 62.40 vs 62.04)是否稳健存疑。

相关工作与启发

  • vs AnomalyDINO:AnomalyDINO 证明 DINOv2 冻结特征可直接用于工业异常检测的 patch 级打分。本文则聚焦有监督缺陷识别/定位(需类别标签 + 空间精确),并指出异常检测的好结论不能直接外推到有监督稠密预测——这正是本文存在的意义。
  • vs CLIP/SAM 适配类工作(AdaCLIP、SAM-based):这些方法靠 prompt tuning / adapter 等额外适配把基础模型搬进工业场景。本文反其道而行,不加任何额外适配,直接拷问「预训练特征本身够不够」,从而把「特征质量」和「适配技巧」分离。
  • vs DINOv3 在自然图像上的强结果:DINOv3 在 ADE20K 等自然图像稠密任务上有大幅领先,本文表明这种优势在工业 RGB 上要靠全量微调才兑现、在 X 光上则消失,是对"基础模型通用性"的一次有价值的去魅。
  • 启发:这套「固定架构 + 双适配 + 跨模态网格」的评测协议可迁移到任何「新预训练 vs 旧预训练」的领域迁移评估(医学、遥感、声呐等),尤其适合判断一个 SSL 表征到底是"好用的冻结特征"还是"好用的微调起点"。

评分

  • 新颖性: ⭐⭐⭐ 不提新方法,但把"基础模型迁工业质检"这个真实问题做成了干净、可信的受控对照,结论有实用价值。
  • 实验充分度: ⭐⭐⭐⭐ 4 数据集 × 3 任务 × 2 适配的网格覆盖到位、含学习曲线;但单种子、单骨干容量、X 光仅一个子集略减分。
  • 写作质量: ⭐⭐⭐⭐ 问题拆解清晰,结论按「任务×模态×适配」组织,解释(ViT→CNN 错配、全局语义 vs 定位)到位。
  • 价值: ⭐⭐⭐⭐ 给工业界"何时用基础模型、何时用 ImageNet"提供了可直接照搬的决策依据,并指明工业专属 SSL 的方向。