Rethinking Transfer Learning for Industrial Inspection: DINOv3 vs. ImageNet Pretraining Across RGB and X-ray Tasks¶

会议: CVPR 2026
arXiv: 2605.23472
代码: 无
领域: 目标检测 / 工业质检 / 迁移学习
关键词: 视觉基础模型, DINOv3, 工业缺陷检测, 迁移学习, X 光成像

一句话总结¶

这是一篇受控对照研究：在工业视觉质检（语义分割 / 实例分割 / 目标检测）上，把 DINOv3 蒸馏预训练的 ConvNeXt 和有监督 ImageNet 预训练的 ConvNeXt 在「冻结」和「全量微调」两种适配方式下逐一对比，结论是——DINOv3 在 RGB 任务上只有在全量微调后才显出优势（收敛更快、终点更高），而在 X 光这种模态偏移大的场景下，老牌的有监督 ImageNet 预训练在冻结和微调下都更稳更强。

研究背景与动机¶

领域现状：网页规模数据上训练的视觉基础模型（DINOv3、MAE、CLIP 等）在自然图像 benchmark 上展示了很强的迁移能力，业界自然期待它们成为「新的标准初始化策略」，取代沿用多年的有监督 ImageNet 预训练。工业质检领域因为标注稀缺，长期把 ImageNet 预训练当作默认起点。

现有痛点：工业数据和网页数据差异巨大——标注极少、前景/背景严重失衡（缺陷只占图像很小一块）、需要细粒度的稠密预测、且不同产品/采集条件下外观差异大；一旦从 RGB 走到 X 光这种模态，视觉统计分布与自然图像更是天差地别。基础模型在自然图像上的强迁移能力，到底能不能迁到工业质检上，没人系统验证过。

核心矛盾：现有把基础模型用到工业场景的工作几乎都聚焦在异常检测（判断「是否偏离正常样本」），而真正的工业质检需要的是有类别标签、空间精确的稠密预测（语义分割 / 实例分割 / 检测）。这两类问题的诉求不同，异常检测上的好结论不能直接外推。同时这些工作大多还叠加了 prompt tuning、adapter 等额外适配，无法回答「预训练特征本身够不够用」这个干净的问题。

本文目标：在不引入任何新方法的前提下，干净地回答三个子问题——(1) DINOv3 特征能否直接迁移（冻结）到工业质检；(2) 它和传统 ImageNet 迁移有何本质差异；(3) 在 X 光这种强模态偏移下能否扛住。

切入角度：为了把「预训练范式」的影响和「架构差异」的影响分离开，作者刻意把对比锁死在同一个卷积骨干 ConvNeXt-T 上，只换预训练方式（有监督 ImageNet 分类 vs. DINOv3 蒸馏），并以经典 ResNet-50（ImageNet 有监督）作参照；同时横跨 4 个数据集 × 3 类任务 × 2 种适配方式做网格式评测。

核心 idea：把「基础模型能否替代 ImageNet 预训练」这个含糊的判断，拆成「任务类型 × 目标模态 × 适配方式」三维受控实验，用统一协议给出可信的经验结论。

方法详解¶

整体框架¶

本文不提出新模型，而是搭建一套受控对照评测协议。固定变量、只动预训练方式，是整套设计的灵魂：骨干网络统一用 ConvNeXt-T，下游解码器对每类任务固定（语义分割用 Mask2Former、实例分割用 Mask R-CNN、检测用 Faster R-CNN），训练 recipe 尽量沿用各架构默认配置、不做数据集专属调参，全部在 Detectron2 里跑、随机种子固定为 42。这样一来，性能差异就能尽量归因到「预训练特征质量」本身，而不是架构或调参的副作用。

在这个固定框架下，作者扫描三个对照轴：① 预训练范式——有监督 ImageNet-1k 分类 vs. DINOv3（在 LVD-1689M 上蒸馏）vs. 参照基线 ResNet-50；② 适配方式——骨干冻结（只训任务头，类似 linear probing）vs. 全量微调；③ 任务/模态——4 个数据集覆盖 RGB 表面缺陷分割（Severstal、Rubber Rings）、RGB 实例级定位（RarePlanes 航拍代理）、X 光铸件缺陷检测（GDXray）。

关键设计¶

（本文是经验研究，"关键设计"即研究的对照设置与据此得出的发现。）

1. 架构对齐的受控对比：把"预训练"从"架构"里剥出来

工业质检里换骨干往往同时换了架构和预训练，结论很难归因。本文把骨干统一钉死在 ConvNeXt-T，只改预训练目标（ImageNet 有监督分类 vs. DINOv3 蒸馏），再用 ResNet-50（同样 ImageNet 有监督）作"老 recipe"参照。之所以选卷积网络而非 ViT，是因为工业稠密预测需要对小缺陷、重复纹理、细结构做精确定位，ConvNet 的局部性与平移等变性归纳偏置天然契合；同时把对比限制在卷积骨干内，也能更干净地隔离预训练的影响。DINOv3 本身是从 ViT 教师蒸馏出来的，但学生是 ConvNeXt——这个 ViT→CNN 的蒸馏错配，后面恰好成了解释冻结迁移弱的关键线索。

2. 双适配方式诊断："冻结特征好不好用"≠"初始化好不好"

只比最终精度会掩盖一个重要区别：一个预训练特征可能作为固定描述子很弱、但作为微调起点很强。本文对每个骨干都跑两种 regime——冻结骨干（衡量特征的直接可迁移性）和全量微调（衡量它作为初始化的价值），并配上学习曲线（mIoU / mAP vs. 迭代步）观察收敛行为。正是这个设计揭示了 DINOv3 的核心特性：在 Severstal 上冻结时 DINOv3 与 ImageNet 几乎打平（62.40 vs. 62.04 mIoU），但全量微调后 DINOv3 反超且 ImageNet 微调几乎没涨——说明 DINOv3 的价值在「更好的微调先验」而非「更强的冻结描述子」。

3. 跨模态压力测试：用 X 光戳破"通用迁移"幻觉

自然图像与 X 光在外观统计、纹理结构、成像方式上差异极大，是检验「网页预训练特征是否真通用」的最强压力测试。本文专门纳入 GDXray 铸件 X 光子集，与三个 RGB 数据集形成对照。结果非常干脆：冻结时 DINOv3 的 box mAP@50 只有 7.88，而 ImageNet 有 21.32；即便全量微调，ImageNet（29.74）仍优于 DINOv3（27.84）。这说明自监督预训练编码的语义先验严重依赖「目标数据接近自然图像统计」，一旦模态走远，先验不仅没用甚至拖后腿，反倒是有监督 ImageNet 初始化更稳。

损失函数 / 训练策略¶

没有新损失。训练上有两处针对工业数据的小适配：① 缺陷感知裁剪——Severstal/Rubber Rings 前景占比极小，训练时以概率 \(p=0.7\) 强制裁剪框至少包含一部分标注缺陷区域，减少全背景 crop；② GDXray 上按小缺陷实例调整 anchor-box 配置。调度上语义分割用 Mask2Former 默认 schedule，检测/实例分割用线性 warm-up + multi-step 衰减（RarePlanes 用 3× schedule，GDXray 用更长的 6×）。ResNet-50 按惯例把 BatchNorm 换成 GroupNorm 以稳定检测/分割训练。其余一律沿用 Detectron2 默认，刻意不做数据集专属调参。

实验关键数据¶

主实验¶

评测指标：语义分割报 mIoU（Severstal / Rubber Rings），RarePlanes 报 mask mAP@[0.5:0.95]，GDXray 报 box mAP@50。全部在各自验证集、训练终点处取值。

骨干 / 预训练	适配	Severstal (mIoU)	Rubber Rings (mIoU)	RarePlanes (mask mAP)	GDXray (box mAP@50)
ResNet-50 / ImageNet 有监督	Full	63.28	73.87	78.39	24.42
ConvNeXt-T / ImageNet 有监督	Frozen	62.04	73.25	72.89	21.32
ConvNeXt-T / ImageNet 有监督	Full	62.97	73.26	82.88	29.74
ConvNeXt-T / DINOv3 蒸馏	Frozen	62.40	72.32	70.36	7.88
ConvNeXt-T / DINOv3 蒸馏	Full	64.01	75.60	84.50	27.84

读表要点：① RGB 全量微调这一行 DINOv3 全面最优（三个 RGB 数据集都拿第一）；② X 光列上 ImageNet 反超，且 DINOv3 冻结崩到 7.88；③ ConvNeXt-T 全量微调一旦放开，普遍比 ResNet-50 基线强——说明更强的卷积架构本身就带来可观的工业迁移收益。

关键发现（按任务）¶

场景	现象	解释
RGB 语义分割（冻结）	DINOv3≈ImageNet（62.40 vs 62.04）	作为固定描述子，DINOv3 在工业表面缺陷上没有自然图像 benchmark 上那种大优势
RGB 语义分割（微调）	DINOv3 反超，比 ResNet-50 +10.59、比 ImageNet-ConvNeXt +10.29 mIoU	DINOv3 是更好的微调初始化；ImageNet-ConvNeXt 微调后几乎不涨
RGB 实例定位 RarePlanes	冻结 ImageNet 略强，微调 DINOv3 最优（84.50 vs 82.88）	DINO 自蒸馏偏全局语义不变性，而 Mask R-CNN 重实例定位/框回归；ViT→ConvNeXt 蒸馏存在归纳偏置错配，微调后才补齐
X 光 GDXray	冻结 7.88 vs 21.32，微调 27.84 vs 29.74	DINOv3 语义先验依赖接近自然图像；强模态偏移下失效，ImageNet 更稳

消融实验要点¶

本文没有传统意义的"模块消融"，其消融性质的对照来自三个正交轴的交叉：

适配方式是最强的"开关"：同一 DINOv3 特征，冻结 vs 微调的结论可以完全反转（Severstal 冻结打平 → 微调 +10.29；RarePlanes 冻结落后 → 微调反超）。只看冻结或只看微调都会得出片面结论。
模态是第二强的调节变量：把数据从 RGB 换到 X 光，DINOv3 的优势直接消失甚至大幅倒挂（冻结 7.88），证明"通用视觉表征"被预训练数据分布（仍以自然图像为主）牢牢约束。
架构红利与预训练红利可分离：无论哪种预训练，ConvNeXt-T 全量微调后普遍优于 ResNet-50，说明换更强的卷积骨干本身就有稳定收益，这部分收益独立于「用不用基础模型」。
学习曲线佐证：RGB 全量微调下 DINOv3 不仅终点高，收敛也更快，支持「DINOv3 提供了更易优化的初始化」这一解释，而非偶然的终点波动。

亮点与洞察¶

把一个含糊问题做成干净实验：「基础模型能否替代 ImageNet」常被笼统地回答。本文用「固定骨干只换预训练 + 双适配 + 跨模态」三维网格，把结论钉到「任务 × 模态 × 适配」的具体格子里，这种受控对照的范式本身就值得借鉴。
「好描述子」与「好初始化」是两回事：DINOv3 在冻结下平平、微调后却最强，这个解耦提醒大家——评估预训练特征不能只 linear probing，必须同时看微调，否则会低估（或高估）一个表征的真实价值。
ViT→CNN 蒸馏的归纳偏置错配：作者指出 DINOv3 学生是 ConvNeXt 卷积架构，其局部性/权重共享等先验与从 ViT 教师蒸来的表征存在部分错配，这解释了"冻结弱、微调强"——一个可迁移到其他蒸馏迁移场景的诊断视角。
给工业界的直接行动建议：RGB 任务且允许全量微调时，优先用 DINOv3-ConvNeXt；标注/算力受限只能冻结，或任务是 X 光等强模态偏移时，老老实实用 ImageNet 有监督预训练。

局限性¶

作者承认：通用视觉表征受预训练数据分布约束，当前数据仍以自然图像网页数据为主，X 光等非标准模态本就不在分布内；作者据此呼吁「工业专属自监督预训练」作为下一步。
覆盖面有限：只测了 ConvNeXt-T 一个容量、一种 DINOv3 蒸馏配置，ViT 骨干被明确留到未来工作；规模更大的骨干是否改变结论未知。
代理数据集：RarePlanes 是航拍图像，作为"细粒度实例定位"代理而非严格工业 benchmark，X 光只有 GDXray 铸件一个子集，X 光结论的外推性有待更多数据验证。
协议刻意不调参：为公平统一用默认 recipe，没有针对各数据集精调超参，意味着每个数字未必是该设置的上限，绝对值不宜过度解读，更应看「相对趋势」。
单一随机种子：所有实验固定 seed=42，没有报方差，部分接近的对比（如 Severstal 冻结 62.40 vs 62.04）是否稳健存疑。

评分¶

新颖性: ⭐⭐⭐ 不提新方法，但把"基础模型迁工业质检"这个真实问题做成了干净、可信的受控对照，结论有实用价值。
实验充分度: ⭐⭐⭐⭐ 4 数据集 × 3 任务 × 2 适配的网格覆盖到位、含学习曲线；但单种子、单骨干容量、X 光仅一个子集略减分。
写作质量: ⭐⭐⭐⭐ 问题拆解清晰，结论按「任务×模态×适配」组织，解释（ViT→CNN 错配、全局语义 vs 定位）到位。
价值: ⭐⭐⭐⭐ 给工业界"何时用基础模型、何时用 ImageNet"提供了可直接照搬的决策依据，并指明工业专属 SSL 的方向。