Rethinking Transfer Learning for Industrial Inspection: DINOv3 vs. ImageNet Pretraining Across RGB and X-ray Tasks¶
会议: CVPR 2026
arXiv: 2605.23472
代码: 无
领域: 目标检测 / 工业质检 / 迁移学习
关键词: 视觉基础模型, DINOv3, 工业缺陷检测, 迁移学习, X 光成像
一句话总结¶
这是一篇受控对照研究:在工业视觉质检(语义分割 / 实例分割 / 目标检测)上,把 DINOv3 蒸馏预训练的 ConvNeXt 和有监督 ImageNet 预训练的 ConvNeXt 在「冻结」和「全量微调」两种适配方式下逐一对比,结论是——DINOv3 在 RGB 任务上只有在全量微调后才显出优势(收敛更快、终点更高),而在 X 光这种模态偏移大的场景下,老牌的有监督 ImageNet 预训练在冻结和微调下都更稳更强。
研究背景与动机¶
领域现状:网页规模数据上训练的视觉基础模型(DINOv3、MAE、CLIP 等)在自然图像 benchmark 上展示了很强的迁移能力,业界自然期待它们成为「新的标准初始化策略」,取代沿用多年的有监督 ImageNet 预训练。工业质检领域因为标注稀缺,长期把 ImageNet 预训练当作默认起点。
现有痛点:工业数据和网页数据差异巨大——标注极少、前景/背景严重失衡(缺陷只占图像很小一块)、需要细粒度的稠密预测、且不同产品/采集条件下外观差异大;一旦从 RGB 走到 X 光这种模态,视觉统计分布与自然图像更是天差地别。基础模型在自然图像上的强迁移能力,到底能不能迁到工业质检上,没人系统验证过。
核心矛盾:现有把基础模型用到工业场景的工作几乎都聚焦在异常检测(判断「是否偏离正常样本」),而真正的工业质检需要的是有类别标签、空间精确的稠密预测(语义分割 / 实例分割 / 检测)。这两类问题的诉求不同,异常检测上的好结论不能直接外推。同时这些工作大多还叠加了 prompt tuning、adapter 等额外适配,无法回答「预训练特征本身够不够用」这个干净的问题。
本文目标:在不引入任何新方法的前提下,干净地回答三个子问题——(1) DINOv3 特征能否直接迁移(冻结)到工业质检;(2) 它和传统 ImageNet 迁移有何本质差异;(3) 在 X 光这种强模态偏移下能否扛住。
切入角度:为了把「预训练范式」的影响和「架构差异」的影响分离开,作者刻意把对比锁死在同一个卷积骨干 ConvNeXt-T 上,只换预训练方式(有监督 ImageNet 分类 vs. DINOv3 蒸馏),并以经典 ResNet-50(ImageNet 有监督)作参照;同时横跨 4 个数据集 × 3 类任务 × 2 种适配方式做网格式评测。
核心 idea:把「基础模型能否替代 ImageNet 预训练」这个含糊的判断,拆成「任务类型 × 目标模态 × 适配方式」三维受控实验,用统一协议给出可信的经验结论。
方法详解¶
整体框架¶
本文不提出新模型,而是搭建一套受控对照评测协议。固定变量、只动预训练方式,是整套设计的灵魂:骨干网络统一用 ConvNeXt-T,下游解码器对每类任务固定(语义分割用 Mask2Former、实例分割用 Mask R-CNN、检测用 Faster R-CNN),训练 recipe 尽量沿用各架构默认配置、不做数据集专属调参,全部在 Detectron2 里跑、随机种子固定为 42。这样一来,性能差异就能尽量归因到「预训练特征质量」本身,而不是架构或调参的副作用。
在这个固定框架下,作者扫描三个对照轴:① 预训练范式——有监督 ImageNet-1k 分类 vs. DINOv3(在 LVD-1689M 上蒸馏)vs. 参照基线 ResNet-50;② 适配方式——骨干冻结(只训任务头,类似 linear probing)vs. 全量微调;③ 任务/模态——4 个数据集覆盖 RGB 表面缺陷分割(Severstal、Rubber Rings)、RGB 实例级定位(RarePlanes 航拍代理)、X 光铸件缺陷检测(GDXray)。
关键设计¶
(本文是经验研究,"关键设计"即研究的对照设置与据此得出的发现。)
1. 架构对齐的受控对比:把"预训练"从"架构"里剥出来
工业质检里换骨干往往同时换了架构和预训练,结论很难归因。本文把骨干统一钉死在 ConvNeXt-T,只改预训练目标(ImageNet 有监督分类 vs. DINOv3 蒸馏),再用 ResNet-50(同样 ImageNet 有监督)作"老 recipe"参照。之所以选卷积网络而非 ViT,是因为工业稠密预测需要对小缺陷、重复纹理、细结构做精确定位,ConvNet 的局部性与平移等变性归纳偏置天然契合;同时把对比限制在卷积骨干内,也能更干净地隔离预训练的影响。DINOv3 本身是从 ViT 教师蒸馏出来的,但学生是 ConvNeXt——这个 ViT→CNN 的蒸馏错配,后面恰好成了解释冻结迁移弱的关键线索。
2. 双适配方式诊断:"冻结特征好不好用"≠"初始化好不好"
只比最终精度会掩盖一个重要区别:一个预训练特征可能作为固定描述子很弱、但作为微调起点很强。本文对每个骨干都跑两种 regime——冻结骨干(衡量特征的直接可迁移性)和全量微调(衡量它作为初始化的价值),并配上学习曲线(mIoU / mAP vs. 迭代步)观察收敛行为。正是这个设计揭示了 DINOv3 的核心特性:在 Severstal 上冻结时 DINOv3 与 ImageNet 几乎打平(62.40 vs. 62.04 mIoU),但全量微调后 DINOv3 反超且 ImageNet 微调几乎没涨——说明 DINOv3 的价值在「更好的微调先验」而非「更强的冻结描述子」。
3. 跨模态压力测试:用 X 光戳破"通用迁移"幻觉
自然图像与 X 光在外观统计、纹理结构、成像方式上差异极大,是检验「网页预训练特征是否真通用」的最强压力测试。本文专门纳入 GDXray 铸件 X 光子集,与三个 RGB 数据集形成对照。结果非常干脆:冻结时 DINOv3 的 box mAP@50 只有 7.88,而 ImageNet 有 21.32;即便全量微调,ImageNet(29.74)仍优于 DINOv3(27.84)。这说明自监督预训练编码的语义先验严重依赖「目标数据接近自然图像统计」,一旦模态走远,先验不仅没用甚至拖后腿,反倒是有监督 ImageNet 初始化更稳。
损失函数 / 训练策略¶
没有新损失。训练上有两处针对工业数据的小适配:① 缺陷感知裁剪——Severstal/Rubber Rings 前景占比极小,训练时以概率 \(p=0.7\) 强制裁剪框至少包含一部分标注缺陷区域,减少全背景 crop;② GDXray 上按小缺陷实例调整 anchor-box 配置。调度上语义分割用 Mask2Former 默认 schedule,检测/实例分割用线性 warm-up + multi-step 衰减(RarePlanes 用 3× schedule,GDXray 用更长的 6×)。ResNet-50 按惯例把 BatchNorm 换成 GroupNorm 以稳定检测/分割训练。其余一律沿用 Detectron2 默认,刻意不做数据集专属调参。
实验关键数据¶
主实验¶
评测指标:语义分割报 mIoU(Severstal / Rubber Rings),RarePlanes 报 mask mAP@[0.5:0.95],GDXray 报 box mAP@50。全部在各自验证集、训练终点处取值。
| 骨干 / 预训练 | 适配 | Severstal (mIoU) | Rubber Rings (mIoU) | RarePlanes (mask mAP) | GDXray (box mAP@50) |
|---|---|---|---|---|---|
| ResNet-50 / ImageNet 有监督 | Full | 63.28 | 73.87 | 78.39 | 24.42 |
| ConvNeXt-T / ImageNet 有监督 | Frozen | 62.04 | 73.25 | 72.89 | 21.32 |
| ConvNeXt-T / ImageNet 有监督 | Full | 62.97 | 73.26 | 82.88 | 29.74 |
| ConvNeXt-T / DINOv3 蒸馏 | Frozen | 62.40 | 72.32 | 70.36 | 7.88 |
| ConvNeXt-T / DINOv3 蒸馏 | Full | 64.01 | 75.60 | 84.50 | 27.84 |
读表要点:① RGB 全量微调这一行 DINOv3 全面最优(三个 RGB 数据集都拿第一);② X 光列上 ImageNet 反超,且 DINOv3 冻结崩到 7.88;③ ConvNeXt-T 全量微调一旦放开,普遍比 ResNet-50 基线强——说明更强的卷积架构本身就带来可观的工业迁移收益。
关键发现(按任务)¶
| 场景 | 现象 | 解释 |
|---|---|---|
| RGB 语义分割(冻结) | DINOv3≈ImageNet(62.40 vs 62.04) | 作为固定描述子,DINOv3 在工业表面缺陷上没有自然图像 benchmark 上那种大优势 |
| RGB 语义分割(微调) | DINOv3 反超,比 ResNet-50 +10.59、比 ImageNet-ConvNeXt +10.29 mIoU | DINOv3 是更好的微调初始化;ImageNet-ConvNeXt 微调后几乎不涨 |
| RGB 实例定位 RarePlanes | 冻结 ImageNet 略强,微调 DINOv3 最优(84.50 vs 82.88) | DINO 自蒸馏偏全局语义不变性,而 Mask R-CNN 重实例定位/框回归;ViT→ConvNeXt 蒸馏存在归纳偏置错配,微调后才补齐 |
| X 光 GDXray | 冻结 7.88 vs 21.32,微调 27.84 vs 29.74 | DINOv3 语义先验依赖接近自然图像;强模态偏移下失效,ImageNet 更稳 |
消融实验要点¶
本文没有传统意义的"模块消融",其消融性质的对照来自三个正交轴的交叉:
- 适配方式是最强的"开关":同一 DINOv3 特征,冻结 vs 微调的结论可以完全反转(Severstal 冻结打平 → 微调 +10.29;RarePlanes 冻结落后 → 微调反超)。只看冻结或只看微调都会得出片面结论。
- 模态是第二强的调节变量:把数据从 RGB 换到 X 光,DINOv3 的优势直接消失甚至大幅倒挂(冻结 7.88),证明"通用视觉表征"被预训练数据分布(仍以自然图像为主)牢牢约束。
- 架构红利与预训练红利可分离:无论哪种预训练,ConvNeXt-T 全量微调后普遍优于 ResNet-50,说明换更强的卷积骨干本身就有稳定收益,这部分收益独立于「用不用基础模型」。
- 学习曲线佐证:RGB 全量微调下 DINOv3 不仅终点高,收敛也更快,支持「DINOv3 提供了更易优化的初始化」这一解释,而非偶然的终点波动。
亮点与洞察¶
- 把一个含糊问题做成干净实验:「基础模型能否替代 ImageNet」常被笼统地回答。本文用「固定骨干只换预训练 + 双适配 + 跨模态」三维网格,把结论钉到「任务 × 模态 × 适配」的具体格子里,这种受控对照的范式本身就值得借鉴。
- 「好描述子」与「好初始化」是两回事:DINOv3 在冻结下平平、微调后却最强,这个解耦提醒大家——评估预训练特征不能只 linear probing,必须同时看微调,否则会低估(或高估)一个表征的真实价值。
- ViT→CNN 蒸馏的归纳偏置错配:作者指出 DINOv3 学生是 ConvNeXt 卷积架构,其局部性/权重共享等先验与从 ViT 教师蒸来的表征存在部分错配,这解释了"冻结弱、微调强"——一个可迁移到其他蒸馏迁移场景的诊断视角。
- 给工业界的直接行动建议:RGB 任务且允许全量微调时,优先用 DINOv3-ConvNeXt;标注/算力受限只能冻结,或任务是 X 光等强模态偏移时,老老实实用 ImageNet 有监督预训练。
局限性¶
- 作者承认:通用视觉表征受预训练数据分布约束,当前数据仍以自然图像网页数据为主,X 光等非标准模态本就不在分布内;作者据此呼吁「工业专属自监督预训练」作为下一步。
- 覆盖面有限:只测了 ConvNeXt-T 一个容量、一种 DINOv3 蒸馏配置,ViT 骨干被明确留到未来工作;规模更大的骨干是否改变结论未知。
- 代理数据集:RarePlanes 是航拍图像,作为"细粒度实例定位"代理而非严格工业 benchmark,X 光只有 GDXray 铸件一个子集,X 光结论的外推性有待更多数据验证。
- 协议刻意不调参:为公平统一用默认 recipe,没有针对各数据集精调超参,意味着每个数字未必是该设置的上限,绝对值不宜过度解读,更应看「相对趋势」。
- 单一随机种子:所有实验固定 seed=42,没有报方差,部分接近的对比(如 Severstal 冻结 62.40 vs 62.04)是否稳健存疑。
相关工作与启发¶
- vs AnomalyDINO:AnomalyDINO 证明 DINOv2 冻结特征可直接用于工业异常检测的 patch 级打分。本文则聚焦有监督缺陷识别/定位(需类别标签 + 空间精确),并指出异常检测的好结论不能直接外推到有监督稠密预测——这正是本文存在的意义。
- vs CLIP/SAM 适配类工作(AdaCLIP、SAM-based):这些方法靠 prompt tuning / adapter 等额外适配把基础模型搬进工业场景。本文反其道而行,不加任何额外适配,直接拷问「预训练特征本身够不够」,从而把「特征质量」和「适配技巧」分离。
- vs DINOv3 在自然图像上的强结果:DINOv3 在 ADE20K 等自然图像稠密任务上有大幅领先,本文表明这种优势在工业 RGB 上要靠全量微调才兑现、在 X 光上则消失,是对"基础模型通用性"的一次有价值的去魅。
- 启发:这套「固定架构 + 双适配 + 跨模态网格」的评测协议可迁移到任何「新预训练 vs 旧预训练」的领域迁移评估(医学、遥感、声呐等),尤其适合判断一个 SSL 表征到底是"好用的冻结特征"还是"好用的微调起点"。
评分¶
- 新颖性: ⭐⭐⭐ 不提新方法,但把"基础模型迁工业质检"这个真实问题做成了干净、可信的受控对照,结论有实用价值。
- 实验充分度: ⭐⭐⭐⭐ 4 数据集 × 3 任务 × 2 适配的网格覆盖到位、含学习曲线;但单种子、单骨干容量、X 光仅一个子集略减分。
- 写作质量: ⭐⭐⭐⭐ 问题拆解清晰,结论按「任务×模态×适配」组织,解释(ViT→CNN 错配、全局语义 vs 定位)到位。
- 价值: ⭐⭐⭐⭐ 给工业界"何时用基础模型、何时用 ImageNet"提供了可直接照搬的决策依据,并指明工业专属 SSL 的方向。