跳转至

Large Self-Supervised Models Bridge the Gap in Domain Adaptive Object Detection

会议: CVPR 2025
arXiv: 2503.23220
代码: https://github.com/TRAILab/DINO_Teacher
领域: 目标检测 / 域自适应
关键词: 域自适应目标检测, DINOv2, 视觉基础模型, 伪标签, 特征对齐

一句话总结

DINO Teacher 提出用冻结的 DINOv2 大模型替代传统 Mean Teacher 框架中的 EMA 教师,一方面作为更准确的伪标签生成器,另一方面作为特征对齐的代理目标,在多个域自适应目标检测基准上取得了 SOTA 性能(BDD100k 上 +7.6%)。

研究背景与动机

  1. 领域现状:域自适应目标检测(DAOD)的主流方法是 Mean Teacher 自标注框架——将学生模型的 EMA 版本作为教师,在目标域生成伪标签,然后用伪标签反过来训练学生,形成正向循环。
  2. 现有痛点:Mean Teacher 将标签生成与模型训练强耦合——在源域训练的学生模型在目标域上可能无法生成准确的伪标签来启动正向循环;域对齐方法依赖伪标签做类别级对齐,而伪标签质量本身就不可靠,形成鸡生蛋问题。
  3. 核心矛盾:教师模型与学生模型架构完全相同、训练数据相同,凭什么期望它能在从未见过的目标域产生好的标签?
  4. 本文目标 (1) 如何在目标域产生更准确的伪标签?(2) 如何进行不依赖伪标签的域对齐?
  5. 切入角度:视觉基础模型(如 DINOv2)在海量数据上自监督预训练,具有强大的跨域泛化特征。即使冻结参数,其特征在源域和目标域之间也具有一致的语义表示。
  6. 核心 idea:解耦标签生成与学生训练——用冻结 DINOv2 做伪标签生成器,用 DINOv2 特征空间做域对齐的代理目标。

方法详解

整体框架

DINO Teacher 分三个阶段:(1) 离线标注器训练:在冻结的 DINOv2 ViT-G 编码器上训练一个 Faster R-CNN 检测头,仅用源域数据;(2) 离线标签生成:用训练好的标注器对目标域数据一次性生成全部伪标签;(3) 在线学生训练:用源域真实标签 + 目标域伪标签训练小型学生网络(VGG16/ResNet-50),同时将学生特征与冻结的 DINOv2 ViT-B 特征对齐。推理时只用学生网络。

关键设计

  1. DINOv2 伪标签生成器(Foundation Model Labeller):

    • 功能:替代 Mean Teacher 作为目标域的伪标签来源,提供更高质量的跨域标签。
    • 核心思路:在冻结的 DINOv2 ViT-G 编码器上加一个 Faster R-CNN 检测头,仅用源域标注数据训练检测头。训练完成后对所有目标域图像做一次前向推理,生成伪标签 \(\tilde{B}_T, \tilde{Y}_T\),按类别概率阈值 \(\delta=0.8\) 筛选。由于 DINOv2 在大规模数据上见过远超源域分布的样本,即使只在源域训练检测头,其特征也能在目标域产生更准确的框和类别预测。
    • 设计动机:Mean Teacher 的标签器本质是学生的滑动平均,受限于相同的小架构和有限训练数据;DINOv2 解耦了特征质量和标签生成——用大模型做特征,保持学生模型轻量。
  2. DINOv2 特征对齐(Feature Alignment):

    • 功能:通过将学生特征与 DINOv2 特征对齐,间接缩小源域和目标域之间的特征差距。
    • 核心思路:使用冻结的 DINOv2 ViT-B 作为对齐编码器,将学生主干网络的 patch 级特征通过 2 层 MLP 投影后,与 DINOv2 特征计算余弦相似度损失 \(\mathcal{L}^{sim} = \frac{1}{NHW}\sum 1 - \frac{\text{interp}(g(\mathbf{x}))^T \mathbf{x}^{big}}{\|\text{interp}(g(\mathbf{x}))\|_2 \|\mathbf{x}^{big}\|_2}\)。在源域和目标域的图像上独立对齐,不需要跨域匹配,也不需要任何标签。
    • 设计动机:传统域不变方法要么做图像级对齐(不保证实例级一致)要么用伪标签做类别级对齐(依赖标签质量)。利用 DINOv2 作为代理目标——将源域和目标域的学生特征分别向 DINOv2 靠拢,自动缩小域差距,无需跨域匹配。
  3. 分阶段训练策略:

    • 功能:合理安排各组件的启动时序,保证训练稳定性。
    • 核心思路:分为三个阶段:(1) 前 \(n^{initSim}=5000\) 迭代仅在源域训练+源域 DINO 对齐,学习投影 MLP;(2) 从 5000 迭代开始在源+目标域同时做 DINO 对齐,但尚不使用伪标签;(3) 从 \(n^{initPL}=20000\) 迭代开始引入 DINO 伪标签训练。总损失为 \(\mathcal{L} = \mathcal{L}^{det}_S + \lambda^{unsup}\mathcal{L}^{det}_T + \lambda^{sim}\mathcal{L}^{sim}\)\(\lambda^{unsup}=\lambda^{sim}=1\)
    • 设计动机:先让域对齐建立好特征基础,再引入伪标签训练,避免早期不对齐的梯度干扰;与 Adaptive Teacher 同时开始两者不同,提前开始对齐可以减少域间梯度冲突。

损失函数 / 训练策略

总损失 = 源域检测损失 \(\mathcal{L}^{det}_S\)(含 RPN 和 RoI 损失)+ 目标域伪标签检测损失 \(\mathcal{L}^{det}_T\) + 余弦相似度对齐损失 \(\mathcal{L}^{sim}\)。VGG16 主干学习率 0.04 无衰减,EMA 衰减因子 \(\alpha=0.9996\),总训练 60k 迭代。使用弱-强数据增强策略(教师弱增强、学生强增强)。

实验关键数据

主实验

数据集 指标 DINO Teacher 之前 SOTA 提升
Cityscapes → BDD100k mAP@50 47.8 40.2 (HT) +7.6%
Cityscapes → Foggy CS mAP@50 55.4 53.1 (REACT) +2.3%
Cityscapes → ACDC-Fog mAP@50 68.6 62.2 (AT) +6.4%
Cityscapes → ACDC-Night mAP@50 36.4 29.5 (AT) +6.9%
Cityscapes → ACDC-Rain mAP@50 39.0 37.7 (AT) +1.3%
Cityscapes → ACDC-Snow mAP@50 56.8 55.2 (AT) +1.6%

在域差距最大的 BDD100k 上提升最为显著,truck (+12.9%) 和 bus (+12.1%) 等稀有类别改进尤其大。

消融实验

配置 标签源 对齐方式 伪标签前 mAP 最终 mAP
AT (Baseline) Mean Teacher \(\mathcal{L}^{dis}\) 28.5 31.8
Case 1 Mean Teacher \(\mathcal{L}^{sim}\) 32.5 35.3
Case 2 DINO Labeller \(\mathcal{L}^{dis}\) 28.5 46.8
DT (Full) DINO Labeller \(\mathcal{L}^{sim}\) 33.0 47.8

关键发现

  • DINO 伪标签是主要贡献者:无论搭配哪种对齐方式,使用 DINO 标签都带来 10%+ 的提升(AT→Case2: +15.0%, Case1→DT: +12.5%),远超对齐方式的改变(AT→Case1: +3.5%)。
  • DINO 对齐在伪标签引入前就有效:伪标签启用前,DINO 对齐已将 mAP 从 28.5 提升到 32.5-33.0,说明特征对齐独立于标签质量。
  • 稀有类别改善最大:在 BDD100k 上 truck 从 31.4 提升到 44.3,bus 从 34.6 提升到 45.9,motor 从 24.4 提升到 38.3,说明 DINOv2 特征对稀有类别表示更好。
  • t-SNE 可视化清楚显示 DINO 对齐后学生网络的类别分离度显著提升,尤其是 person/rider 的混淆减少。

亮点与洞察

  • 解耦思想的彻底贯彻:标签生成与学生训练解耦(DINO 标注器独立于学生),域对齐与伪标签解耦(DINO 对齐不需要任何标签)。这种系统性的解耦使每个组件可以独立优化,避免了 Mean Teacher 中循环依赖的脆弱性。
  • 大模型赋能小模型:最终推理只用 VGG16/ResNet-50 这样的轻量模型,但通过训练阶段借助 DINOv2 的知识完成了域适应。推理成本完全不变,但性能大幅提升,对部署极其友好。
  • 离线标签生成:标签只需在目标域数据上做一次前向推理生成,之后整个训练过程不再需要大模型参与,训练成本可控。

局限与展望

  • DINO 标签是静态的:一次性生成后不再更新,无法利用学生训练过程中新获取的知识。可以考虑周期性或课程学习式地更新伪标签。
  • 对齐编码器的选择:用 ViT-B 做对齐(而非 ViT-G)是出于速度考虑,更大的对齐模型可能带来更好效果但训练更慢。
  • 对极端天气的提升有限:在 ACDC-Rain (+1.3%) 和 ACDC-Snow (+1.6%) 上提升不如 BDD100k 和 ACDC-Night 显著,可能是因为这些场景的域差距本身不大,或者 DINOv2 对这些条件的泛化也有局限。
  • 可以与 CutMix/Mixup 等数据增强方法结合进一步提升。
  • 将 DINO Teacher 范式扩展到域自适应分割或其他密集预测任务应该是直接的。

相关工作与启发

  • vs Adaptive Teacher (AT): AT 使用 EMA 教师 + 域判别器对抗损失,本文用 DINO 标注器 + DINO 对齐替代两个组件,全面超越 AT 4.5% (Foggy CS) 到 16.0% (BDD100k)。
  • vs Harmonious Teacher (HT): HT 是 FCOS 检测器上的 SOTA (BDD100k mAP 40.2),本文使用 Faster R-CNN 但以 47.8 大幅超越,说明更好的伪标签比更复杂的检测器更重要。
  • vs REIN: REIN 证明冻结的大模型主干在域泛化分割上接近全微调性能,本文将类似思想应用到 DAOD 的伪标签生成,进一步验证了 VFM 特征的跨域一致性。
  • 这个方法论框架(大模型提供知识→小模型实际部署)可以推广到任何需要域适应的密集预测任务。

评分

  • 新颖性: ⭐⭐⭐⭐ 解耦思想清晰,大模型赋能小模型的范式被系统地应用到 DAOD
  • 实验充分度: ⭐⭐⭐⭐⭐ 覆盖 4 个数据集 6 个测试场景,消融实验彻底
  • 写作质量: ⭐⭐⭐⭐⭐ 动机推导逻辑严密,方法描述清晰
  • 价值: ⭐⭐⭐⭐⭐ 为 DAOD 定义了新的 baseline 范式,实用性极强