跳转至

ABRA: Teleporting Fine-Tuned Knowledge Across Domains for Open-Vocabulary Object Detection

会议: CVPR 2026
arXiv: 2603.12409
代码: 待公开
领域: 目标检测 / 域适应 / 开放词汇
关键词: 开放词汇检测, 域适应, 权重空间传输, SVD 旋转对齐, Objectification, SVFT

一句话总结

将跨域类别迁移问题建模为权重空间的 SVD 旋转对齐:通过 Objectification 训练类无关域专家,用 SVFT 提取轻量类残差,再通过闭式正交 Procrustes 解将源域类知识"传送"到完全没有该类数据的目标域。

研究背景与动机

领域现状:开放词汇检测器(如 Grounding DINO)可通过文本提示检测任意类别,但在域偏移(夜间/雾天/雨天)下性能严重退化。传统 DAOD 方法依赖 Mean Teacher + 伪标签,但在严重域偏移下伪标签不可靠。

现有痛点

  1. 标准 DAOD 假设目标域有所有类的图像(即使无标注),但现实中稀有类在目标域可能完全没有数据——既无标注也无图片
  2. Task Arithmetic 等权重空间方法忽略了源域和目标域 SVD 子空间的旋转差异,直接加减残差效果差
  3. 需要一种方法在目标域完全没有某类数据时实现该类的跨域迁移

核心矛盾:需要在目标域检测某个类别,但该类在目标域完全不可见(zero-shot class transfer across domains)。

本文目标 将源域中已学到的类别检测能力传送到无该类数据的目标域。

切入角度:域知识和类知识可以解耦——域专家学视觉统计(光照/纹理/天气),类专家学类别语义。通过对齐两个域的 SVD 基底,类残差可在域间"传送"。

核心 idea\(\theta_T^{(c)} \approx U_T(\Sigma_T + U_T^\top U_S \cdot \Delta\Sigma_S^{(c)} \cdot V_S^\top V_T) V_T^\top\),闭式解无需训练。

方法详解

整体框架

Grounding DINO 预训练权重 \(\theta_0\) → Objectification 训练源/目标域专家 \(\theta_S, \theta_T\) → SVFT 在源域训练轻量类残差 \(\Delta\Sigma_S^{(c)}\) → 正交 Procrustes 闭式传送到目标域 → 得到目标域类专家 \(\hat{\theta}_T^{(c)}\)

关键设计

  1. Objectification(对象化)

    • 将 top-3 高频类的标注替换为统一"object"标签,训练类无关域专家
    • 强制模型学习域视觉统计(光照模式、纹理特征、天气条件)而非类别语义
    • 源域和目标域各训练一个域专家:\(\theta_S = \text{Fine-Tune}(\theta_0, \tilde{\mathcal{D}}_S)\)
    • 丢弃非 top-3 类标注,避免低频类引入类偏差
  2. SVFT 类专家训练

    • 对域专家 \(\theta_S\) 做 SVD 分解 \(\theta_{S,\ell} = U_{S,\ell} \Sigma_{S,\ell} V_{S,\ell}^\top\)
    • 冻结 \(U, \Sigma, V\),仅训练极轻量奇异值残差 \(\Delta\Sigma_{S,\ell}^{(c)}\)(对角或带状矩阵)
    • 前向传播:\(f_\ell(x) = U_{S,\ell}(\Sigma_{S,\ell} + \Delta\Sigma_{S,\ell}^{(c)}) V_{S,\ell}^\top x\)
    • 每个类仅需很少数据和参数即可训练出类专家
    • 训练时只保留含目标类别的图像,屏蔽其他类标注
  3. 正交 Procrustes 传送

    • 核心:将源类残差旋转到目标域 SVD 基底:\(\pi_{S \rightarrow T}(\Delta\Sigma_S^{(c)}) = L \Delta\Sigma_S^{(c)} R^\top\)
    • 求解正交 Procrustes 问题:\(L^* = U_T^\top U_S\)\(R^* = V_T^\top V_S\)
    • 最终目标域类专家:\(\theta_{T,\ell}^{(c)} = U_T(\Sigma_T + U_T^\top U_S \Delta\Sigma_S^{(c)} V_S^\top V_T) V_T^\top\)
    • 完全闭式解,无需任何训练迭代或目标域类数据

损失函数 / 训练策略

  • 域专家:encoder attention layers,10 epochs,lr=1e-4,batch=2
  • 类专家:SVFT 12 epochs,lr=1e-2,batch=4
  • 传送阶段:无训练,纯矩阵运算

实验关键数据

主实验

Cityscapes → Foggy Cityscapes(5 个不可见类平均)

方法 mAP AP50
Zero shot 27.66 44.12
Source (源域类专家直接测) 38.25 57.34
Task Analogy 18.12 26.79
ParamΔ 28.29 44.42
ABRA 40.54 61.06
Fine-tuning (上界) 41.36 62.48

ABRA 在 5 个传送类上平均达到 Fine-tuning 上界的 98%。

SDGOD 四个域偏移(平均)

方法 mAP AP50
Zero shot 20.65 34.82
Source 27.76 48.99
ParamΔ 8.87 13.85
ABRA 28.10 50.57
Fine-tuning 29.20 51.93

ParamΔ 在 SDGOD 上崩溃(恒等映射在激进域偏移下失效),ABRA 保持鲁棒。

消融实验

消融 mAP
Zero Shot w/ Obj. (检测框合并) 36.20
Supervised (保留语义标签) 38.88
Objectification 40.54
  • Objectification 比保留原始语义标签更好——类无关训练是跨域传送的关键
  • ABRA 初始化的 Fine-tuning 和 FDA 均优于标准 \(\theta_0\) 初始化(FFT: 42.80 vs 41.36)

关键发现

  • Task Analogy 和 ParamΔ 的失败证明简单权重加减不够,需要基对齐
  • ABRA 在 few-shot 场景中作为初始化一致优于标准预训练
  • 每类独立训练类专家优于合并所有类的单一专家
  • Night Rainy(最困难域)上 ABRA 仍保持竞争力

亮点与洞察

  • 权重空间 SVD 旋转对齐是优雅的域适应范式——完全绕开了特征对齐/对抗训练
  • Objectification 是巧妙的类-域解耦策略——用统一"object"标签剥离类语义
  • SVFT 残差极轻量(仅对角矩阵),适合多类场景的并行训练和存储
  • 闭式解使传送零延迟,适合部署时快速适配新域

局限与展望

  • 正交 Procrustes 假设源/目标域 SVD 子空间有良好对应——极端域偏移(如 CT→超声)下需验证
  • Objectification 仅用 top-3 类,类数选择可能因数据集而异
  • 仅在 Grounding DINO 上验证,推广到其他 OVD 架构(如 YOLO-World)需验证
  • 未与最新的多源域适应方法对比

相关工作与启发

  • vs Task Arithmetic:忽略 SVD 旋转差异导致传送失败(mAP 从 40.54 降到 18.12)
  • vs ParamΔ:恒等映射在 SDGOD 上崩溃(mAP 降到 8.87),证明旋转对齐不可省略
  • vs Mean Teacher DAOD:需要目标域图像,ABRA 无需任何目标域类数据
  • vs Model Rebasin:相似思路但 ABRA 将其专门化为检测域适应场景并引入 Objectification
  • 启发:权重空间操作和 SVFT 可推广到分割/分类模型的跨域部署

评分

  • 新颖性: ⭐⭐⭐⭐ 域适应建模为权重旋转是新颖视角,Objectification 设计巧妙
  • 实验充分度: ⭐⭐⭐⭐ 多域偏移场景、完整消融、few-shot 分析
  • 写作质量: ⭐⭐⭐⭐ 清晰的问题定义和方法推导,数学符号一致
  • 价值: ⭐⭐⭐⭐ 权重空间传送的实用价值高,闭式解使部署友好