Mind the Gap: Transferring Labels to Align Object Detection Datasets¶

会议: CVPR 2026
论文: CVF Open Access
代码: 待确认
领域: 目标检测 / 多数据集训练
关键词: 多数据集目标检测、标签对齐、伪标签、特权信息、类别感知注意力

一句话总结¶

本文提出 Label-Aligned Transfer（LAT）框架，把多个标注口径各异的检测数据集的标注，多对一地投影进某个固定目标数据集的标签空间——通过特权候选生成器 PPG（用真值+跨库伪标签替换 RPN）与语义特征融合 SFF（类别感知注意力降噪），同时解决类别语义不一致与边框风格不一致，在多个基准上最高 +8.4 AP。

研究背景与动机¶

领域现状：合并多个检测数据集是提升泛化、扩充类别覆盖的常见手段，尤其在标注稀缺/昂贵的领域。现有做法分两派：模型中心法（model-centric）靠视觉-语言对齐或本体图构建一个共享标签空间；数据中心法（data-centric）把源数据集标注投影到目标标签空间。

现有痛点：把标签空间不同的数据集朴素合并，会引入类别语义、标注粒度、背景定义、边框风格四重不一致（如图 1：Cityscapes 把骑车人和自行车分开标，Waymo/nuImages 当成一个实体却给不同类名；nuImages 粒度最细，Waymo 最粗）。模型中心法虽利于"平均泛化"，却不保真到某个特定目标标签空间；数据中心法又往往依赖人工重映射、只支持一对一迁移、或只对齐边框而不管语义错配。人工重标在规模化时不可行，标签定义差异大时几乎等于从头标。

核心矛盾：缺乏配对监督——同一张图的真值从不会同时以源、目标两种标签空间出现，因此无法直接学到类别定义或边框约定之间的映射；再加上类别稀疏、语义重叠、命名不一致，跨库标签迁移格外难。

本文目标：在不统一标签空间、不依赖人工映射的前提下，把所有源数据集的标注（含类别 + 边框）迁移进一个固定目标数据集 \(n\) 的标签空间 \(L_n\)，即实现 \(L_{-n} \to L_n\) 的多对一迁移，同时修正语义（类别）与空间（边框）两类不一致。

切入角度：作者不去强行统一标签，而是让每个数据集各训一个检测器，互相在对方标签空间里产伪标签——这些跨库伪标签充当数据集之间的"隐式桥梁"；再以真值为锚，把伪标签当成有噪声的对齐提示，靠多源训练学语义+空间对应关系。

核心 idea：用"跨库协同伪标签 + 特权信息（真值+伪标签）直接在候选/特征层对齐"代替"本体统一/嵌入统一"，在区域级和特征级直接迁移标签，避免语义漂移、保住各库细粒度。

方法详解¶

整体框架¶

LAT 扩展标准两阶段检测器（特征提取器 + RPN + RoI）来注入"特权信息"。第一步：为每个数据集 \(D_n\) 各训一个上游模型 \(M_n\)（在其原生标签空间 \(L_n\) 上专门化），再用每个 \(M_m\)（\(m\neq n\)）去跑 \(D_n\) 的图，得到 \(N-1\) 套跨标签空间的伪标签 \(PL_{-n}\)，经 NMS 与置信度阈值过滤。第二步训练下游模型：把特征提取器换成冻结的视觉基础模型 VFM（DINOv2）抽共享特征；用特权候选生成器 PPG 替换 RPN——它不预测、只把真值框（经轻微抖动/随机删除增广）与伪标签框一起当候选喂给 RoI，并把对应类别标签转发给 SFF；RoI 裁出区域特征后，语义特征融合 SFF 用类别感知、重叠敏感的注意力精炼特征、压制噪声伪标签；最后分类 logits 被掩码到当前 batch（训练）或目标标签空间（推理）所含类别，再算损失。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["N 个数据集各训上游模型 M_n"] --> B["跨库协同伪标签<br/>每库产 N−1 套 PL_{−n}，NMS+阈值过滤"]
    B --> C["特权候选生成器 PPG<br/>真值框(增广)+伪标签框 → 替换 RPN"]
    D["冻结 VFM (DINOv2)<br/>抽共享图像特征"] --> E["RoI 裁区域特征"]
    C --> E
    C -->|转发类别标签| F["语义特征融合 SFF<br/>类别感知 + 重叠敏感注意力降噪"]
    E --> F
    F --> G["分类/回归头<br/>logits 掩码到目标标签空间 L_n"]

关键设计¶

1. 跨库协同伪标签：用各库专属检测器互相搭"隐式桥梁"

没有配对监督，就没法直接学标签映射。LAT 绕开它：每个数据集 \(D_n\) 训一个上游模型 \(M_n\) 专门拟合自己原生标签空间 \(L_n\)，然后让每个 \(M_m\)（\(m\neq n\)）去标注 \(D_n\) 的图，于是每个数据集得到 \(N-1\) 套伪标签 \(PL_{-n}\)、全局共 \(N(N-1)\) 套投影。形式上框架在三元组 \(\{I_n, \{PL^{(m\to n)}\}_{m\neq n}, GT_n\}\) 上操作。这些跨空间预测充当数据集之间的隐式桥梁——因为不同库的标注常在同一物体上重叠（如 Cityscapes 的 car 对应 Waymo 的 vehicle），多套伪标签彼此印证、再以真值为锚，就能用多源、类集成的协同训练学出类别+边框对应，同时稀释单套伪标签的噪声。关键约定：为保持标签离散性，把所有库的标签集拼接（concatenate）而非按同名合并，防止文本同名但语义不同的类被误并。

2. 特权候选生成器 PPG：用真值+伪标签替换 RPN，制造跨库重叠监督

标准 RPN 产类无关候选，但它丢掉了"这块区域在别的库里被标成什么"这一宝贵信号。PPG 完全非预测——既不生成候选也不估类别，只接收真值框（施加随机抖动、选择性删框等轻增广）与伪标签框，连同其类别标签一起转发给 RoI 层裁特征、并送进 SFF。因为这些标注来自多个标签空间，即便文本类名不同，也常在同一物体上产生重叠区域（car↔vehicle），这种重叠正是 SFF 学跨库对应的核心监督来源。换言之，PPG 把"特权信息"（当前图的真值类别+边框、以及其它标签空间的伪标签）显式注入检测管线，让模型见识多样的标注风格。

3. 语义特征融合 SFF：类别感知注意力 + 行级阈值压制噪声伪标签

伪标签有噪声，直接用会污染特征。SFF 在 \(M\) 个 RoI 候选上做缩放点积注意力 \(A=\frac{QK^\top}{\sqrt{d}}\)（\(Q,K\in\mathbb{R}^{M\times d}\) 是 RoI 特征的投影），并引入两路 value：\(V_c\) 来自分类分数线性投影、\(V_r\) 来自区域特征投影。再定义置信向量 \(S_c\in\mathbb{R}^M\)，真值候选取 1、伪标签候选取 \(\max(C_m)\)（该候选分类分向量的最大值），用它给特征分支注意力加权、优先可信伪标签。为压制噪声，对分类分支的注意力矩阵做行级缩放：每行最大值被截断在阈值 \(T=1/\sqrt{N}\)（\(N\) 为数据集数）——这鼓励聚合多个库重叠印证的伪标签、压制只在单库孤立出现（更可能错）的预测。最终融合特征为

\[SA = \text{clamp}(\text{softmax}(A))\,V_c + \text{softmax}(S_c \circ A)\,V_r\]

其中 \(\circ\) 为逐元素乘，softmax 按行做，clamp 保证每行最大值不超 \(T\)。训练时分类 logits 在算损失前被掩码到当前 batch 所含类别，保证库内监督占主导、同时受益于库间关系；推理时掩码到指定目标标签空间。

实验关键数据¶

主实验¶

两个基准。类别分歧基准（Cityscapes↔nuImages↔Waymo）测标签粒度差异：三库分别有 8、24、3 个标注类，Waymo 的 vehicle 一类涵盖 Cityscapes 五类、nuImages 九类；为隔离类别变量，从 nuImages/Waymo 各采样 3000 图匹配 Cityscapes 规模。规模分歧基准（Cityscapes↔ACDC↔BDD100K↔SHIFT）测大小数据集落差：Cityscapes(2965)、ACDC(1571) 是小库，BDD100K(69852)、SHIFT(141052，合成) 是大库。实现基于 Detectron2 的 FRCNN，DINOv2 冻结特征，下游用 FRCNN 与 RT-DETR，4×RTX 3090 训练。AP 为标准 COCO 平均精度。

基准	下游模型	方法	Cityscapes	nuImages	Waymo
类别分歧	FRCNN	Baseline（仅目标库）	55.2	39.2	44.6
类别分歧	FRCNN	Student-Teacher（半监督）	55.1	40.1	44.2
类别分歧	FRCNN	Pseudo-Label（标签迁移）	56.9	40.6	45.6
类别分歧	FRCNN	LAT	60.1	41.7	48.5
类别分歧	RT-DETR	Baseline	56.8	37.0	45.3
类别分歧	Def-DETR	Plain-DET（标签统一）	52.2	22.0	43.6
类别分歧	RT-DETR	LAT	60.6	39.5	49.6

在类别分歧基准上，LAT(FRCNN) 把 Cityscapes 从 55.2 提到 60.1（+4.9 AP），三库全面超过半监督与标签迁移基线；值得注意的是标签统一法 Plain-DET 在 nuImages 上崩到 22.0（强行统一细粒度标签反而有害），反衬 LAT "保留各库标签空间、只做投影"的优势。

规模分歧 / 消融实验¶

下游模型	方法	Cityscapes	ACDC	BDD100K	SHIFT
FRCNN	Baseline	55.2	45.0	57.2	69.9
FRCNN	Student-Teacher	55.4	48.2	56.2	68.6
FRCNN	Pseudo-Label	58.5	50.7	56.1	68.9
FRCNN	LAT	60.0	53.4	56.1	69.3
FRCNN	LAT（Long Train）	60.2	53.3	57.8	71.4
RT-DETR	LAT	61.2	49.0	53.1	65.7
RT-DETR	LAT（Long Train）	59.8	47.9	58.1	69.9

配置	关键结果	说明
LAT	Waymo 60.6 / nuImages 39.5 / 49.6	仅 LAT
SAM3	60.1 / 32.6 / 49.2	VLM 式标签迁移基线
LAT + SAM3	61.0 / 39.6 / 49.9	把 SAM3 预测并入 LAT，全库最佳

关键发现¶

小库收益最大、大库需更长训练：LAT 在小数据集 ACDC 上 +8.4 AP（45.0→53.4）、Cityscapes +4.8 AP；BDD100K/SHIFT 这类大库在标准训练下会有小幅掉点（被小库标签空间约束），但 Long Train 能恢复甚至反超（SHIFT 69.9→71.4）。
"保留+对齐"胜过"统一"：标签统一法 Plain-DET 在细粒度库 nuImages 上灾难性下降（39.2→22.0），而 LAT 拼接标签集、掩码 logits、靠 SFF 学跨库语义对应，避免了语义漂移。
与 VLM 互补：把 SAM3 的 VLM 式预测并入 LAT（LAT+SAM3）在三库全部取得最佳，说明 LAT 的特权信息框架与基础模型预测正交、可叠加。
定性纠错：图 4 显示 LAT 能把被 Waymo 混标的 cyclist 与 bicycle 在 Cityscapes 标签空间里正确分离，并靠真值锚定找回伪标签漏掉的小物体。

亮点与洞察¶

"特权信息"视角很巧：把"其它库的真值+伪标签"当成训练时可见、推理时不必有的特权信号注入候选与特征层，PPG 直接替掉 RPN——这是一个干净的工程切口，几乎不改检测器主体就能吃到跨库监督。
行级阈值 \(T=1/\sqrt{N}\) 是个可复用降噪 trick：用"被多少个库重叠印证"作为伪标签可信度的代理，跨库共识高的留、孤立出现的压，思路简单却直击伪标签噪声。
多对一、固定目标空间的定位务实：不追求"平均最优的统一空间"，而是面向真实部署——保住目标库标注的语义保真度，这对有严格标注规范的落地场景价值很高。
可迁移性："各域专家互产伪标签 + 共识加权融合"的范式可迁移到分割、关键点等同样苦于跨库标注口径不一的任务。

局限与展望¶

上游模型数随库数线性增长：\(N\) 个库要训 \(N\) 个上游检测器、产 \(N(N-1)\) 套伪标签，库多时训练/存储成本上升。
大库可能被小目标空间拖累：标准训练下 BDD100K/SHIFT 掉点，需 Long Train 才恢复，说明固定目标标签空间对"源远大于目标"的场景不总是免费午餐。
依赖上游伪标签质量与重叠假设：方法核心靠"不同库在同一物体上重叠"，若两库物体定义几乎不重叠（如一库只标车、另一库只标文字），桥梁信号会很弱。
本笔记基于 OCR 缓存：部分公式符号（\(S_c\)、clamp 细节）与超参在缓存中可能有识别误差，⚠️ 以原文为准。

评分¶

新颖性: ⭐⭐⭐⭐ 首个在多源、固定目标设定下同时解语义+空间不一致、且不需统一标签/人工重标的框架；PPG/SFF 设计有新意
实验充分度: ⭐⭐⭐⭐ 两个基准、两类下游检测器、多基线对比 + SAM3 互补实验，最高 +8.4 AP，但部分消融（PPG/SFF 单独贡献量化）在缓存中未完整呈现
写作质量: ⭐⭐⭐⭐ 问题定义与术语（label space/特权信息）交代清楚，图示直观
价值: ⭐⭐⭐⭐ 直击"合并检测数据集"的实际痛点，对自动驾驶等多源标注场景落地价值高