CGSA: Class-Guided Slot-Aware Adaptation for Source-Free Object Detection¶
会议: ICLR 2026
arXiv: 2602.22621
代码: GitHub
领域: 目标检测
关键词: source-free domain adaptation, object-centric learning, slot attention, DETR, contrastive learning
一句话总结¶
首次将 Object-Centric Learning(Slot Attention)引入无源域自适应目标检测(SF-DAOD),通过分层 Slot 感知模块提取域不变的目标级结构先验,并用类引导对比学习驱动域不变表征,在多个跨域基准上大幅超越现有方法。
研究背景与动机¶
域偏移问题:目标检测器部署时面临天气/摄像头/场景的域偏移,性能大幅下降
无源域自适应(SF-DAOD)限制:仅有源域预训练模型和无标注目标域数据,不可访问源数据(隐私/版权约束)
现有方法局限:主流 SF-DAOD 方法(SFOD/PETS/A2SFOD)专注于伪标签阈值调优或 teacher-student 框架改进,忽略了跨域数据中目标级结构的共性信息
Slot Attention 的潜力:OCL 将场景分解为离立的"slot"表征,每个 slot 绑定一个目标,天然隔离前景与背景。在分割/视频预测/机器人等任务中展示了强迁移性,但从未用于 SF-DAOD
自然契合:DETR 检测器已使用 object queries,将 slot 先验嵌入 query 空间是自然但未探索的方向
方法详解¶
整体框架¶
两阶段流程:源域预训练(标准检测损失+HSA 重建损失)→ 目标域自适应(Teacher-Student + HSA + CGSC)
HSA(Hierarchical Slot Awareness)模块¶
- 两阶段分解:第一阶段 Slot Attention 迭代提取 \(n=5\) 个粗粒度 slot → 空间广播 MLP 解码重建 → softmax 竞争确保 slot 绑定不同区域。第二阶段将重建特征作为输入再做 Slot Attention 得到 \(n^2=25\) 个细粒度 slot
- 重建损失:\(\mathcal{L}_{rec} = \|\hat{h}^{(1)} - h\|_2^2 + \|\hat{h}^{(2)} - h\|_2^2\),两阶段均监督
- Slot-Aware Queries:投影后 slot 与 object queries 相加:\(Q_{aware} = Q_{obj} + f_{map}(z^{(2)})\),为 decoder 提供目标级结构先验
CGSC(Class-Guided Slot Contrast)模块¶
- 类原型记忆:维护 EMA 更新的全局类原型 \(P_c\),从 decoder queries 按预测类别平均聚合
- Weighted Slot 构建:用注意力 mask \(m_k^{(2)}\) 对原始特征加权聚合,抑制背景 slot
- 匈牙利匹配:余弦相似度矩阵 + 匈牙利算法将 weighted slot 与 queries 一一匹配,获得伪类标签
- InfoNCE 对比损失:拉近同类 slot 原型 \(\bar{z}_c\) 与类原型 \(P_c\),推远异类
总损失¶
理论保证¶
证明了目标域风险下降界:\(\mathbb{E}[\mathcal{R}_T(\theta_{t+1})] \le \mathbb{E}[\mathcal{R}_T(\theta_t)] - c_1 \Delta_t + c_2(\epsilon_{rec} + \sigma^2)\)
实验关键数据¶
主实验¶
| 跨域设置 | SF | 方法 | mAP |
|---|---|---|---|
| Cityscapes→BDD100K | ✗ | DATR (有源DAOD) | 43.3 |
| Cityscapes→BDD100K | ✓ | TITAN (SF-DAOD) | 38.3 |
| Cityscapes→BDD100K | ✓ | CGSA | 53.0 |
| Cityscapes→Foggy | ✓ | A2SFOD | 41.2 |
| Cityscapes→Foggy | ✓ | CGSA | 49.8 |
消融实验¶
| 配置 | Cityscapes→BDD100K mAP | 说明 |
|---|---|---|
| 仅 Teacher-Student | 35.4 | 无任何结构先验 |
| +HSA | 45.2 | slot 结构先验有效 |
| +CGSC | 41.8 | 类引导对比有效 |
| +HSA+CGSC (CGSA) | 53.0 | 两者互补,最佳 |
关键发现¶
- CGSA 在 SF 设置下甚至超越多个有源 DAOD 方法(需要源数据的方法)
- 基于 RT-DETR 检测器,4×A100 训练
- 在多个跨域场景(正常→雾天、真实→卡通/水彩等)均显著领先
- 25 个 slot 在数量上超越传统 OCL 的 ≤10 限制,但分层设计保证收敛稳定
亮点与洞察¶
- OCL + SF-DAOD 的首创结合:开辟了目标级结构先验用于域适应的新范式
- 分层 slot 设计巧妙突破了传统 slot 数量限制(5→25),且保持训练稳定
- 提供理论泛化分析——slot-aware 设计不仅是经验有效,还有理论支撑
- 在无源设置下超越有源方法是强有力的实验证据
局限与展望¶
- 仅在驾驶场景数据集验证,医疗/航拍/工业等领域的泛化性待测试
- Slot 数量 \(n=5\) 是手动设定,自适应机制可能更好
- 匈牙利匹配依赖检测器预测质量,early stage 可能不稳定导致错误类标签
- HSA 的两阶段 Slot Attention + 重建目标增加了训练时间和内存开销
相关工作与启发¶
- SFOD/PETS/A2SFOD:聚焦伪标签过滤,忽略目标级结构
- DATR/MRT (有源 DAOD):需要源数据,CGSA 无源下仍超越
- Slot Attention/SAVi:原用于分割/视频预测,首次引入域自适应检测
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ OCL + SF-DAOD 首创结合,开辟新方向
- 实验充分度: ⭐⭐⭐⭐ 5个数据集/跨域设置+完整消融+理论分析
- 写作质量: ⭐⭐⭐⭐ 动机清晰,理论+实验双支撑
- 价值: ⭐⭐⭐⭐ 为 SF-DAOD 提供了新的方法论基础