ObjEmbed: Towards Universal Multimodal Object Embeddings¶
会议: ICML 2026
arXiv: 2605.29118
代码: 待确认
领域: 多模态 / 视觉语言 / 对象表示学习
关键词: 通用对象嵌入, 多模态学习, 对象检索, 跨任务表示
一句话总结¶
ObjEmbed 训练一个通用的对象嵌入模型——通过结合检测、分割、检索、描述、分类等任务对齐多模态对象表示,在 OVD / OVS / Text2Image-Object / Open-Caption-Eval 等 11 项任务上单一嵌入超越或匹配任务特定 SOTA。
研究背景与动机¶
领域现状:视觉对象的多模态理解是计算机视觉核心任务,但现有方法多任务特化——CLIP 对齐图像-文本但对象级粒度弱,OWL-ViT 强对象检测但缺生成能力,SAM 强分割但语义弱。
现有痛点:(1)各任务专用模型导致部署成本高;(2)任务间表示割裂导致跨任务迁移失败;(3)对象级表示缺乏统一基准评估;(4)训练数据稀缺——单任务高质量对象级数据难以扩展。
核心矛盾:实际应用需要单一嵌入支持检测、分割、检索、描述等多任务,但现有方法或任务特化或粒度不足。
本文目标:构建通用对象嵌入模型,单一表示支持多任务高性能。
切入角度:观察到对象是多模态任务的"共同载体"——检测/分割定位、检索匹配、描述/分类语义;若能学到对象级通用嵌入,可同时支持以上任务。
核心 idea:通过多任务联合训练 + 对象级对齐学习通用对象嵌入;用大规模异质数据(COCO/LVIS/RefCOCO/CC3M)+ 任务特化头训练单一骨干。
方法详解¶
整体框架¶
(1)双流编码:图像编码器(ViT-L)+ 文本编码器(BERT-Large);(2)对象检测头:基于 DETR 输出对象框;(3)对象嵌入头:每对象输出 \(\mathbf{e}_{\text{obj}} \in \mathbb{R}^{512}\);(4)多任务损失:检测、分割、检索、描述、分类联合优化;(5)对象级对齐:通过对比学习对齐图像对象嵌入与文本对象嵌入。
关键设计¶
-
对象级对齐 + 多模态对比学习:
- 功能:让图像对象嵌入与对应文本嵌入对齐。
- 核心思路:每张图像通过检测头得 \(N\) 个对象嵌入 \(\{\mathbf{e}_{\text{obj}}^i\}\);通过 RefCOCO 等数据集对每个对象有文本描述 \(\mathbf{t}^i\);对比损失 \(\mathcal{L}_{\text{align}} = -\log \frac{\exp(\mathbf{e}_{\text{obj}}^i \cdot \mathbf{e}_{\text{text}}^i / \tau)}{\sum_j \exp(\mathbf{e}_{\text{obj}}^i \cdot \mathbf{e}_{\text{text}}^j / \tau)}\);批内负样本 + 跨图像负样本。
- 设计动机:图像级对齐(如 CLIP)粒度太粗,对象级对齐让嵌入捕获细粒度语义;对比学习提供大规模无标注训练信号。
-
多任务联合训练 + 任务特化头:
- 功能:通过多任务训练让骨干学到泛化对象表示。
- 核心思路:检测损失 \(\mathcal{L}_{\text{det}}\)(DETR 集合匹配)+ 分割损失 \(\mathcal{L}_{\text{seg}}\)(mask 预测)+ 检索损失 \(\mathcal{L}_{\text{ret}}\)(对比对齐)+ 描述损失 \(\mathcal{L}_{\text{cap}}\)(自回归生成)+ 分类损失 \(\mathcal{L}_{\text{cls}}\)(交叉熵);总损失 \(\mathcal{L} = \sum \lambda_i \mathcal{L}_i\),\(\lambda\) 通过 GradNorm 自适应调节。
- 设计动机:单任务训练导致表示特化;多任务联合训练强制骨干学通用特征;GradNorm 平衡不同任务梯度尺度。
-
大规模异质数据训练 + 数据混合策略:
- 功能:用大规模异质数据训练通用模型。
- 核心思路:训练数据混合——COCO(检测/分割)+ LVIS(长尾检测)+ RefCOCO(指代表达)+ CC3M(图文对齐)+ ImageNet(分类);按任务比例采样 batch;难例挖掘(OHEM)提升尾部类别性能。
- 设计动机:单一数据集任务偏向(COCO 仅 80 类);异质数据提供多样化对象类型和上下文。
实验关键数据¶
主实验:跨任务性能(vs 任务特化 SOTA)¶
| 任务 | 数据集 | 任务 SOTA | ObjEmbed | 差距 |
|---|---|---|---|---|
| 开词 检测 | LVIS | OWL-ViT (33.7 AP) | 35.2 AP | +1.5 |
| 开词 分割 | LVIS | OpenSeeD (26.5 mIoU) | 27.8 mIoU | +1.3 |
| 对象检索 | COCO-Search | Detic (52.3 R@5) | 58.7 R@5 | +6.4 |
| 文本到图像对象 | Open-T2I | T2I-Object (47.8 mAP) | 49.5 mAP | +1.7 |
| 对象描述 | RefCOCOg | OFA-Cap (118.4 CIDEr) | 122.3 CIDEr | +3.9 |
| 对象分类 | LVIS-V | Eva-CLIP (74.2 Acc) | 76.5 Acc | +2.3 |
多任务联合效应¶
| 训练策略 | LVIS AP | RefCOCO R@1 | Cap CIDEr | 任务平均 |
|---|---|---|---|---|
| 仅检测训练 | 32.8 | 51.2 | 95.3 | 59.8 |
| 仅检索训练 | 28.5 | 78.4 | 92.7 | 66.5 |
| 检测 + 检索 | 33.5 | 76.8 | 108.4 | 72.9 |
| 全任务联合 | 35.2 | 82.5 | 122.3 | 80.0 |
数据规模扩展¶
| 训练数据规模 | LVIS AP | RefCOCO R@1 | OOD Cap CIDEr |
|---|---|---|---|
| 100K 图像 | 28.7 | 72.3 | 92.1 |
| 500K 图像 | 32.5 | 78.6 | 108.7 |
| 1M 图像 | 34.1 | 81.3 | 117.4 |
| 2M 图像 | 35.2 | 82.5 | 122.3 |
对象嵌入质量评估¶
| 评估指标 | CLIP 对象嵌入 | OWL-ViT | ObjEmbed |
|---|---|---|---|
| 对象级 t-SNE 聚类纯度 | 0.67 | 0.74 | 0.88 |
| 跨数据集类别迁移 Acc | 58.3 | 64.7 | 78.9 |
| Zero-shot 对象分类 | 71.5 | 73.2 | 79.4 |
关键发现¶
- 多任务联合显著超越单任务:联合训练 vs 单任务平均提升 20 分。
- 数据规模仍未饱和:2M 图像下性能仍稳定提升。
- 对象嵌入质量大幅提升:t-SNE 纯度 0.88 vs CLIP 0.67。
亮点与洞察¶
- 统一对象表示学习的成功示范:突破任务特化局限,证明通用对象嵌入可同时支持多任务。
- 多任务联合训练的协同效应:多任务强制学到的特征更通用、更鲁棒。
- 对象级对齐 + 大规模异质数据:粒度对齐 + 数据多样性是关键成功因素。
局限与展望¶
- 模型规模:ViT-L 模型 + 多任务头部署成本仍较高。
- 任务覆盖:当前 5 任务,未来需扩展到 3D 对象、视频对象、组合理解等。
- 长尾对象:在极少出现的类别上仍有性能差距。
- 改进:模型蒸馏到小型部署版本;扩展到 3D / 视频领域;引入主动学习提升长尾性能。
相关工作与启发¶
- vs CLIP:图像级对齐 → ObjEmbed 对象级对齐。
- vs OWL-ViT:单任务开词检测 → ObjEmbed 多任务联合。
- vs SAM:强分割但语义弱 → ObjEmbed 强分割 + 强语义。
- vs Florence / Florence-2:通用视觉骨干但任务特化 → ObjEmbed 单嵌入多任务。
- 启发:对象级表示是多模态视觉的"原子单位",统一嵌入是发展方向。
评分¶
- 新颖性: ⭐⭐⭐⭐ 通用对象嵌入概念已有相关探索,本文贡献在系统化训练 + 多任务联合优化。
- 实验充分度: ⭐⭐⭐⭐⭐ 11 任务对照 + 多基线 + 数据规模扩展分析 + 嵌入质量评估。
- 写作质量: ⭐⭐⭐⭐ 问题动机清晰,方法系统,结论有力。
- 价值: ⭐⭐⭐⭐⭐ 统一对象嵌入降低多任务部署成本;对开放视觉理解有重要影响。