跳转至

Synthetic Object Compositions for Scalable and Accurate Learning in Detection, Segmentation, and Grounding

会议: CVPR 2026
论文: CVF Open Access
代码: 无
领域: 合成数据 / 目标检测 / 实例分割 / 视觉定位
关键词: 合成数据, 物体组合, 3D 布局增广, 生成式协调, 开放词表检测

一句话总结

SOC 是一条"以物体为中心"的合成数据流水线:先用生成模型造出 2000 万个高质量单物体分割片段,再用 3D 几何布局 + 相机配置增广把它们拼进 200 万张图,配上像素级精确的掩码/框/指代表达——仅用 10 万张合成图训练,开放词表检测/分割/定位就能超过 GRIT 20M、V3Det 200K 等真实数据集(LVIS +10.9 AP,gRefCOCO +8.4 NAcc)。

研究背景与动机

领域现状:实例分割、视觉定位(referring grounding)、目标检测这些"视觉分组"任务,性能高度依赖大规模、人工精标的数据集。COCO 仅标 10 万张图就花了 220 万工时。

现有痛点:真实数据集贵、难扩、类别覆盖偏。合成数据看似是出路,但两条主流路线都有硬伤——① 仿真渲染整个场景虽能给出精确稠密标注,却受限于 3D 资产稀缺,物体多样性差、只能覆盖室内/驾驶等刚性域;② 在真实或生成图像上用模型自动打标(pseudo-label,如 GRIT、SynGround),场景和外观更丰富,却同时继承了"打标模型"和"图像生成器"两层标注噪声,掩码/框往往不准。

核心矛盾:现有合成方法被迫在"标注精度"和"组合多样性/可控性"之间二选一——要么像仿真那样精确但僵硬,要么像伪标注那样灵活但脏。

本文目标:造一条同时具备精确区域标注、可控性、组合灵活性、开放词表覆盖、可无限扩展的合成流水线。

切入角度:作者反其道而行——不从一整张图出发再去标注,而是自底向上从物体片段拼装场景。既然每个物体片段是单独生成、单独抠出来的,它的掩码就是"天然真值",根本不需要事后再让模型去猜框猜掩码。

核心 idea:用"物体片段组合"代替"整图渲染/整图伪标注"——先攒一个海量高质量片段库,再按设计好的 3D 布局把片段贴进图、做生成式协调,标注随拼贴自动产生且精确。

方法详解

整体框架

SOC(Synthetic Object Compositions)把"造数据集"拆成两步走:先离线建一个 2000 万规模的单物体分割片段库,再在线把片段组合成任意数量的图像,每张图自带掩码、框、类别和指代表达。整条流水线是一条 5 阶段串行管线:①生成物体片段 → ②3D 几何布局把 5–20 个片段摆进一张"3D 场景" → ③生成式协调(重打光 + 重融合)消除拼贴痕迹 → ④相机配置增广(缩放/景深模糊)模拟真实拍摄 → ⑤直接从拼贴关系算出区域标注。关键在于,整张图是从已知掩码的片段拼出来的,所以②之后框和掩码就已经是精确的,③④只负责让图"看起来真",⑤只负责把标注汇总成检测/分割/定位三套格式。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["46K+ 类别词表"] --> B["物体片段生成<br/>Qwen 写描述→FLUX 生图→DIS 抠图"]
    B --> C["3D 几何布局增广<br/>类别无关采样深度/尺寸/位置→透视投影"]
    C --> D["生成式协调<br/>IC-Light 重打光+掩码面积加权融合"]
    D --> E["相机配置增广<br/>随机缩放裁剪+景深模糊"]
    E --> F["区域标注生成<br/>掩码/框/指代表达"]
    F --> G["检测 / 分割 / 视觉定位训练"]

关键设计

1. 以物体为中心的片段生成:把"标注"变成"天然真值"

针对伪标注路线"框和掩码不准"这个根本痛点,SOC 不在杂乱场景里抠物体,而是先单独生成每个物体。对收集到的 46000+ 个类别,先用 Qwen2.5-32B 为每类写文本描述,再喂给文生图模型 FLUX-1-dev,在纯白背景上以随机视角渲染单物体图,最后用 DIS 做显著性抠图得到带 alpha 的精确片段。作者发现白底单物体比"在杂乱场景里生成再分割"得到的掩码边界干净得多——因为没有遮挡、没有背景干扰,抠图任务被简化到了极致。最终生成 2000 万片段:1000 万覆盖 LVIS/COCO/ADE20K 的 1.6K 高频类(每类 200 prompt),1000 万覆盖 LAION/GQA/Flickr30K 的 4 万通用类(每类 10 prompt),每个 prompt 用不同随机种子合 3 个片段。一旦有了这个库,就能拼出任意数量带精确标注的图,这是 SOC"可无限扩展"的根。

2. 3D 几何布局增广:用"类别无关采样"打掉捷径相关性

真实数据训出来的模型常常学到"伪相关"捷径——比如"车总是又大又在画面底部",靠图像里的位置/尺寸线索而非语义来识别。为打断这种捷径,SOC 把每张合成图建模成一个 3D 场景,让深度、尺寸、位置的采样独立于物体类别,即 \(p(d_i, X_i, Y_i \mid c_i) = p(d_i, X_i, Y_i)\)。具体地:每类有一个常识物理尺寸范围(车 4–5m、杯子 10–20cm,由 Qwen2.5-32B 生成);先采样相机焦距 \(f \sim U(f_{min}, f_{max})\),定最大深度 \(D_{max} = \alpha \cdot f\),划分近/中/远三段深度(按 COCO/SA-1B 观察到的 40%/35%/25% 分布采);对每个片段采物理尺寸 \(S_i \sim N(\mu_{c_i}, \sigma_{c_i})\)、3D 位置均匀采,再用透视投影落到 2D:

\[x_i = f \cdot \frac{X_i}{d_i}, \quad y_i = f \cdot \frac{Y_i}{d_i}, \quad s_i = f \cdot \frac{S_i}{d_i}\]

其中 \((x_i, y_i)\) 是 2D 中心、\(s_i\) 是像素尺寸。若投影后物体太小/太大、或几乎完全遮挡了另一个物体(\(\text{IoU}(M_i, M_j) \ge 0.9\))就重采位置和深度。这样同一类物体会出现在各种深度/尺寸/位置上,逼模型学语义而非位置捷径——消融里它给到 10.03 AP,碾压 COCO 布局(8.60)和随机 2D 布局(9.07)。

3. 生成式协调 + 掩码面积加权融合:消灭"边缘捷径"又不毁掉小物体

直接把片段贴到背景上会留下不自然的锐利边缘,分割模型会偷懒去学这种边缘伪影而不是真正的语义。SOC 用扩散模型 IC-Light 同时做背景重绘(inpainting)和全局重打光(relighting),为贴上去的物体生成协调的背景并统一全场光照,让图更真实、没有边缘破绽。但 IC-Light 有副作用:会扭曲小物体细节、甚至改物体颜色(蓝→红),破坏与文本描述的一致性。对此作者再把原始片段按掩码面积加权地重新融合回协调后的图——每个掩码 \(M_i\) 用融合权重 \(\alpha_i \in [0,1]\)越小的物体给越高的 \(\alpha_i\)(更多保留原貌),最后再用一步轻量软抠图把二值掩码转成软 alpha matte 平滑边界。这一融合步骤在 LVIS-mini-val 上带来 +2.3 AP,消融里"重绘+打光+融合"相比只贴背景把 COCO 零样本分割 AP 从 6.28 拉到 12.79(+103.7%)。

4. 相机配置增广:让物体尺度不再是可靠的类别线索

布局和打光之后,SOC 再叠一层相机增广,进一步把物体外观与语义解耦。一是随机缩放裁剪:从布局阶段采的焦距 \(f\) 出发,按 \(s \sim U(1.0, 4.0)\) 放大(等价于改焦距 \(f' = s \cdot f\))再裁回原尺寸,模拟相机变焦,使物体尺度不再是识别类别的可靠线索。二是景深模糊:随机采焦平面深度 \(d_{focal}\) 和光圈 f-number \(N \sim U(1.4, 16)\),按弥散圆公式给每个深度 \(d\) 的物体算模糊核:

\[\sigma(d) = \frac{f^2}{N \cdot d_{focal}} \cdot \frac{|d - d_{focal}|}{d}\]

焦平面附近的物体保持清晰(\(\sigma \approx 0\)),越远越糊;小 f-number(f/1.4)产生强背景虚化模拟人像摄影,大 f-number(f/16)则大部分清晰模拟风光摄影。最后第 ⑤ 阶段汇总标注:检测/分割直接由片段拼贴关系减去被遮挡像素算出框和掩码;视觉定位则把每个物体的框、掩码、类别、生成 prompt 喂给 QwQ-32B,产出每张图至少 9 条属性/空间维度的稠密指代表达。

一个完整示例

拼一张图的过程:从 46K 词表里按平衡采样抽 5–20 个类别(比如 dog、car、cup),各从片段库取一个白底片段;给 dog 采物理尺寸 0.5m、深度落"近"段,car 采 5m、落"远"段——注意 car 物理上大,但因为在远处,投影到画面里反而可能比近处的 dog 小,彻底打破"车=大"的捷径;透视投影把它们摆到 2D 上、检查无 ≥0.9 的完全遮挡;IC-Light 给整图重打光重绘背景,再把原始 dog/cup(小物体高 \(\alpha\))融回去保住细节和颜色;叠一层 f/2.0 景深,让远处的 car 自然虚化;最后输出 dog/car 的精确框+掩码,加上"画面里所有的狗"、"左后方那个物体"等指代表达。整张图的标注全程零人工、零事后打标。

实验关键数据

主实验

开放词表检测(MM-Grounding-DINO,在 O365+GoldG 预训练权重上继续训),关键结论:仅 50K 合成图就超 20M 的 GRIT、追平 200K 的 V3Det,且与真实数据互补叠加。

训练数据 规模 LVIS AP LVIS AP_rare OdinW-35 avg
O365+GoldG(基线) 1.4M 20.1 10.1 20.3
+GRIT(模型标注) +20M 27.1 17.3 22.8
+V3Det(人工标注) +200K 30.6 21.5 21.4
+SOC-FC-50K +50K 29.8 23.5 20.5
+SOC-FC-200K+GC-200K +400K 31.4 27.9 21.2
O365+GoldG+GRIT+V3Det 21.6M 31.9 23.6 23.2
↑ 再+SOC-100K +100K 33.2 29.8 23.1

视觉定位(gRefCOCO / DoD / RefCOCO avg),关键结论:现有大数据集因缺高质量指代表达只带来微弱提升,SOC 在 gRefCOCO 的 no-target 准确率(NAcc)和 DoD mAP 上涨幅明显更大。

训练数据 规模 gRefCOCO P@1 gRefCOCO NAcc DoD FULL mAP
O365+GoldG(基线) 1.4M 39.8 89.3 15.6
+GRIT +20M 40.7 89.3 17.0
+V3Det +200K 40.3 89.3 16.7
+SOC-FC-100K +100K 41.3 97.7 19.4

消融实验

COCO 零样本实例分割 AP(Sec 4.7),逐项验证四大设计:

配置 AP 说明
COCO 布局 8.60 沿用真实数据集布局统计
随机 2D 布局 9.07 2D 随机摆放
3D 几何布局增广 10.03 (+16.6%) 类别无关 3D 采样,打掉捷径
w/o 相机配置增广 10.03
w/ 相机配置增广 10.58 (+5.5%) 加缩放/景深
w/o 生成式协调 6.28 直接贴图,留边缘伪影
w/ 重绘+打光 10.58 IC-Light
w/ 重绘+打光+融合 12.79 (+103.7%) 加掩码面积加权融合
仅真实片段 7.03
真实+SOC 合成片段 12.79 (+81.9%) 合成片段大幅增益

关键发现

  • 生成式协调(尤其融合步骤)贡献最大:去掉它 AP 从 12.79 暴跌到 6.28,几乎腰斩——说明"边缘捷径"是合成数据训坏模型的头号元凶,而掩码面积加权融合(保住小物体)是把"重打光的副作用"摁住的关键补丁。
  • 稀有类增益最猛:50K SOC 把 LVIS rare-class AP 从 10.1 拉到 23.5(+13.4),远超 GRIT 的 +7.0——合成可控性正好补上真实数据覆盖不到的长尾类别。
  • 极低真实数据时增益放大:仅用 1% COCO 数据时混入 SOC 片段带来 +6.59 AP,远高于充足数据时的 ~3%,说明合成片段在数据稀缺时不只是补充而是"放大"真实标注。
  • 3D 布局 > 真实布局:类别无关的 3D 采样(10.03)反而打败了直接照搬 COCO 真实布局(8.60),印证"刻意打破伪相关"比"模仿真实分布"更有利于学语义。

亮点与洞察

  • "标注即真值"的范式反转:先有精确片段、再拼图,标注随拼贴自动生成——绕过了所有伪标注路线的标注噪声问题,这是 SOC 能"合成超真实"的根本原因,思路可迁移到任何需要稠密标注的合成任务。
  • 把数据增广当"反捷径工程"来设计:3D 布局、相机增广、生成式协调三件套都不是为了"更真",而是为了主动拆掉模型可能偷懒的每一条捷径(位置捷径、尺度捷径、边缘捷径)——这个"以捷径为靶子"的设计视角很值得借鉴。
  • 可控性带来诊断能力:因为能精确控制"同类多物体不同属性",作者顺手提出了 intra-class referring(ICR)诊断任务,专门测模型能否区分同类不同属性的物体——合成数据的可控性反过来成了构造细粒度 benchmark 的工具。

局限与展望

  • 流水线重度依赖多个大模型(Qwen2.5-32B、FLUX、IC-Light、QwQ-32B、DIS),算力成本和各模型自身偏差会层层传入合成数据,作者未充分量化这些上游偏差的影响。⚠️
  • 片段在白底单独生成,物体间的真实交互/接触关系(如手握杯、人坐椅)较难合成,对需要关系推理的定位任务可能仍有 gap。
  • 单物体片段虽干净,但"贴上去的世界"本质是物体的随机摆放,长程场景语义/常识布局(厨房里该有什么)不如真实图自然,可能限制需要场景级先验的任务。
  • 改进方向:把"关系/交互"也纳入可控生成、用更轻量的协调模型降成本、探索片段库随任务自适应扩充。

相关工作与启发

  • vs Copy-Paste / X-Paste:它们也是贴片段,但贴的是真实图里抠出的物体、缺乏真实感和 3D 布局控制,照搬背景;SOC 用生成式片段 + 3D 几何布局 + 生成式协调,COCO 实例分割上分别领先 +36.1% / +36.0%。
  • vs SynGround / SegGen 等扩散+伪标注:它们从掩码/布局生成整图再让模型打标,标注不准;SOC 标注是拼贴的天然真值,COCO 上分别领先 +24.1% / +28.5%。
  • vs GRIT / V3Det 真实数据集:GRIT 有规模(20M)但只有框且噪声大,V3Det 精但贵且类别有限;SOC 仅 50–100K 就追平甚至超过,且能与二者叠加继续涨(+6.2 rare AP),证明它引入的是真实数据没覆盖的新词表和组合。

评分

  • 新颖性: ⭐⭐⭐⭐⭐ "片段先行、标注即真值"的物体中心组合范式,是对合成数据生成路线的真正反转。
  • 实验充分度: ⭐⭐⭐⭐⭐ 覆盖检测/分割/定位三任务、多 benchmark、低数据/闭词表/ICR 诊断 + 四项干净消融。
  • 写作质量: ⭐⭐⭐⭐ 方法分阶段清晰、公式与消融对得上;个别表格符号(如 LVIS 引用)有 OCR 残缺。
  • 价值: ⭐⭐⭐⭐⭐ 首个在多任务多模型上系统超过真实数据集的大规模合成数据,且数据集开放、可控、可扩展。