MICo-150K: A Comprehensive Dataset Advancing Multi-Image Composition¶

会议: CVPR 2026
论文: CVF Open Access
代码: 待确认（论文称数据集与 benchmark 将开源）
领域: 图像生成 / 多图合成数据集
关键词: 多图合成, 身份一致性, 可控生成, 数据集, 评测指标

一句话总结¶

针对"把多张参考图里的人/物/服饰/场景合成进一张连贯图像"（Multi-Image Composition, MICo）缺高质量训练数据的问题，本文用专有模型 Nano-Banana 配合 Compose-by-Retrieval 检索式提示、人在回路过滤与"分解-重组"流程，构建了 15 万级、含身份一致性的 MICo-150K 数据集与 MICo-Bench 评测集，并提出 Weighted-Ref-VIEScore 指标，多个开源 T2I 模型微调后 MICo 能力显著提升、甚至逼近闭源模型。

研究背景与动机¶

领域现状：文生图（T2I）和图生图（I2I）已能产出逼真结果，个性化/上下文生成（保持参考图身份一致）是其中最有价值的能力之一。FLUX.Kontext、Qwen-Image 等近期工作在单参考图输入上进展显著。

现有痛点：这些系统大多只支持单张参考图输入，无法把多个实体（多个人、物、衣服、场景）整合进一张连贯的合成图。而真正的"多图合成"（MICo）开源社区与 GPT-Image-1、Nano-Banana、Seedream 4.0 这类闭源模型差距明显，根因之一是缺少为该任务量身定制的高质量数据集。

核心矛盾：现有 MICo 数据集有两大硬伤——(1) 很多源图/目标图由少数几个固定 T2I 模型生成，内容同质化、与闭源模型存在明显质量差距；(2) 基于真实照片或视频帧的数据多样性受限，缺乏想象性场景，且偏向"以人为中心"，对"以物为中心"和多主体场景覆盖不足。早期"用 GroundingDINO+SAM 从整图分割出实例当源图、原图当目标"的范式还常产出不完整、语义模糊的样本。

本文目标：构建一个覆盖面广、质量高、身份一致的 MICo 数据集；同时补上一个专门的评测基准与可靠指标，把 MICo 这个"挑战大却少有人碰"的任务推动起来。

切入角度：与其用弱生成骨干批量造同质数据，不如直接用最强的闭源模型（Nano-Banana）来合成目标，并在前端用检索保证源图组合"语义兼容"、在后端用 VLM+人工双重过滤把控质量。

核心 idea：用"高质量源图收集 → Compose-by-Retrieval 选语义兼容组合 → 强闭源模型合成 → 自动+人工核验"的流水线造数据，外加一条"分解真实图再重组"的 De&Re 轨道，让数据兼具真实与合成两种构图。

方法详解¶

整体框架¶

MICo-150K 是一个数据集 + 评测基准工作，核心是一整套数据构造与评测流水线，而非一个新模型。任务先被系统化为 3 大类、7 个子任务、27 个细粒度类型（以物为中心：Object+Object、Object+Scene；以人为中心：Person+Person、Person+Scene；人物交互 HOI：Person+Object、Person+Clothes、Person+Object+Clothes），再加一条独立的"分解-重组"（De&Re）轨道。

整条管线分四步：① 源图收集与清洗——从 Subject200k、VITON-HD、Headshot、SUN397 等公开数据集收集物体、人物、服饰、场景四类源图，用 Qwen2.5-VL-72B 过滤低质/歧义图、DINO-v3+SigLIP2 特征 + DBSCAN 聚类去冗余，每张配详细 caption；② Compose-by-Retrieval 组合提示——不随机搭配源图（否则会出现"男运动员配高跟鞋"这种不兼容组合），而是让 GPT-4o 在候选里挑语义最兼容的组合并生成自然连贯的合成提示；③ 合成与核验——把提示喂给闭源模型 Nano-Banana 合成目标图，再用 Qwen2.5-VL-72B 核验所有源实体是否正确出现、用 ArcFace 核验人脸身份一致；④ De&Re 轨道——把真实单人照片用 Nano-Banana 分解成"人/衣/物/场景"组件、人工核验后再重组，使每组组件同时产出"真实构图"和"重组合成构图"两个版本。评测侧则单独构造 MICo-Bench（1000 例）并提出 Weighted-Ref-VIEScore 指标。

说明：本文为纯数据集/基准工作，构造步骤虽多但属于线性数据流水线，按笔记规范不另配框架图，关键贡献以下列设计点讲清。

关键设计¶

1. 任务体系 + 高质量源图收集去冗：先把"多图合成"切成可控的细粒度子任务，再保证每张源图都干净不重复

MICo 之所以难做数据，第一步卡在"源图本身质量参差、且不同源图风格同质"。本文先定义 3 大类 / 7 子任务 / 27 细类的 taxonomy（如 Object+Scene 下分 1O1S、2O1S；Person+Person 下分 2M、2W、3M、3W、1M1W 等性别组合），让每个组合类型都有明确的源图采样规则。源图收集后用 Qwen2.5-VL-72B 逐条过滤（去掉含人脸的物体图、模糊/损坏图、多脸/背面/重度遮挡的人像等），再在每个类别内用 DINO-v3 与 SigLIP2 的拼接特征做 DBSCAN 聚类、每个视觉-语义簇只保留一张代表图来消冗余。最终得到 31.5K 物体图、44.6K 人像、约 26.8K 服饰图、11K 场景图，且尽量最大化人脸身份多样性（覆盖 5,403 位名人共 14.4 万张照片清洗后的子集）。

2. Compose-by-Retrieval：让 GPT-4o 选"语义兼容"的源图组合并写自然提示，而不是随机拼+套模板

如果直接从各源图池随机抽样组合，很容易得到语义不兼容的搭配，导致合成质量崩坏。Compose-by-Retrieval 的做法是：先确定一张主体（subject）图，再从服饰/场景/物体池里采样若干候选，把主体图、候选图及其详细 caption 一起作为上下文交给 GPT-4o，让它挑出语义最兼容的组合用于合成。此外，过去 MICo 方法常把源图 caption 直接拼成提示（如 "Combine 2 images according to ⟨Caption A⟩ and ⟨Caption B⟩"），本文改用 GPT-4o 把 caption 当上下文、生成更连贯自然的合成提示，并额外标注"token→源图"的显式映射，为后续潜空间对齐研究留接口。质量核验上，物体/场景用 Qwen2.5-VL-72B 验、人脸用 ArcFace 提取身份嵌入并用匈牙利算法做源图与生成图的人脸最优匹配，仅当所有匹配对都超过任务相关阈值才算合格。

3. Decompose-and-Recompose（De&Re）：把真实复杂照片拆成组件再重组，让数据同时拥有真实构图与合成构图两个版本

纯合成数据再丰富也缺真实世界的复杂性。De&Re 是 MICo-150K 里最复杂的部分：先从 CC12M 收集高质量单人真实照片，用 Nano-Banana 把每张分解为人、衣、物、场景等独立组件；人工标注员做细粒度核验，找出"丢失物体身份""直接复制粘贴""缺乏足够变化"等失败案例，并重写组件级提示以正确抽取目标元素；通过这轮人在回路精修后，再用 Nano-Banana 把组件重组成完整图像。于是每组组件天然得到一对目标：一张真实世界构图（原照片）+ 一张重组合成构图（共 11,677 例）。实验进一步发现：用合成目标训练与用真实目标训练效果几乎一致，说明精心策划的合成数据可作为 MICo 训练的有效替代。

4. Weighted-Ref-VIEScore：用"逐源加权 + 参考图对比"修掉 VLM 评测里跨图注意力过载的硬伤

传统 VIEScore 把总质量拆成语义一致性 SC 与感知质量 PQ、按 \(\text{SC}\times\text{PQ}\) 打分；OmniContext 等沿用并要求把所有源图同时喂给 GPT-4o 评。但 VLM 的跨图注意力有限，图一多就会"看不清每张图、判不准每个源是否出现"，导致打分错误（文中例子里人类一致认为 B 远优于 A，VIEScore 却判反）。Weighted-Ref-VIEScore 拆成两件事：加权——每张非人源图先与生成图配对喂 Qwen-VL2.5-72B 判断该源是否成功出现、人脸源图改用 ArcFace 核验，得到每个源的贡献权重 \(W\)；为防止模型靠"把所有源直接复制粘贴"刷权重，再引入参考机制——每例先用 Nano-Banana 生成一张经人工核验、忠实包含所有源元素的参考图，评测时 GPT-4o 只把生成图与参考图逐对比较（而非一次塞进所有源图），从而拿到更接近人类判断的 SC。最终总分定义为

\[\text{Score} = W \times \sqrt{\text{SR} \times \text{PF} \times \text{PQ}}\]

其中 SR 为主体相似度、PF 为提示遵循度、PQ 仅基于生成图算。⚠️ 公式与权重细节以原文为准。用户研究显示该指标与人类偏好的一致性明显优于现有替代方案。

实验关键数据¶

数据集规模¶

任务大类	子任务	代表细类	数量（约）
以物为中心	Object+Scene	1O1S / 2O1S	5,014 / 4,999
以物为中心	Object+Object	2O / 3O / 4O / 5O	10,007 / 10,012 / 5,001 / 4,998
以人为中心	Person+Person	多种性别组合	共 ~2.4 万
以人为中心	Person+Scene	1P1S / 2P1S	4,986 / 4,994
人物交互 HOI	Person+Object / +Clothes / +Object+Clothes	多变体	各约 2–2.8 万
分解-重组	De&Re	自适应	11,677

源图池：物体 31.5K、人像 44.6K、服饰约 26.8K（上装 17.3K、裤装 1.3K、鞋 428、配饰 7.8K）、场景 11K。MICo-Bench 含 1,000 例（7 子任务各 100 + De&Re 300），均经 3 位独立评审一致通过。

主实验（MICo-Bench，Overall 分，节选自 Table 2）¶

模型	base	w/o De&Re	real	synth
BLIP3-o	2.2	42.2	43.2	43.0
Lumina-DiMOO	4.3	32.3	34.2	33.9
BAGEL	33.3	42.6	44.3	44.1
Qwen-Image-Edit（→Qwen-MICo）	38.5	56.4	58.2	58.1
OmniGen2	41.0	50.6	51.2	50.7
GPT-4o（闭源）	59.6	–	–	–
Nano-Banana（闭源）	60.3	–	–	–

注：base = 原模型；w/o = 不含 De&Re 任务微调；real/synth = 用 De&Re 真实/合成目标微调。原本完全没有 MICo 能力的 BLIP3-o（2.2→43.2）和 DiMOO 微调后从零获得能力；BAGEL、Qwen-Image-Edit 本就有"涌现"的 MICo 能力、微调后进一步强化。Qwen-MICo 在 3 图合成上逼近用数百倍大数据训练的 Qwen-Image-2509，且支持任意张多图输入（后者仅限 3 图）。

消融：真实目标 vs 合成目标（De&Re）¶

配置	现象
w/o De&Re	即便训练数据里没有"人+物+衣+场景"全组合样本，各模型在 MICo-Bench De&Re 子集上仍涌现出一定性能
real 目标	用真实构图作目标，Overall 普遍最高（如 BAGEL 50.9）
synth 目标	用合成构图作目标，性能与 real 几乎持平（BAGEL 50.6），说明合成数据可有效替代

关键发现¶

强预训练 I2I 模型存在涌现 MICo 能力：BAGEL、Qwen-Image-Edit 从未在多图合成数据上训练过，仅把多张源图 token 简单拼接喂进去就表现出 MICo 能力，简单 SFT 后大幅增强。
合成数据可替代真实数据：De&Re 真实目标与合成目标训练效果几乎一致，降低了高质量 MICo 数据的获取成本。
闭源模型各有所长：Nano-Banana 定量分更高，但 GPT-4o 鲁棒性更好，更少出现肢体不全、身份完全丢失或"复制粘贴"伪影。

亮点与洞察¶

"用最强闭源模型当数据工厂 + 检索控兼容性 + 人在回路把质量" 是这篇造数据的核心配方：它把"源图同质化"和"组合不兼容"两个老问题分别交给 Compose-by-Retrieval 和强生成骨干解决，思路可迁移到其他需要高质量合成监督的任务。
De&Re 一组件双目标 的设计很巧妙：同一套组件既得真实构图又得合成构图，天然支持"真实 vs 合成"对照实验，并直接证明了合成数据的可用性。
Weighted-Ref-VIEScore 把"跨图注意力过载"这一 VLM 评测顽疾具体化并给了可操作解法（逐源加权 + 只比生成图与参考图），对任何"多输入图→单输出图"的评测都有借鉴价值。
"强 I2I 模型 token 简单拼接即涌现 MICo 能力"是一个有趣的实证观察，提示多图合成或许更多是数据问题而非架构问题。

局限与展望¶

重度依赖闭源模型：数据合成（Nano-Banana）、提示生成与核验（GPT-4o、Qwen2.5-VL-72B）全靠强闭源/大模型，其偏差与可得性会传导到数据质量，复现成本高。⚠️ 代码/数据开源情况以官方为准。
评测仍以 VLM 为裁判：Weighted-Ref-VIEScore 虽缓解了跨图过载，但 SC 打分仍由 GPT-4o 给出，参考图本身也由 Nano-Banana 生成，存在"用闭源评闭源"的潜在循环偏差。
任务边界：taxonomy 虽细，但仍主要覆盖人/物/衣/场景的组合，对更抽象或强交互（如复杂物理关系、文字排版）场景覆盖有限。
改进方向：引入更多开源生成骨干降低对单一闭源模型的依赖；探索论文留出的"token→源图映射"做潜空间对齐的可控生成。

评分¶

新颖性: ⭐⭐⭐⭐ 任务体系化 + Compose-by-Retrieval + De&Re + 新评测指标组合扎实，但单点方法多为工程化组合而非全新机制。
实验充分度: ⭐⭐⭐⭐⭐ 在 5 个异构开源模型上验证，含真实/合成消融与涌现能力分析，覆盖面广。
写作质量: ⭐⭐⭐⭐ 流水线与指标讲解清晰，但部分公式/阈值细节需查附录。
价值: ⭐⭐⭐⭐⭐ 填补了开源 MICo 训练数据与评测基准的空白，对推动多图合成研究价值高。