Garments2Look: A Multi-Reference Dataset for High-Fidelity Outfit-Level Virtual Try-On with Clothing and Accessories¶

会议: CVPR 2026
arXiv: 2603.14153
代码: GitHub
领域: 虚拟试穿 / 数据集
关键词: 虚拟试穿, 多参考图像, 整套搭配, 数据集构建, 图像生成

一句话总结¶

提出 Garments2Look，首个大规模多模态整套搭配级虚拟试穿数据集（80K 对，40 类，300+ 子类），每组包含 3-12 件参考服饰图、模特穿搭图和详细文本标注，揭示现有方法在多层搭配和配饰一致性上的重大不足。

研究背景与动机¶

虚拟试穿（VTON）已在单件服装可视化上取得显著进展，但真实时尚场景远不止于此——用户需要整套搭配（outfit）的预览，涉及多件服装、配饰、细粒度类别、层叠穿法和多样化造型。

现有数据集的结构性缺陷： - VITON-HD、DressCode 仅支持单件试穿，类别有限（1-3 类） - M&M VTO、BootComp 支持多参考输入但类别多样性不足 - 无数据集同时提供层叠顺序、穿搭技巧和多件配饰的标注

outfit 级 VTON 的新挑战： - 服装间存在复杂的层叠遮挡关系（如针织开衫既可做外搭也可内穿） - 穿搭技巧多样（正常穿、披肩、腰间系、卷袖等） - 参考件数从 3 到 12 不等，对模型的多参考一致性要求极高

方法详解¶

整体框架¶

这篇论文要解决的是「整套搭配级」虚拟试穿没有训练数据的问题——既有数据集只覆盖单件服装，没人提供层叠顺序、穿搭技巧和多件配饰的标注。作者用一条四阶段管线造数据：先从多来源收集服装图与模特穿搭图（Data Collection），对缺穿搭图的样本用搭配合成 + 穿搭图合成补全（Data Synthesis），再经三层规则与人工过滤（Data Filtering），最后做定量与 VLM 评估（Data Evaluation）。核心是把真实配对数据（Gold Standard）与合成数据结合，用严格过滤和人工审核兜住质量。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["多来源数据收集<br/>服装图 / 模特穿搭图 / 文本"] --> B["按完整度分级的数据来源策略"]
    B -->|"Gold Standard 50.2%（图齐全）"| F["三层数据过滤<br/>单品 → 搭配 → 图对逐级把关"]
    B -->|"有搭配、缺穿搭图 24.0%"| D["OOTD grid 穿搭图合成<br/>单品拼一张图喂 Nano Banana"]
    B -->|"纯服装图 25.8%"| C["RAG 式搭配合成<br/>时尚知识库 + 反频率采样"]
    C --> D
    D --> F
    F --> G["数据评估（定量 + VLM）→ 80K 对数据集"]

关键设计¶

1. 按完整度分级的数据来源策略：让真实配对与合成数据各司其职

收集来的数据完整度参差不齐——全部重新合成会丢掉真实配对的高保真信息，全靠真实数据又凑不够规模。作者按完整度把数据分成三档分别处理：Gold Standard（50.2%）有完整的「服装图 + 模特穿搭图」配对，直接可用；有搭配方案但无穿搭图的（24.0%）只需合成 look image；纯服装图无搭配的（25.8%）则要先合成搭配方案、再合成 look image。来源覆盖搭配兼容性数据集（PolyVore）、开源时尚数据集、严格合规的公开网络图片与合成数据，从而在保住真实样本占比的同时把规模撑到 80K 对。

2. RAG 式搭配合成：用时尚知识库约束生成、反频率采样压住热门偏差

纯靠 LLM 随机生成搭配清单容易不合常理，也会反复推荐爆款单品导致数据偏斜。搭配合成管线像一套启发式 RAG：先构建包含 65 种时尚风格的知识库（35 女 / 30 男），每种风格由 LLM 生成再经时尚专家审核；运行时随机选一种风格，让 LLM 生成用户画像与穿搭场景（含场合、色调、主题、类别），并在风格约束下产出 3–9 件搭配清单，按「从上到下、从内到外、从服装到配饰」排序；最后逐件检索 top-128 候选，并用反频率加权采样让冷门单品也有机会入选，避免热门单品反复出现。

3. OOTD grid 穿搭图合成：把分散单品拼成一张图喂给生成模型

如果把搭配里的每件单品当作多张分散输入丢给生成模型，单品之间的搭配关系会丢失、相互一致性变差。作者把搭配清单的所有单品排成一张 OOTD grid image，作为 Nano Banana（Gemini-2.5-Flash-Image）的统一输入，让整张参考图隐式携带单品间的搭配上下文。同时通过 prompt engineering 注入层叠顺序与穿搭技巧（如「把上衣扎进裤子」「卷起袖子」等 5 类），让合成的 look image 不只是简单叠穿。

4. 三层数据过滤：从单品、搭配到图对逐级把关

合成数据良莠不齐，单层校验难以同时覆盖类别正确性、搭配合理性与图像质量。过滤因此分三层：单品层用 40 大类 + 300 细分子类的标准分类体系归类；搭配层用时尚专业知识做规则化合理性验证（如不会同时穿两条连衣裙）；图对层先由 Gemini-2.5-Flash 自动筛选、DWPose 做姿态分类，再交 10 名时尚学生 + 3 名专家人工审核。把关之严格体现在：合成 look image 最终只有约 40% 通过审核。

损失函数 / 训练策略¶

本文是数据集贡献，不涉及模型训练。评估协议包含两类指标：经典 VTON 指标（FID、KID、SSIM、LPIPS），以及 VLM 评审指标（Gemini-3-Flash，评估服装一致性、层叠准确性、穿搭技巧准确性）。

实验关键数据¶

主实验¶

Garments2Look 测试集上的方法对比：

方法类型	模型	FID↓	SSIM↑	Garment↑	Layering↑	Styling↑
VTON	FastFit	3.59	0.855	0.624	0.131	0.340
VTON	OmniTry	6.56	0.724	0.461	0.167	0.261
Editing	GPT-4o (2 Ref)	2.15	0.758	0.892	0.849	0.694
Editing	NB (2 Ref)	1.04	0.858	0.925	0.885	0.739
Editing	NBP (N Ref)	1.32	0.817	0.984	0.936	0.736

消融实验¶

配置	关键指标	说明
N Ref (多张单品) vs 2 Ref (OOTD grid)	2 Ref 通常更优	Grid 图保持更好的搭配上下文
参考件数 ≤4 vs >4	>4 时所有方法一致性下降	VTON 模型尤其严重
VTON 模型 vs 通用编辑模型	编辑模型全面优于 VTON	VTON 缺乏灵活的多件处理能力
合成 vs 真实数据质量	专家评分 4.35-4.74/5	合成数据经严格过滤后质量可控

关键发现¶

VTON 模型在 outfit 级任务上全面失败：层叠准确率仅 13-17%，穿搭技巧准确率 26-34%
通用编辑模型（GPT-4o、Nano Banana）在 outfit 级 VTON 上远超专用 VTON 模型
参考件数增加时，所有方法的一致性均显著下降——形状失真、纹理改变、颜色偏差、单品融合是主要失败模式
OOTD grid 输入（2 Ref 策略）通常优于多张分散输入（N Ref），因为整体参考携带了隐式的搭配关系
即使最先进的编辑模型，也无法精确控制非标准穿搭技巧（如半扣外套、不塞的中层）

亮点与洞察¶

首个真正的 outfit 级 VTON 数据集：40 大类、300+ 子类、层叠+穿搭技巧标注，填补了关键空白
数据合成管线的时尚知识库 + RAG 式检索 + 反频率采样设计精巧，既保证多样性又避免热门偏差
实验深入且有针对性：四个递进问题（件数极限、一致性、整体效果、结构化标注价值）系统性地揭示瓶颈
对商业编辑模型的深入分析（Nano Banana vs GPT-4o vs Seedream）提供了宝贵的工业视角

局限与展望¶

合成 look image 依赖 Nano Banana，其姿态控制和 inpainting 能力有限，导致不可避免的合成偏差
仅约 40% 的合成图通过审核，数据构建效率较低
层叠穿搭的标注依赖 VLM 自动生成，精度受限
缺少视频试穿维度（动态穿搭效果更符合实际需求）
评价指标仍依赖 VLM 评审，尚无 outfit 级专用的自动化指标

评分¶

新颖性: ⭐⭐⭐⭐ 首个大规模 outfit 级 VTON 数据集，任务定义和标注体系都是新的
实验充分度: ⭐⭐⭐⭐ 7 个模型基线（VTON + 通用编辑）、4 个递进分析问题、定量+定性+人工评估
写作质量: ⭐⭐⭐⭐ 数据构建过程描述详尽，问题驱动的实验分析逻辑清晰
价值: ⭐⭐⭐⭐⭐ 数据+代码开源，填补重要空白，对 VTON 方向有持续推动作用