SwiftTailor: Efficient 3D Garment Generation with Geometry Image Representation¶

会议: CVPR2026
arXiv: 2603.19053
作者: Phuc Pham, Uy Dieu Tran, Binh-Son Hua, Phong Nguyen 代码: 待确认
领域: 3D视觉 / 服装生成
关键词: 3D服装生成, 几何图像, 缝纫样板, VLM, Dense Prediction Transformer

一句话总结¶

提出两阶段轻量框架SwiftTailor，通过PatternMaker预测缝纫样板 + GarmentSewer将其转换为统一UV空间的Garment Geometry Image，结合逆映射与动态拼接直接生成3D服装网格，推理速度比现有方法快数十倍且达到SOTA质量。

研究背景与动机¶

3D服装生成是计算机视觉和数字时尚领域的长期难题。现有方法的典型流程是：使用大型视觉-语言模型（VLM）生成2D缝纫样板的序列化表示，再通过GarmentCode等服装建模框架将其转换为可模拟的3D网格。这类方法虽然质量高，但存在明显瓶颈：

推理效率低：依赖物理模拟引擎（如GarmentCode）将2D样板转为3D网格，单件服装推理需30-60秒，难以满足实时或大规模生成需求

VLM冗余：使用大型VLM做缝纫样板预测存在参数浪费，轻量化模型即可胜任该任务

表示不统一：2D样板到3D网格的转换依赖复杂的模拟流程，中间环节多、不可微分、难以端到端优化

核心问题：如何在保持生成质量的同时大幅提升3D服装生成的推理效率？

方法详解¶

整体框架¶

现有3D服装生成走的是「大VLM 预测2D缝纫样板 → GarmentCode 等物理模拟引擎转3D网格」的路子，质量高但单件要 30-60 秒、中间环节多还不可微。SwiftTailor 把这条链路换成两阶段可学习级联：阶段一 PatternMaker 用一个轻量 VLM 从文本/图像等多模态输入预测缝纫样板参数；阶段二 GarmentSewer 用一个 Dense Prediction Transformer 把样板转成 Garment Geometry Image（GGI），把所有面板的 3D 表面编码进统一 UV 空间；最后用逆映射 + 重网格化 + 动态拼接直接拼出 3D 网格。核心是用学到的几何图像表示替掉物理模拟，把昂贵的模拟成本摊销到训练阶段，推理时一秒内出结果。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400, 'subGraphTitleMargin': {'top': 8, 'bottom': 16}}}}%%
flowchart TD
    A["多模态输入<br/>文本描述 / 参考图像"] --> B["PatternMaker（轻量 VLM）<br/>预测缝纫样板参数"]
    B --> C["GarmentSewer（DPT）<br/>样板 → Garment Geometry Image（GGI）"]
    C --> D["统一 UV 空间<br/>每像素存对应 3D 坐标 (x,y,z)"]
    subgraph R["逆映射与动态拼接"]
        direction TB
        E["逆映射<br/>有效像素 3D 坐标 → 各面板几何"] --> F["重网格化<br/>自适应重划分三角网格"]
        F --> G["动态拼接<br/>按样板关系缝合面板边缘"]
    end
    D --> R
    R --> H["3D 服装网格"]

关键设计¶

1. PatternMaker：缝纫样板预测不必动用大VLM

现有方法（如 AIpparel、ChatGarment）拿 LLaVA-1.5V-7B 这类大 VLM 去预测样板，参数严重浪费。PatternMaker 的判断是：缝纫样板预测本质是个结构化预测任务，不需要通用大模型的全部能力。它因此大幅精简规模，只保留预测样板所需的部分，支持文本描述、参考图像等多模态输入，直接输出各面板的形状、尺寸和拼接关系的参数化表示（省掉复杂的序列解码），并在 Multimodal GarmentCodeData 上联合学习视觉和语言到样板参数的映射，用更小的模型拿到更好的性价比。

2. GarmentSewer 与 GGI：把不规则3D网格变成规则2D图像预测

样板转3D之所以慢，是因为依赖物理模拟、不可微、难端到端。GarmentSewer 引入 Garment Geometry Image（GGI）绕开这一步：把服装所有面板的 3D 表面信息编码进统一的 2D UV 空间，每个像素存对应的 3D 坐标 \((x,y,z)\)——不规则的 3D 网格问题就被转化成规则的 2D 图像预测问题。GarmentSewer 用高效 DPT 架构、以缝纫样板参数为条件直接预测 GGI，Transformer 的全局注意力天然适合捕捉面板间的空间关系；UV 映射方案则把不同形状大小的面板紧凑排进统一图像空间，在最大化信息密度的同时保持面板间几何一致。

3. 逆映射与动态拼接：把GGI拼回可用的3D服装

从 GGI 重建最终网格分三步：逆映射把每个有效像素的 3D 坐标映回原始面板空间、恢复各面板几何；重网格化（Remeshing）对恢复的面板自适应重新划分三角网格、保证网格质量；动态拼接（Dynamic Stitching）按样板里定义的拼接关系自动缝合各面板对应边缘，并能处理面板边缘长度不一致这类实际问题。整条流程完全替代了传统物理模拟，把单件服装的组装时间从数十秒压到亚秒级。

实验关键数据¶

实验在Multimodal GarmentCodeData数据集上进行评估。

表1：与现有方法的定量对比¶

方法	样板精度	3D几何误差↓	视觉保真度↑	推理时间
GarmentCode + 大VLM	较高	较低	高	30-60秒
基于序列化的方法	中等	中等	中等	~30秒
SwiftTailor	最高	最低	最高	<数秒

SwiftTailor在保持SOTA精度的同时，推理速度提升一个数量级以上。

表2：消融实验¶

配置	几何误差↓	推理时间	说明
完整SwiftTailor	最低	最快	完整两阶段框架
w/o GGI（用物理模拟）	相当	30-60秒	验证GGI替代模拟的有效性
w/o 动态拼接	较高	较快	拼接质量下降
w/o 重网格化	中等	最快	网格质量降低
大VLM替代PatternMaker	相当	更慢	验证轻量VLM的合理性

消融实验证明了GGI表示、动态拼接和重网格化各组件的必要性。

关键发现¶

几何图像是3D服装的高效表示：GGI将不规则3D网格统一到规则2D图像空间，使得标准图像预测架构可以直接应用于服装生成
物理模拟可以被学习替代：通过在训练阶段摊销模拟成本，推理时完全不需要物理引擎，大幅降低推理延迟
轻量VLM足以完成样板预测：缝纫样板预测是一个相对结构化的任务，不需要超大规模VLM
速度与质量可以兼得：SwiftTailor证明在3D服装生成中，效率提升与质量提升不是矛盾的

亮点与洞察¶

表示创新：Garment Geometry Image是一个很有启发性的表示设计。将3D服装的所有面板统一编码到2D图像空间，这种思路可以推广到其他多组件3D物体的生成
摊销优化思想：将物理模拟的成本从推理阶段转移到训练阶段，是一种通用的加速策略。类似思想在neural physics、neural rendering等领域也有应用
模块化设计：两阶段解耦设计使得PatternMaker和GarmentSewer可以独立优化和替换，灵活性高
实用导向：10倍以上的加速使得该方法具备实际部署价值，可用于实时3D虚拟试衣、游戏角色穿搭等场景
可解释性：保留了缝纫样板这一中间表示，用户可以检查和编辑样板参数，提供了良好的人机交互接口

局限性¶

数据集依赖：仅在Multimodal GarmentCodeData上验证，该数据集的多样性可能不足以覆盖所有真实世界服装类型（如极复杂礼服、民族服饰等）
GGI分辨率限制：几何图像的分辨率决定了3D网格的细节上限，对于褶皱、刺绣等精细结构可能还不够
拓扑约束：GGI假设服装面板可以平展到2D UV空间，对于拓扑复杂的服装（如有孔洞、多层叠加）可能难以处理
物理真实性：虽然摊销了模拟成本，但学习得到的几何是否完全符合物理规律（如重力下垂、布料厚度）还需进一步验证
泛化能力：对训练数据之外的全新服装类型的泛化能力有待考察

评分¶

新颖性: 8/10 — GGI表示和两阶段摊销框架均有创新，将经典geometry image思想巧妙应用于服装生成
实验充分度: 7/10 — 在标准数据集上达SOTA且有消融，但缺少跨数据集泛化和真实场景部署的验证
写作质量: 8/10 — 框架描述清晰，两阶段设计逻辑流畅，动机论述充分
价值: 8/10 — 10倍加速具有明确应用价值，GGI表示对领域有推动作用