Reference-Free Image Quality Assessment for Virtual Try-On via Human Feedback¶

会议: CVPR2025
arXiv: 2603.13057
代码: GitHub
领域: 人体理解
关键词: virtual try-on, image quality assessment, human feedback, cross-attention, benchmark

一句话总结¶

提出 VTON-IQA，一个无参考的虚拟试穿图像质量评估框架，通过大规模人类标注基准 VTON-QBench（62,688 张试穿图 + 431,800 条标注）和 Interleaved Cross-Attention 模块实现与人类感知对齐的图像级质量预测。

研究背景与动机¶

虚拟试穿评估困境：真实场景中，同一人穿着目标服装的 ground-truth 图像通常不可用，reference-based 指标（SSIM、LPIPS）无法适用

分布级指标的局限：FID、KID 等指标衡量数据集级别统计特性，无法反映单张生成图像的感知质量

现有方法缺陷：VTONQA 数据集规模有限（748 对 vs 本文 13,153 对），VTON-VLLM 聚焦文本批评而非定量预测，VTBench 未从大规模人类标注中直接学习统一质量模型

质量评估的特殊性：虚拟试穿质量评估不同于传统单图 IQA，需要同时验证服装保真度和非目标区域（人物身份、背景等）的保持

跨图像交互需求：评估质量需要建模生成试穿图与输入服装图、人物图之间的交叉关系，传统 IQA 方法无法实现

缺乏可复现基准：现有方法缺乏公开实现和标准化评估基准，难以进行可复现的评估

方法详解¶

整体框架¶

三分支 Transformer 架构处理服装图 \(I_G\)、人物图 \(I_P\) 和生成试穿图 \(I_V\)，前半层独立特征提取，后半层引入 Interleaved Cross-Attention (ICA) 进行跨图像交互建模。

VTON-QBench 数据集构建¶

数据增强：基于 FLUX.1-dev 生成合成服装-人物对，覆盖 casual/street/formal/minimal/vintage 风格，对数从 6,981 扩增至 13,153（约 1.9×）
伪三元组构建：用强模型 Nano Banana Pro 生成伪 ground-truth，构建 \((I_G, I_P, I_R)\) 三元组，支持与 reference-based 指标的比较
14 个 VTON 模型生成：涵盖 GAN-based（VITON-HD、HR-VITON、SD-VITON）、U-Net diffusion（IDM-VTON、CatVTON、OOTDiffusion）、DiT diffusion（FitDit、CatVTON-FLUX）、专有编辑模型（Nano Banana Pro、GPT-Image-1.5）
标注协议：三级顺序量表（Unnatural / Slightly unnatural / Completely natural），13,838 名合格标注者提供 431,800 条标注
数据清洗：两阶段过滤——dummy 任务一致性检查 + Krippendorff's α 阈值过滤（α ≤ 0.4 的问卷丢弃），α 从 0.286 提升至 0.550

Interleaved Cross-Attention (ICA) 模块¶

在后 L/2 层标准 Transformer 块中，在 self-attention 和 MLP 之间插入 cross-attention 层
非对称交互设计：试穿图表示聚合来自服装和人物的贡献 \(\hat{X}_V = \tilde{X}_V + C_{V \leftarrow G} + C_{V \leftarrow P}\)，而服装/人物分支仅从试穿分支获取信息
避免不必要的 G↔P 耦合，强调质量判断以生成试穿图为中心

评分模块¶

提取各分支 [CLS] token 作为紧凑全局表示 \(c_G, c_P, c_V\)
中间关系分数：可学习权重 \(\alpha\) 平衡服装一致性和非目标区域保持的余弦相似度
\(\tilde{s} = \alpha \frac{c_G^\top c_V}{\|c_G\|\|c_V\|} + (1-\alpha) \frac{c_P^\top c_V}{\|c_P\|\|c_V\|}\)
最终分数：\(\hat{s} = \tanh(a\tilde{s}+b)\)，可学习仿射变换 + tanh 约束至 \([-1,1]\)

损失函数¶

配对偏好项：Bradley-Terry 模型建模配对偏好，soft-label cross-entropy 对齐预测和人类偏好分布
分数回归项：L2 loss 强制预测分数与人类评分的一致性
联合优化兼顾相对排序和绝对分数对齐

实验关键数据¶

方法	ρ_SRCC↑	ρ_PLCC↑	R²↑	A_macro↑	A_micro↑
SSIM	–	0.135	–	0.596	0.593
LPIPS	–	0.387	–	0.701	0.695
DINOv3 (zero-shot)	–	0.261	–	0.637	0.641
VTON-IQA w/o ICA	0.617	0.615	0.372	0.722	0.747
VTON-IQA	0.750	0.751	0.553	0.781	0.790
Human	0.760	0.762	0.536	0.782	0.791

关键发现： - ICA 模块带来显著提升（SRCC: 0.617→0.750），验证跨图像交互建模的有效性 - 在配对精度 (A_macro/A_micro) 上模型接近人类水平（0.781 vs 0.782） - 相关性指标仍有提升空间（0.750 vs 0.760），说明细粒度感知对齐尚需改进 - 14 个 VTON 模型 benchmark 中，Nano Banana Pro 在 Dress Code 和 VITON-HD 上综合得分最高 - GAN-based 方法（VITON-HD、HR-VITON、SD-VITON）在 VTON-IQA 评分中显著落后于 diffusion 方法 - 定性分析表明 VTON-IQA 对姿态和缩放变化具有鲁棒性，而 SSIM/LPIPS 会过度惩罚全局变换

亮点¶

规模空前的人类标注基准：VTON-QBench 是目前最大的虚拟试穿人类主观评估数据集，标注者数量（13,838）和标注条数（431,800）远超前作
非对称 ICA 设计：精准建模 V↔G 和 V↔P 交互而避免冗余 G↔P 耦合，与虚拟试穿质量评估的本质对齐
接近人类的配对精度：在 pairwise ranking 任务上达到与人类可比的一致性
全面 benchmark：涵盖 14 个代表性 VTON 模型的系统评估，为社区提供标准化参考

局限性¶

相关性指标与人类表现仍有差距（SRCC 0.750 vs 0.760），细粒度感知对齐待提升
标注量表仅三级，粒度较粗，可能限制质量分数的区分度
训练和评估均基于 VTON-QBench，泛化到全新 VTON 模型或极端场景的能力待验证
仅评估上半身/全身试穿，未覆盖配饰、鞋类等细分场景
骨干网络基于 DINOv3 ViT-L/16，推理成本较高（需处理三张图的三分支前向传播）

评分¶

新颖性: ⭐⭐⭐⭐ — ICA 非对称交互设计针对性强，大规模众包标注数据集构建流程完善
实验充分度: ⭐⭐⭐⭐⭐ — 14 模型 benchmark、消融实验、与人类对比全面
写作质量: ⭐⭐⭐⭐ — 结构清晰，问题定义明确
价值: ⭐⭐⭐⭐ — 为虚拟试穿社区提供了急需的标准化评估工具和大规模 benchmark