Reference-Free Image Quality Assessment for Virtual Try-On via Human Feedback¶
会议: CVPR2026
arXiv: 2603.13057
代码: GitHub
领域: 人体理解 / 虚拟试穿质量评估
关键词: 虚拟试穿, 图像质量评估, 无参考评估, 人类反馈对齐, 交叉注意力, 大规模标注基准
一句话总结¶
提出 VTON-IQA,一个无需参考图的虚拟试穿图像质量评估框架,通过构建 62,688 张试穿图像 × 431,800 条人工标注的大规模基准 VTON-QBench,以及交错式交叉注意力(ICA)模块建模服装-人物-试穿图之间的交互关系,实现与人类感知高度对齐的图像级质量预测。
背景与动机¶
- 实际场景缺乏真实参考图:在真实电商部署中,同一人穿着目标服装的 ground-truth 图像通常不可得,使得 SSIM/LPIPS 等全参考指标无法使用
- 分布级指标无法反映单图质量:FID/KID 仅衡量数据集级别统计相似度,无法评估单张生成图像的感知质量
- 现有 VTON 评估方法缺乏大规模人类验证:VTON-VLLM 侧重文本批评而非定量打分,VTBench 使用 LLM 判断但未从大规模人类标注中学习,VTONQA 数据集规模有限(仅 748 对、40 标注者)
- 缺乏公开可复现的评估基准:现有方法未开源实现和标准化基准,阻碍可复现评估
- 试穿质量评估不同于单图 IQA:需要同时验证服装保真度和人物特征保持,本质上需要跨图交互建模
- 传统指标对全局变换过度惩罚:SSIM/LPIPS 对姿态变化和缩放变化敏感,与人类感知不一致
方法详解¶
整体框架¶
VTON-IQA 采用三分支 Transformer 架构,输入服装图 \(I_G\)、人物图 \(I_P\) 和生成的试穿图 \(I_V\),输出连续质量分数 \(\hat{s} \in [-1, 1]\)。backbone 基于 DINOv3 ViT-L/16。
流程:三张图各自通过 patch embedding + [CLS] token → 前 L/2 层独立自注意力提取特征 → 后 L/2 层引入 ICA 模块进行跨图交互 → 提取 [CLS] 表征 → 加权余弦相似度打分。
交错式交叉注意力(ICA)模块¶
ICA 的核心设计是非对称交互:在标准 Transformer 块的自注意力和 MLP 之间插入交叉注意力层。
- 试穿分支聚合来自服装和人物两路的信息:\(\hat{X}_V = \tilde{X}_V + C_{V \leftarrow G} + C_{V \leftarrow P}\)
- 服装/人物分支仅从试穿分支获取信息:\(\hat{X}_G = \tilde{X}_G + C_{G \leftarrow V}\),\(\hat{X}_P = \tilde{X}_P + C_{P \leftarrow V}\)
- 显式建模 (V,G) 和 (V,P) 双向交互,刻意避免 G↔P 直接耦合,因为质量判断本质上以试穿图为中心
打分模块¶
提取三路 [CLS] token \(c_G, c_P, c_V\),通过可学习权重 \(\alpha\) 加权两路余弦相似度:
最终经可学习仿射变换 + tanh 映射到 \([-1,1]\)。
损失函数¶
联合优化两个目标:
- Bradley-Terry 偏好学习:对同一人-服装对的两张试穿结果建模成对偏好,用软标签交叉熵对齐预测偏好与人类偏好
- 分数回归:L2 损失约束预测分数与人类评分的一致性
VTON-QBench 数据集构建¶
| 维度 | 规模 |
|---|---|
| 服装-人物对 | 13,153(含合成增强 1.9×) |
| 试穿图像 | 62,688 |
| VTON 模型 | 14(涵盖 GAN/U-Net Diffusion/DiT/商业模型) |
| 合格标注者 | 13,838 |
| 质量标注 | 431,800 |
三级标注:不自然(1) / 轻微不自然但不明显(2) / 完全自然(3),最终分数取多标注者均值。
数据清洗:两阶段过滤——(1) dummy 题筛查 + 异常行为检测,(2) Krippendorff's α ≤ 0.4 的问卷整体剔除,α 从 0.286 提升至 0.550。
实验关键数据¶
主实验:与 baseline 对比(VTON-QBench 测试集)¶
| 方法 | SRCC↑ | PLCC↑ | R²↑ | A_macro↑ | A_micro↑ |
|---|---|---|---|---|---|
| SSIM | – | 0.135 | – | 0.596 | 0.593 |
| LPIPS | – | 0.387 | – | 0.701 | 0.695 |
| DINOv3 (zero-shot) | – | 0.261 | – | 0.637 | 0.641 |
| VTON-IQA w/o ICA | 0.617 | 0.615 | 0.372 | 0.722 | 0.747 |
| VTON-IQA (full) | 0.750 | 0.751 | 0.553 | 0.781 | 0.790 |
- ICA 模块带来 SRCC +0.133、PLCC +0.136 的显著提升
- 成对准确率接近人类水平(人类 A_macro=0.782, 模型 0.771)
14 个 VTON 模型 Benchmark(VITON-HD,unpaired)¶
| 模型 | VTON-IQA↑ | FID↓ |
|---|---|---|
| Nano Banana Pro | 0.315 | 10.309 |
| GPT-Image-1.5 | 0.234 | 12.801 |
| FitDit | 0.189 | 9.893 |
| Qwen-Image-Edit | 0.087 | 10.706 |
| IDM-VTON | 0.039 | 9.093 |
| OOTDiffusion | -0.142 | 9.064 |
| LADI-VTON | -0.864 | 21.515 |
商业模型在人类对齐评分上显著领先;FID/KID 与人类感知不一定一致。
消融分析¶
- ICA vs 无 ICA:ICA 对所有指标均有显著提升,验证了跨图交互建模的必要性
- 非对称 vs 对称交互:非对称设计(避免 G↔P 耦合)更符合试穿质量评估的语义结构
- 任务特定训练 vs zero-shot:DINOv3 zero-shot → 微调带来 PLCC +0.354,说明 VTON-QBench 上训练至关重要
亮点¶
- 数据集规模空前:VTON-QBench 是目前已知最大的虚拟试穿人类主观评估数据集,且计划开源
- 非对称 ICA 设计精巧:以试穿图为中心的交互结构符合评估语义,避免无关耦合
- 成对准确率达人类水平:A_macro 仅差 0.011,说明模型在偏好排序上已具有实用价值
- 首次对 14 个 VTON 模型做统一 benchmark:涵盖 GAN/UNet-Diffusion/DiT/商业模型,结果显示传统指标与人类感知存在系统性偏差
- 合成数据增强管道完整:LoRA+FLUX.1-dev 生成 + GPT 过滤 + 人工审核,服装-人物对扩展 1.9 倍
局限与展望¶
- 三级标注粒度较粗:仅 3 个等级可能无法捕捉细粒度质量差异,更细的连续评分或多维打分可能更优
- 相关性指标与人类仍有差距:SRCC=0.750 vs 人类 0.760,R²=0.489 vs 0.536,绝对值预测仍有提升空间
- 未涵盖多维质量评估:仅输出单一整体分数,缺乏对服装纹理/颜色/形状/长度等子维度的诊断能力
- backbone 较重:DINOv3 ViT-L/16 三分支推理开销大,部署时需考虑效率
- 合成增强依赖商业模型:伪三元组构建使用 Nano Banana Pro,数据集构建成本和可复现性受限
- 未探索视频试穿等动态场景的质量评估
与相关工作的对比¶
| 方法 | 数据规模 | 无参考 | 图像级打分 | 人类标注 | 开源 |
|---|---|---|---|---|---|
| SSIM/LPIPS | N/A | ✗ | ✓ | ✗ | ✓ |
| FID/KID | N/A | ✓ | ✗(分布级) | ✗ | ✓ |
| VTONQA | 748对/8132图/40人 | ✓ | ✓ | ✓ | ✗ |
| VTON-VLLM | – | ✓ | ✗(文本) | ✓ | ✗ |
| VTBench | – | ✓ | ✓ | 间接 | – |
| VTON-IQA | 13K对/63K图/14K人 | ✓ | ✓ | ✓ | ✓ |
VTON-IQA 在数据规模、评估方式完备性和开源承诺上全面超越先前工作。
评分¶
- 新颖性: ⭐⭐⭐⭐ — ICA 的非对称跨图交互设计有新意,大规模 VTON 人类标注基准填补空白
- 实验充分度: ⭐⭐⭐⭐⭐ — 14 个模型 benchmark + 与人类对比 + 消融 + 定性分析,极为完整
- 写作质量: ⭐⭐⭐⭐ — 结构清晰,数据集构建描述详尽,公式表达规范
- 价值: ⭐⭐⭐⭐ — 为虚拟试穿社区提供标准化评估基准和工具,工程和学术价值兼具