跳转至

Can Vision–Language Models Assess Graphic Design Aesthetics? A Benchmark, Evaluation, and Dataset Perspective

会议: ICLR2026
arXiv: 2603.01083
代码: https://github.com/arctanxarc/AesEval-Bench
领域: LLM评测
关键词: design aesthetics, VLM evaluation, benchmark, indicator-grounded reasoning, graphic design

一句话总结

提出 AesEval-Bench,首个系统性评估 VLM 图形设计美学评估能力的 benchmark(4维度×12指标×3任务),发现现有 VLM(含推理增强型)在设计美学上表现有限,并通过 human-guided VLM labeling + indicator-grounded reasoning 构建训练数据,微调 7B 模型在精确定位任务上超过 GPT-5。

研究背景与动机

领域现状:VLM 在图像描述、VQA 等任务上取得显著进展,但在图形设计美学评估(评价海报、广告、UI的视觉吸引力)方面几乎未被探索。

现有痛点:(a) 基准不完善——现有设计美学 benchmark 只覆盖少数维度(如忽略图形质量或字体),评估协议要么是粗粒度打分(无法定位问题区域)要么是开放式描述(难以量化);(b) 缺乏系统对比——没有对开源/闭源/推理增强 VLM 的全面比较;(c) 训练数据匮乏——如何提升 VLM 在这个领域的表现尚未研究。

核心矛盾:设计美学是多维度、主观性强的任务(涉及排版、布局、配色、图形),现有 VLM 的通用推理能力不足以处理这种需要领域知识的细粒度评估。

本文目标 (a) 建立覆盖完整设计维度的量化 benchmark;(b) 系统评估各类 VLM 的能力边界;(c) 构建能有效提升 VLM 的训练数据。

切入角度:将设计美学分解为 4 维度(字体、布局、配色、图形)× 12 指标,设计 3 个任务(判断、区域选择、精确定位)从粗到细评估,再用"indicator-grounded reasoning"让 VLM 学会把抽象美学指标关联到具体设计区域。

核心 idea:建立首个系统性的设计美学 benchmark + 发现推理增强 VLM 无优势 + 用指标锚定推理训练数据大幅提升 VLM 美学评估能力。

方法详解

整体框架

工作包含三部分:(1) AesEval-Bench 基准构建——从 Crello 数据集采样专业设计,施加可控扰动生成缺陷设计,人工标注后构造 4500 个 QA 对;(2) 系统评估——在 10+ VLM 上测试 3 种任务;(3) AesEval-Train 训练集构建——用 human-guided VLM labeling 扩展标签,用 indicator-grounded reasoning 生成推理路径,微调 VLM。

关键设计

  1. AesEval-Bench 基准设计:

    • 功能:提供覆盖 4 维度 12 指标的量化设计美学评估基准
    • 核心思路:4 维度为字体(legibility、hierarchy)、布局(balance、layering、whitespace、alignment)、配色(harmony、contrast、appeal、psychology)、图形(quality、relevance)。3 种任务递进:美学判断(yes/no)→ 区域选择(4选1)→ 精确定位(bbox 坐标)
    • 设计动机:现有 benchmark 只覆盖部分维度且缺乏量化评估。三任务设计从全局感知到细粒度定位逐步加难,能全面测量 VLM 的美学理解深度
  2. 可控缺陷设计生成:

    • 功能:从专业设计出发,通过可控扰动生成带缺陷的设计图
    • 核心思路:利用 Crello 数据集的 JSON 元数据(包含元素坐标、字体、颜色),在 JSON 层面施加扰动(重新定位元素、更改字体、调整颜色等),再重新渲染为设计图。人工标注员判断扰动是否真的造成美学问题
    • 设计动机:直接用有缺陷的设计难以控制缺陷类型和位置,从专业设计出发扰动既能保证真实感又能精确控制 ground truth
  3. Human-guided VLM Labeling(训练集标签生成):

    • 功能:大规模生成训练标签,避免全量人工标注的高成本
    • 核心思路:用少量人工标注作为 in-context examples,加上扰动区域的 bbox 坐标作为先验,指导强大 VLM(如 GPT)生成二分类标签(设计是否有美学问题)
    • 设计动机:人工标注成本高、不可扩展。提供扰动区域坐标虽然在真实场景中不可用,但在标注阶段可以大幅提升标签可靠性
  4. Indicator-grounded Reasoning(训练集推理路径生成):

    • 功能:生成将抽象美学指标锚定到具体设计区域的推理路径
    • 核心思路:给 GPT 提供目标区域的 bbox 坐标和对应的设计图层,要求其输出包含坐标 + 指标相关性解释的推理路径。不同任务用不同策略:美学判断用扰动区域 bbox、区域选择同时提供扰动和非扰动区域、精确定位还强调与整体设计的关系
    • 设计动机:发现通用推理(如 GPT-o1/o3)对美学评估无帮助,因为它们的推理是泛泛分析而非锚定具体区域。indicator-grounded reasoning 强制将抽象概念(如"层次感")关联到设计中的具体 bbox,提供了有效监督信号

训练策略

基于 Qwen2.5-VL-7B-Instruct 做全参数微调,冻结视觉编码器只调语言模型参数。学习率 1e-6,cosine scheduler,3% warmup,bfloat16 + FlashAttention-2。训练数据 30k QA 对,输入为任务描述+设计图+JSON元数据,监督信号为推理路径+任务标签。

实验关键数据

主实验(VLM 基准评估)

模型 美学判断 Acc 区域选择 Acc 精确定位(choice) Acc 精确定位(bbox) IoU
GPT-5 0.7252 0.6989 0.6090 0.1993
GPT-4o 0.7031 0.6745 0.5680 0.1712
GPT-o3 0.7105 0.6581 0.5800 0.1418
GPT-o1 0.6705 0.6347 0.5295 0.1286
Gemini-2.5-Pro 0.6368 0.6100 0.6047 0.0977
Qwen-VL-72B 0.6724 0.6626 - -
InternVL3-14B 0.6883 0.6378 - -
AesExpert-7B 0.4056 0.2883 0.3377 0.0327

消融实验(微调效果)

配置 美学判断 Acc 区域选择 Acc 精确定位(bbox) IoU
Qwen-VL-7B (Base) 0.6390 0.5795 0.0514
+ AesEval-Train 0.6987 (+5.97%) 0.6065 (+2.70%) 0.2105 (+17.17%)
- Reasoning Path 0.6576 0.5795 0.1634
- Positive Samples 0.2072 0.2437 0.0012

关键发现

  • 推理增强型 VLM 无优势:GPT-o1/o3 在美学判断和区域选择上并不优于 GPT-4o/GPT-5,说明通用推理能力无法直接迁移到设计美学领域
  • 图像美学专家模型表现差:AesExpert 和 UNIAA-LLAVA 分数远低于通用 VLM,说明自然图像美学与设计美学有本质差异
  • bbox 定位是硬骨头:最好的 GPT-5 在精确定位上 IoU 仅 0.1993,说明 VLM 距离精确理解设计元素空间位置还有很大差距
  • indicator-grounded reasoning 是关键:去掉推理路径后精确定位 IoU 从 0.2105 降到 0.1634,去掉正样本后几乎归零,说明领域特定的锚定推理是提升的主要来源
  • 微调 7B 可超 GPT-5:在精确定位任务上,微调后的 Qwen-VL-7B(IoU 0.2105)超过 GPT-5(0.1993),证明领域特定训练数据的价值

亮点与洞察

  • 三级任务设计精巧:从判断→选择→定位逐级加难,像"考试"一样全面测试 VLM 的美学理解深度,这种 benchmark 设计思路可迁移到其他主观评估任务(如代码质量评估、写作质量评估)
  • indicator-grounded reasoning 的通用性:将抽象概念锚定到具体空间区域的思路,不仅适用于美学评估,还可用于任何需要将高层概念与低层视觉特征关联的任务(如医学图像异常定位、建筑设计评审)
  • 推理≠领域知识:推理增强型 VLM 在通用任务上很强,但在专业领域不一定有优势——这个发现对 VLM 应用选型很有指导意义

局限与展望

  • 数据源单一:仅基于 Crello 数据集,主要是平面设计。UI设计、网页设计、包装设计等未覆盖
  • 扰动方式有限:通过 JSON 层面施加扰动,未涉及更复杂的设计缺陷(如语义不匹配、文化不合适等)
  • 评估指标简单:IoU 对于美学问题定位可能不是最优指标,因为美学问题区域的边界本身就是模糊的
  • 缺少真实设计师反馈:训练数据中的推理路径来自 GPT 生成,缺少与专业设计师推理过程的对比验证
  • 仅微调了一个模型:只在 Qwen-VL-7B 上验证了训练策略,未验证在更大模型上的效果

相关工作与启发

  • vs AesBench/UNIAA-Bench(图像美学):它们针对自然照片,关注曝光、构图等因素。本文专注图形设计,新增字体、布局维度。设计美学专家模型在本文 benchmark 上表现差,验证了二者的差异
  • vs DesignProbe/GPT-Eval Bench(设计美学):它们覆盖维度少且评估格式单一。AesEval-Bench 首次同时覆盖 4 维度 12 指标 + 3 种量化任务
  • vs 通用 grounded reasoning(如 SoM):通用视觉推理锚定的是语义实体(车、人),本文锚定的是美学指标(层次感、对齐),抽象层级更高

评分

  • 新颖性: ⭐⭐⭐⭐ 首个系统性设计美学 VLM benchmark + indicator-grounded reasoning 训练方法
  • 实验充分度: ⭐⭐⭐⭐⭐ 10+ VLM 全面对比,消融实验充分,包含输入成分分析
  • 写作质量: ⭐⭐⭐⭐⭐ 逻辑结构清晰,问题定义明确,对比表格丰富
  • 价值: ⭐⭐⭐⭐ 为 VLM 在设计领域的应用奠定评估基础,训练策略有实用价值