Can Vision–Language Models Assess Graphic Design Aesthetics? A Benchmark, Evaluation, and Dataset Perspective¶
会议: ICLR2026
arXiv: 2603.01083
代码: https://github.com/arctanxarc/AesEval-Bench
领域: LLM评测
关键词: design aesthetics, VLM evaluation, benchmark, indicator-grounded reasoning, graphic design
一句话总结¶
提出 AesEval-Bench,首个系统性评估 VLM 图形设计美学评估能力的 benchmark(4维度×12指标×3任务),发现现有 VLM(含推理增强型)在设计美学上表现有限,并通过 human-guided VLM labeling + indicator-grounded reasoning 构建训练数据,微调 7B 模型在精确定位任务上超过 GPT-5。
研究背景与动机¶
领域现状:VLM 在图像描述、VQA 等任务上取得显著进展,但在图形设计美学评估(评价海报、广告、UI的视觉吸引力)方面几乎未被探索。
现有痛点:(a) 基准不完善——现有设计美学 benchmark 只覆盖少数维度(如忽略图形质量或字体),评估协议要么是粗粒度打分(无法定位问题区域)要么是开放式描述(难以量化);(b) 缺乏系统对比——没有对开源/闭源/推理增强 VLM 的全面比较;(c) 训练数据匮乏——如何提升 VLM 在这个领域的表现尚未研究。
核心矛盾:设计美学是多维度、主观性强的任务(涉及排版、布局、配色、图形),现有 VLM 的通用推理能力不足以处理这种需要领域知识的细粒度评估。
本文目标 (a) 建立覆盖完整设计维度的量化 benchmark;(b) 系统评估各类 VLM 的能力边界;(c) 构建能有效提升 VLM 的训练数据。
切入角度:将设计美学分解为 4 维度(字体、布局、配色、图形)× 12 指标,设计 3 个任务(判断、区域选择、精确定位)从粗到细评估,再用"indicator-grounded reasoning"让 VLM 学会把抽象美学指标关联到具体设计区域。
核心 idea:建立首个系统性的设计美学 benchmark + 发现推理增强 VLM 无优势 + 用指标锚定推理训练数据大幅提升 VLM 美学评估能力。
方法详解¶
整体框架¶
工作包含三部分:(1) AesEval-Bench 基准构建——从 Crello 数据集采样专业设计,施加可控扰动生成缺陷设计,人工标注后构造 4500 个 QA 对;(2) 系统评估——在 10+ VLM 上测试 3 种任务;(3) AesEval-Train 训练集构建——用 human-guided VLM labeling 扩展标签,用 indicator-grounded reasoning 生成推理路径,微调 VLM。
关键设计¶
-
AesEval-Bench 基准设计:
- 功能:提供覆盖 4 维度 12 指标的量化设计美学评估基准
- 核心思路:4 维度为字体(legibility、hierarchy)、布局(balance、layering、whitespace、alignment)、配色(harmony、contrast、appeal、psychology)、图形(quality、relevance)。3 种任务递进:美学判断(yes/no)→ 区域选择(4选1)→ 精确定位(bbox 坐标)
- 设计动机:现有 benchmark 只覆盖部分维度且缺乏量化评估。三任务设计从全局感知到细粒度定位逐步加难,能全面测量 VLM 的美学理解深度
-
可控缺陷设计生成:
- 功能:从专业设计出发,通过可控扰动生成带缺陷的设计图
- 核心思路:利用 Crello 数据集的 JSON 元数据(包含元素坐标、字体、颜色),在 JSON 层面施加扰动(重新定位元素、更改字体、调整颜色等),再重新渲染为设计图。人工标注员判断扰动是否真的造成美学问题
- 设计动机:直接用有缺陷的设计难以控制缺陷类型和位置,从专业设计出发扰动既能保证真实感又能精确控制 ground truth
-
Human-guided VLM Labeling(训练集标签生成):
- 功能:大规模生成训练标签,避免全量人工标注的高成本
- 核心思路:用少量人工标注作为 in-context examples,加上扰动区域的 bbox 坐标作为先验,指导强大 VLM(如 GPT)生成二分类标签(设计是否有美学问题)
- 设计动机:人工标注成本高、不可扩展。提供扰动区域坐标虽然在真实场景中不可用,但在标注阶段可以大幅提升标签可靠性
-
Indicator-grounded Reasoning(训练集推理路径生成):
- 功能:生成将抽象美学指标锚定到具体设计区域的推理路径
- 核心思路:给 GPT 提供目标区域的 bbox 坐标和对应的设计图层,要求其输出包含坐标 + 指标相关性解释的推理路径。不同任务用不同策略:美学判断用扰动区域 bbox、区域选择同时提供扰动和非扰动区域、精确定位还强调与整体设计的关系
- 设计动机:发现通用推理(如 GPT-o1/o3)对美学评估无帮助,因为它们的推理是泛泛分析而非锚定具体区域。indicator-grounded reasoning 强制将抽象概念(如"层次感")关联到设计中的具体 bbox,提供了有效监督信号
训练策略¶
基于 Qwen2.5-VL-7B-Instruct 做全参数微调,冻结视觉编码器只调语言模型参数。学习率 1e-6,cosine scheduler,3% warmup,bfloat16 + FlashAttention-2。训练数据 30k QA 对,输入为任务描述+设计图+JSON元数据,监督信号为推理路径+任务标签。
实验关键数据¶
主实验(VLM 基准评估)¶
| 模型 | 美学判断 Acc | 区域选择 Acc | 精确定位(choice) Acc | 精确定位(bbox) IoU |
|---|---|---|---|---|
| GPT-5 | 0.7252 | 0.6989 | 0.6090 | 0.1993 |
| GPT-4o | 0.7031 | 0.6745 | 0.5680 | 0.1712 |
| GPT-o3 | 0.7105 | 0.6581 | 0.5800 | 0.1418 |
| GPT-o1 | 0.6705 | 0.6347 | 0.5295 | 0.1286 |
| Gemini-2.5-Pro | 0.6368 | 0.6100 | 0.6047 | 0.0977 |
| Qwen-VL-72B | 0.6724 | 0.6626 | - | - |
| InternVL3-14B | 0.6883 | 0.6378 | - | - |
| AesExpert-7B | 0.4056 | 0.2883 | 0.3377 | 0.0327 |
消融实验(微调效果)¶
| 配置 | 美学判断 Acc | 区域选择 Acc | 精确定位(bbox) IoU |
|---|---|---|---|
| Qwen-VL-7B (Base) | 0.6390 | 0.5795 | 0.0514 |
| + AesEval-Train | 0.6987 (+5.97%) | 0.6065 (+2.70%) | 0.2105 (+17.17%) |
| - Reasoning Path | 0.6576 | 0.5795 | 0.1634 |
| - Positive Samples | 0.2072 | 0.2437 | 0.0012 |
关键发现¶
- 推理增强型 VLM 无优势:GPT-o1/o3 在美学判断和区域选择上并不优于 GPT-4o/GPT-5,说明通用推理能力无法直接迁移到设计美学领域
- 图像美学专家模型表现差:AesExpert 和 UNIAA-LLAVA 分数远低于通用 VLM,说明自然图像美学与设计美学有本质差异
- bbox 定位是硬骨头:最好的 GPT-5 在精确定位上 IoU 仅 0.1993,说明 VLM 距离精确理解设计元素空间位置还有很大差距
- indicator-grounded reasoning 是关键:去掉推理路径后精确定位 IoU 从 0.2105 降到 0.1634,去掉正样本后几乎归零,说明领域特定的锚定推理是提升的主要来源
- 微调 7B 可超 GPT-5:在精确定位任务上,微调后的 Qwen-VL-7B(IoU 0.2105)超过 GPT-5(0.1993),证明领域特定训练数据的价值
亮点与洞察¶
- 三级任务设计精巧:从判断→选择→定位逐级加难,像"考试"一样全面测试 VLM 的美学理解深度,这种 benchmark 设计思路可迁移到其他主观评估任务(如代码质量评估、写作质量评估)
- indicator-grounded reasoning 的通用性:将抽象概念锚定到具体空间区域的思路,不仅适用于美学评估,还可用于任何需要将高层概念与低层视觉特征关联的任务(如医学图像异常定位、建筑设计评审)
- 推理≠领域知识:推理增强型 VLM 在通用任务上很强,但在专业领域不一定有优势——这个发现对 VLM 应用选型很有指导意义
局限与展望¶
- 数据源单一:仅基于 Crello 数据集,主要是平面设计。UI设计、网页设计、包装设计等未覆盖
- 扰动方式有限:通过 JSON 层面施加扰动,未涉及更复杂的设计缺陷(如语义不匹配、文化不合适等)
- 评估指标简单:IoU 对于美学问题定位可能不是最优指标,因为美学问题区域的边界本身就是模糊的
- 缺少真实设计师反馈:训练数据中的推理路径来自 GPT 生成,缺少与专业设计师推理过程的对比验证
- 仅微调了一个模型:只在 Qwen-VL-7B 上验证了训练策略,未验证在更大模型上的效果
相关工作与启发¶
- vs AesBench/UNIAA-Bench(图像美学):它们针对自然照片,关注曝光、构图等因素。本文专注图形设计,新增字体、布局维度。设计美学专家模型在本文 benchmark 上表现差,验证了二者的差异
- vs DesignProbe/GPT-Eval Bench(设计美学):它们覆盖维度少且评估格式单一。AesEval-Bench 首次同时覆盖 4 维度 12 指标 + 3 种量化任务
- vs 通用 grounded reasoning(如 SoM):通用视觉推理锚定的是语义实体(车、人),本文锚定的是美学指标(层次感、对齐),抽象层级更高
评分¶
- 新颖性: ⭐⭐⭐⭐ 首个系统性设计美学 VLM benchmark + indicator-grounded reasoning 训练方法
- 实验充分度: ⭐⭐⭐⭐⭐ 10+ VLM 全面对比,消融实验充分,包含输入成分分析
- 写作质量: ⭐⭐⭐⭐⭐ 逻辑结构清晰,问题定义明确,对比表格丰富
- 价值: ⭐⭐⭐⭐ 为 VLM 在设计领域的应用奠定评估基础,训练策略有实用价值