Can Vision–Language Models Assess Graphic Design Aesthetics? A Benchmark, Evaluation, and Dataset Perspective¶

会议: ICLR2026
arXiv: 2603.01083
代码: https://github.com/arctanxarc/AesEval-Bench
领域: LLM评测
关键词: design aesthetics, VLM evaluation, benchmark, indicator-grounded reasoning, graphic design

一句话总结¶

提出 AesEval-Bench，首个系统性评估 VLM 图形设计美学评估能力的 benchmark（4维度×12指标×3任务），发现现有 VLM（含推理增强型）在设计美学上表现有限，并通过 human-guided VLM labeling + indicator-grounded reasoning 构建训练数据，微调 7B 模型在精确定位任务上超过 GPT-5。

研究背景与动机¶

领域现状：VLM 在图像描述、VQA 等任务上取得显著进展，但在图形设计美学评估（评价海报、广告、UI的视觉吸引力）方面几乎未被探索。

现有痛点：(a) 基准不完善——现有设计美学 benchmark 只覆盖少数维度（如忽略图形质量或字体），评估协议要么是粗粒度打分（无法定位问题区域）要么是开放式描述（难以量化）；(b) 缺乏系统对比——没有对开源/闭源/推理增强 VLM 的全面比较；(c) 训练数据匮乏——如何提升 VLM 在这个领域的表现尚未研究。

核心矛盾：设计美学是多维度、主观性强的任务（涉及排版、布局、配色、图形），现有 VLM 的通用推理能力不足以处理这种需要领域知识的细粒度评估。

本文目标 (a) 建立覆盖完整设计维度的量化 benchmark；(b) 系统评估各类 VLM 的能力边界；(c) 构建能有效提升 VLM 的训练数据。

切入角度：将设计美学分解为 4 维度（字体、布局、配色、图形）× 12 指标，设计 3 个任务（判断、区域选择、精确定位）从粗到细评估，再用"indicator-grounded reasoning"让 VLM 学会把抽象美学指标关联到具体设计区域。

核心 idea：建立首个系统性的设计美学 benchmark + 发现推理增强 VLM 无优势 + 用指标锚定推理训练数据大幅提升 VLM 美学评估能力。

方法详解¶

整体框架¶

工作包含三部分：(1) AesEval-Bench 基准构建——从 Crello 数据集采样专业设计，施加可控扰动生成缺陷设计，人工标注后构造 4500 个 QA 对；(2) 系统评估——在 10+ VLM 上测试 3 种任务；(3) AesEval-Train 训练集构建——用 human-guided VLM labeling 扩展标签，用 indicator-grounded reasoning 生成推理路径，微调 VLM。

关键设计¶

AesEval-Bench 基准设计:
- 功能：提供覆盖 4 维度 12 指标的量化设计美学评估基准
- 核心思路：4 维度为字体（legibility、hierarchy）、布局（balance、layering、whitespace、alignment）、配色（harmony、contrast、appeal、psychology）、图形（quality、relevance）。3 种任务递进：美学判断（yes/no）→ 区域选择（4选1）→ 精确定位（bbox 坐标）
- 设计动机：现有 benchmark 只覆盖部分维度且缺乏量化评估。三任务设计从全局感知到细粒度定位逐步加难，能全面测量 VLM 的美学理解深度
可控缺陷设计生成:
- 功能：从专业设计出发，通过可控扰动生成带缺陷的设计图
- 核心思路：利用 Crello 数据集的 JSON 元数据（包含元素坐标、字体、颜色），在 JSON 层面施加扰动（重新定位元素、更改字体、调整颜色等），再重新渲染为设计图。人工标注员判断扰动是否真的造成美学问题
- 设计动机：直接用有缺陷的设计难以控制缺陷类型和位置，从专业设计出发扰动既能保证真实感又能精确控制 ground truth
Human-guided VLM Labeling（训练集标签生成）:
- 功能：大规模生成训练标签，避免全量人工标注的高成本
- 核心思路：用少量人工标注作为 in-context examples，加上扰动区域的 bbox 坐标作为先验，指导强大 VLM（如 GPT）生成二分类标签（设计是否有美学问题）
- 设计动机：人工标注成本高、不可扩展。提供扰动区域坐标虽然在真实场景中不可用，但在标注阶段可以大幅提升标签可靠性
Indicator-grounded Reasoning（训练集推理路径生成）:
- 功能：生成将抽象美学指标锚定到具体设计区域的推理路径
- 核心思路：给 GPT 提供目标区域的 bbox 坐标和对应的设计图层，要求其输出包含坐标 + 指标相关性解释的推理路径。不同任务用不同策略：美学判断用扰动区域 bbox、区域选择同时提供扰动和非扰动区域、精确定位还强调与整体设计的关系
- 设计动机：发现通用推理（如 GPT-o1/o3）对美学评估无帮助，因为它们的推理是泛泛分析而非锚定具体区域。indicator-grounded reasoning 强制将抽象概念（如"层次感"）关联到设计中的具体 bbox，提供了有效监督信号

训练策略¶

基于 Qwen2.5-VL-7B-Instruct 做全参数微调，冻结视觉编码器只调语言模型参数。学习率 1e-6，cosine scheduler，3% warmup，bfloat16 + FlashAttention-2。训练数据 30k QA 对，输入为任务描述+设计图+JSON元数据，监督信号为推理路径+任务标签。

实验关键数据¶

主实验（VLM 基准评估）¶

模型	美学判断 Acc	区域选择 Acc	精确定位(choice) Acc	精确定位(bbox) IoU
GPT-5	0.7252	0.6989	0.6090	0.1993
GPT-4o	0.7031	0.6745	0.5680	0.1712
GPT-o3	0.7105	0.6581	0.5800	0.1418
GPT-o1	0.6705	0.6347	0.5295	0.1286
Gemini-2.5-Pro	0.6368	0.6100	0.6047	0.0977
Qwen-VL-72B	0.6724	0.6626	-	-
InternVL3-14B	0.6883	0.6378	-	-
AesExpert-7B	0.4056	0.2883	0.3377	0.0327

消融实验（微调效果）¶

配置	美学判断 Acc	区域选择 Acc	精确定位(bbox) IoU
Qwen-VL-7B (Base)	0.6390	0.5795	0.0514
+ AesEval-Train	0.6987 (+5.97%)	0.6065 (+2.70%)	0.2105 (+17.17%)
- Reasoning Path	0.6576	0.5795	0.1634
- Positive Samples	0.2072	0.2437	0.0012

关键发现¶

推理增强型 VLM 无优势：GPT-o1/o3 在美学判断和区域选择上并不优于 GPT-4o/GPT-5，说明通用推理能力无法直接迁移到设计美学领域
图像美学专家模型表现差：AesExpert 和 UNIAA-LLAVA 分数远低于通用 VLM，说明自然图像美学与设计美学有本质差异
bbox 定位是硬骨头：最好的 GPT-5 在精确定位上 IoU 仅 0.1993，说明 VLM 距离精确理解设计元素空间位置还有很大差距
indicator-grounded reasoning 是关键：去掉推理路径后精确定位 IoU 从 0.2105 降到 0.1634，去掉正样本后几乎归零，说明领域特定的锚定推理是提升的主要来源
微调 7B 可超 GPT-5：在精确定位任务上，微调后的 Qwen-VL-7B（IoU 0.2105）超过 GPT-5（0.1993），证明领域特定训练数据的价值

亮点与洞察¶

三级任务设计精巧：从判断→选择→定位逐级加难，像"考试"一样全面测试 VLM 的美学理解深度，这种 benchmark 设计思路可迁移到其他主观评估任务（如代码质量评估、写作质量评估）
indicator-grounded reasoning 的通用性：将抽象概念锚定到具体空间区域的思路，不仅适用于美学评估，还可用于任何需要将高层概念与低层视觉特征关联的任务（如医学图像异常定位、建筑设计评审）
推理≠领域知识：推理增强型 VLM 在通用任务上很强，但在专业领域不一定有优势——这个发现对 VLM 应用选型很有指导意义

局限与展望¶

数据源单一：仅基于 Crello 数据集，主要是平面设计。UI设计、网页设计、包装设计等未覆盖
扰动方式有限：通过 JSON 层面施加扰动，未涉及更复杂的设计缺陷（如语义不匹配、文化不合适等）
评估指标简单：IoU 对于美学问题定位可能不是最优指标，因为美学问题区域的边界本身就是模糊的
缺少真实设计师反馈：训练数据中的推理路径来自 GPT 生成，缺少与专业设计师推理过程的对比验证
仅微调了一个模型：只在 Qwen-VL-7B 上验证了训练策略，未验证在更大模型上的效果

评分¶

新颖性: ⭐⭐⭐⭐ 首个系统性设计美学 VLM benchmark + indicator-grounded reasoning 训练方法
实验充分度: ⭐⭐⭐⭐⭐ 10+ VLM 全面对比，消融实验充分，包含输入成分分析
写作质量: ⭐⭐⭐⭐⭐ 逻辑结构清晰，问题定义明确，对比表格丰富
价值: ⭐⭐⭐⭐ 为 VLM 在设计领域的应用奠定评估基础，训练策略有实用价值