PosterIQ: A Design Perspective Benchmark for Poster Understanding and Generation¶

会议: CVPR 2026
arXiv: 2603.24078
代码: https://github.com/ArtmeScienceLab/PosterIQ-Benchmark
领域: 多模态VLM / 图像生成
关键词: 海报设计, 多模态基准, 视觉理解, 图像生成, 排版设计

一句话总结¶

本文提出 PosterIQ，一个面向海报设计的综合基准，包含 7,765 条理解标注和 822 条生成提示，覆盖 OCR、字体感知、布局推理、设计意图理解和组合感知生成等 24 类任务，系统评估了 MLLM 和扩散模型在设计认知方面的差距。

研究背景与动机¶

领域现状：多模态大语言模型（MLLM）在视觉理解方面取得了长足进步，图像生成模型在文本到图像、风格控制等方面也日趋成熟。现有基准（如 MMBench、Creation-MMBench）已开始评估多模态创意能力，但主要以文本为中心或侧重美学质量。

现有痛点：海报是一种高度约束的视觉传达媒介，需要在有限空间内整合主题解读、信息层级、排版规则、文图耦合、风格一致性和受众偏好等多个维度。现有评估体系缺乏对这些设计维度的系统覆盖——OCR 基准不考虑设计上下文中的排版语义，图像生成评估不关注构图约束和设计意图传达。

核心矛盾：有效的海报设计不只是"好看"，而是"有效传达"——关键信息必须被感知、理解和记忆。当前模型可以生成视觉上吸引人的图像，但在信息层次组织、排版语义、构图约束下的创意表达方面存在系统性短板。

本文目标 建立一个涵盖理解和生成的海报设计基准，从设计理论角度（而非纯美学角度）评估模型的创意能力和设计认知。

切入角度：将海报设计分解为五个能力维度——文本理解/可读性、布局推理/层级组织、语义-风格一致性、文图协调/显著性控制、修辞建模/隐喻生成——每个维度设计专门的评估任务。

核心 idea：通过解耦的、任务特定的评估维度替代整体打分，系统地诊断模型在设计认知各方面的能力和短板。

方法详解¶

整体框架¶

PosterIQ 分为理解和生成两大模块。理解模块包含全局质量评估和四大类任务族：OCR 任务（5 个子任务, 3,005 项）、字体感知任务（4 个子任务, 2,788 项）、空间推理任务（6 个子任务, 1,178 项）、高级视觉设计理解（3 个子任务, 575 项）和评分任务（219 项）。生成模块包含 5 类任务（822 个提示）：密集生成、字体生成、风格生成、构图生成和意图生成。

关键设计¶

多层级 OCR 评估:
- 功能：从简单到困难，系统评估模型的视觉文本识别能力
- 核心思路：设计 5 个子任务形成难度梯度——Logo OCR（高度风格化/变形的标志文字）、真实海报 OCR（多字体/多尺度/密集布局）、简单 OCR（白底标准文字，测上界）、困难 OCR（无序字母+纹理背景+旋转+随机颜色）、多尺寸 OCR（14 种字号测试尺度稳定性）。使用简单-困难之间的性能差 \(\Delta\) 衡量鲁棒性
- 设计动机：海报中的文字高度风格化且与图形交织，简单的场景文字识别无法反映设计场景中的真实 OCR 挑战
字体理解与空间推理:
- 功能：评估模型对排版语义和布局结构的感知能力
- 核心思路：字体匹配（无字体名先验，仅靠视觉风格判断）、字体属性感知（37 个人类定义属性的一致性）、传统/高级字体效果识别。空间推理涵盖文本定位（归一化坐标bbox）、对齐/旋转推断、空白区域感知（7×7 网格 IoU）、布局对比（专业 vs 违反设计原则的布局选择）、布局生成（给定文本规格生成 bbox）
- 设计动机：排版和布局是海报设计的核心——字体传达情感和主题，布局决定信息层级。这些是设计素养的基础能力
高级设计理解与意图传达:
- 功能：评估模型对风格、构图技法和视觉隐喻的高层理解
- 核心思路：风格分类（17 种设计风格如极简、Memphis、弥散光等）、构图结构理解（错位、嵌套、裁切、重复、镜像等操作的描述）、意图与隐喻解读（如堆叠手机→汉堡、玩具士兵→和平鸽的视觉隐喻解析）。使用 LLM 对生成描述与人工标注关键概念的覆盖度打分
- 设计动机：高级设计不仅关乎视觉呈现，更关乎意义传达。隐喻和修辞是设计创意的核心表现形式

损失函数 / 训练策略¶

PosterIQ 是评估基准而非训练方法，不涉及训练。在生成评估中使用 MLLM 作为自动评审，验证生成结果是否包含目标元素。

实验关键数据¶

理解任务主实验¶

模型	Logo OCR	Poster OCR	Simple→Hard Δ↓	字体匹配	风格理解	构图理解	意图理解
GPT-5	0.952	0.922	0.469	0.668	0.851	0.730	0.824
Claude-4.5	0.902	0.884	0.372	0.699	0.813	0.608	0.761
Gemini-2.5-Pro	0.923	0.952	0.525	0.362	0.830	0.802	0.788
Qwen3-VL-8B	0.882	0.931	0.156	0.063	0.610	0.684	0.710
MiniCPM-V-4.5	0.883	0.932	0.468	-0.001	0.631	0.635	0.691

生成任务对比¶

模型	密集生成	字体多样性	风格生成	构图生成	意图生成	平均
Seedream-4.0	0.618	0.342	0.591	0.848	0.645	0.609
Gemini-2.5-Flash	0.622	0.391	0.590	0.866	0.663	0.626
GPT-Image-1	0.508	0.299	0.633	0.856	0.670	0.593
Qwen-Image	0.464	0.286	0.620	0.801	0.589	0.552

关键发现¶

OCR 鲁棒性差异显著：Qwen3-VL-8B 的简单→困难 OCR 差距最小（Δ=0.156），说明其对视觉干扰更鲁棒。但在字体匹配上几乎随机（0.063），说明细粒度排版感知能力极弱
闭源与开源的系统差距：在高级设计理解（风格/构图/意图）上，GPT-5 和 Gemini-2.5-Pro 一致领先开源模型。Gemini 在构图理解（0.802）上最强，GPT-5 在意图解读（0.824）上最强
字体感知是全面短板：字体匹配任务中，除 GPT-5 和 Claude-4.5 外的模型接近随机水平（甚至负分），说明当前 MLLM 严重缺乏排版风格的细粒度识别能力
生成端字体多样性是瓶颈：所有模型的字体生成丰富度分数均 <0.4（最好的 Gemini 仅 0.391），而构图生成可达 0.866，说明字体控制是生成模型最薄弱的环节
全局-局部权衡：擅长构图和意图的模型（全局规划）通常在风格和字体（局部精度）上表现一般，反映了训练中全局规划与局部精度的 trade-off

亮点与洞察¶

设计理论驱动的基准构建思路是本文最大亮点。与纯技术导向的基准不同，PosterIQ 从设计原理出发定义能力维度，每个任务都有明确的设计理论支撑。这种"学科+AI"的评估方式可以推广到其他创意领域（如 UI 设计、插画等）
解耦评估替代整体打分的策略很有价值。实验表明模型的整体评分与人类判断相关性很低（最高 sim=0.483），但在具体子任务上可以得到有意义的诊断信息。这对创意任务的评估方法论有指导意义
VLM→T2I 迭代循环的实验展示了理解能力如何直接提升生成质量——VLM分析设计问题→修改提示→重新生成→质量提升，这是一个实用的设计辅助范式

局限与展望¶

使用 MLLM 作为生成质量的自动评审，但实验已表明 MLLM 在设计评分上"不敏感"（无法有效区分好坏设计），存在评估闭环问题
数据集规模相对有限（7,765 理解标注），且主要针对英文海报，中文/日文等复杂排版系统覆盖不足
缺少细粒度的用户研究验证——基准任务的设计是否真正反映了设计师关心的能力维度？
构图生成评估中使用较粗粒度的关键概念匹配，难以捕捉空间关系等细微的设计差异

评分¶

新颖性: ⭐⭐⭐⭐ 首次从设计理论角度构建 MLLM 评估基准，任务定义有深度
实验充分度: ⭐⭐⭐⭐⭐ 8 个理解模型 + 4 个生成模型，24 类任务全面覆盖，分析详尽
写作质量: ⭐⭐⭐⭐ 任务定义清晰，分析有深度，但论文结构略复杂、信息密度极高
价值: ⭐⭐⭐⭐ 为评估 MLLM 的设计认知能力提供了系统框架，揭示了排版感知等关键短板