GenExam: A Multidisciplinary Text-to-Image Exam¶
会议: ICML 2026
arXiv: 2509.14232
代码: https://github.com/OpenGVLab/GenExam (有)
领域: 多模态 VLM / 评测基准 / 文本到图像生成
关键词: 多学科考试, 文本到图像评测, 评分点, MLLM-as-judge, GPT-Image-1.5
一句话总结¶
GenExam 把"画图考试"作为衡量 T2I 模型推理-理解-生成综合能力的金标准,给 10 个学科、1000 道题各配上 ground-truth 图 + 细粒度评分点,结果连最强闭源模型 Nano Banana Pro 也只有 70.2% strict 分,多数开源 T2I/统一 MLLM 不到 3%。
研究背景与动机¶
领域现状:多学科推理已有 MMLU、MMMU、Humanity's Last Exam 等评测,但都是"看懂题目"的理解任务;T2I 端的多学科基准(MMMG、OneIG-Bench、SridBench)以"概念插图"为主,评测准则宽松,类似"用图像说明一个概念"而非"完成一道画图考题"。
现有痛点:现有 T2I 评测 (i) prompt 简短宽泛,(ii) 没有参考图也没有评分细则,(iii) 知识面浅且无层次化分类,(iv) 评测端要么靠 CLIP/VQA score(抓不到学科正确性)要么用 MLLM-as-judge 给一句话指令(漏掉大量细节)。导致"画对了几根化学键"、"圆和切线的位置关系"这类硬错误根本评不出来。
核心矛盾:多学科图像的关键不是真实感或美学,而是语义正确性——一个原子画错、一个箭头反向,整张图就废了;但通用图像评测指标无法捕捉这种细粒度对错。
本文目标:(1) 构造一个像 AP / A-level / IB 画图题那样有标准答案、评分细则、知识分类的 T2I benchmark;(2) 设计一套能可靠判定语义正确性 + 视觉合理性的自动评测协议;(3) 用它系统暴露当前 T2I / 统一 MLLM 在学科生成能力上的真实差距。
切入角度:把考试评分逻辑搬到 T2I 评测——每道题不仅有 prompt 和参考图,还有人工 + GPT-5 共同制定的"评分点"列表(如"分子是否恰好含 8 个 C 原子?"),用 MLLM 把每个评分点当 VQA 来答 Yes/No,最后按分数加权汇总。
核心 idea:像批改画图考卷一样评测 T2I 模型——每张图先按 customized scoring points 算"语义正确率",再按 spelling / readability / logical consistency 三个 0-2 分项算"视觉合理性",最终给出 strict 与 relaxed 双分数。
方法详解¶
整体框架¶
GenExam 包含三大组件:(1) 1000 题的题库,覆盖数学/物理/化学/生物/计算机/地理/经济/音乐/历史/工程 10 个一级学科,按 ISCED-F 织出 10/40/132/236 的四层分类;(2) 每题配 ground-truth 图 + 3-14 个评分点(平均 6.9 个,权重和为 1)+ 平均 74.8 词的 exam-style prompt;(3) 双维度评测协议——semantic correctness(0-1)+ visual plausibility(spelling/logic/readability 各 0-2),汇出 strict 与 relaxed 两个最终分。
关键设计¶
-
Scoring Points 评分细则:
- 功能:把模糊的"图像是否正确"问题降维成一组确定的 VQA 判定题。
- 核心思路:每题由 GPT-5 起草 3-14 个 yes/no 评分点(例如"分子是否含恰好 8 个碳?"),人工审核细化;评测时让 MLLM judge 看着生成图 + 参考图,逐点回答 Yes/No,semantic correctness \(= \sum_i s_i \cdot \mathbb{1}[\text{answer}_i=\text{Yes}]\),所有分数总和为 1。
- 设计动机:单条 MLLM 指令评测会漏掉细节(如化学键数量、几何位置关系、乐谱音符);把每个关键约束显式拆出来才能稳定捕捉学科级错误。
-
双分数评测协议(Strict + Relaxed):
- 功能:用两套尺度同时刻画"完全正确率"和"接近正确程度",避免一刀切。
- 核心思路:strict 分 = 完全满足所有评分点 + spelling/logic/readability 均为 2 的图像比例(一张图错一点就算 0);relaxed 分 = \(0.7\cdot\text{semantic}+0.1\cdot\text{spell}+0.1\cdot\text{logic}+0.1\cdot\text{read}\)(权重由人类偏好对齐确定)。strict 凸显"几乎没人能完美交卷"的难度,relaxed 区分大量低分模型之间的差异。
- 设计动机:纯 strict 会让大部分模型并列 0% 失去信息量;纯加权平均又掩盖了"差一点就全错"的学科特性,所以两者并行汇报。
-
数据策展流水线:
- 功能:保证题目难度、学科覆盖与评分点质量。
- 核心思路:先按四层分类生成关键词→网图抓取 + 已有 MLLM 数据集筛选→GPT-5 按文本丰富度/学科密度/复杂度打分过滤→GPT-5 起草 prompt 和 scoring points→PhD 标注员人工审核与修订;最终 1000 题里 hard 占 38%、medium 38%、easy 24%,每题 prompt 长 24-173 词。
- 设计动机:网图质量参差不齐,纯人工成本高,纯 GPT-5 又会"凑数";GPT-5 + 人工双层审核兼顾规模和严谨。
损失函数 / 训练策略¶
本文是评测 benchmark,无训练;唯一可调的是评测端 MLLM judge(默认 GPT-5,reasoning effort 设为 low;附录验证 Gemini-3-Flash 等替代品仍与人类高度一致)。
实验关键数据¶
主实验¶
在 17 个模型上测 strict / relaxed 双分数(节选):
| 模型 | 类型 | Strict ↑ | Relaxed ↑ |
|---|---|---|---|
| Nano Banana Pro | 闭源 | 70.2 | 93.0 |
| GPT-Image-1.5 | 闭源 | 42.5 | 81.5 |
| GPT-Image-1 | 闭源 | 13.1 | 62.2 |
| Seedream 4.5 | 闭源 | 12.3 | 59.5 |
| FLUX.2 max | 闭源 | 8.6 | 61.6 |
| FLUX.2 dev | 开源 T2I | 2.4 | 42.3 |
| Qwen-Image-2512 | 开源 T2I | 1.5 | 35.3 |
| BAGEL (thinking) | 开源统一 MLLM | 0.0 | 12.9 |
| Janus-Pro | 开源统一 MLLM | 0.0 | 9.5 |
最强闭源模型也未及格,多数开源 T2I 几乎全军覆没;开源统一 MLLM 全为 0 strict,比专门 T2I 还差。
消融实验¶
| 评测器 | 与人类 Kendall \(\tau\) | Pearson \(r\) |
|---|---|---|
| Relaxed by GPT-5 | 0.675 | 0.844 |
| Relaxed by Gemini-3-Flash | 0.661 | 0.826 |
| 仅 Semantic Correctness | 0.633 | 0.806 |
| VQA Score | 0.145 | 0.179 |
| CLIP Score | 0.116 | 0.165 |
各维度 MAE:semantic 0.10、spelling 0.11、readability 0.20、logic 0.28,均很低,说明评测稳定。
关键发现¶
- 统一 MLLM 反而比专门 T2I 差:BAGEL、Show-o2 等开源统一模型 strict 全 0,relaxed 也低于 FLUX.2 dev / Qwen-Image-2512,说明"用同一模型理解 + 生成"对学科图像还远未跑通。
- bottleneck 不在知识,而在视觉执行:FLUX.2 dev 在历史题里能正确指出埃及/伊朗/印度/中国的地理位置,却画不出对应的图形元素 —— 模型缺的是"把知识翻译成可读图像"的能力。
- CLIP / VQA score 完全失效:与人类的相关性接近 0.1,说明传统 T2I 评测指标根本抓不到学科正确性。
- 开源应先攻基本功:开源模型在 spelling 和 logic consistency 上掉得最猛,提示先把文字渲染、坐标对齐这种基本功补齐,再谈推理。
亮点与洞察¶
- 把"评分细则"显式化是 LLM/T2I 评测可推广的范式:把笼统的"对/错"拆成结构化 yes/no 列表后,MLLM judge 的 MAE 立刻可控、相关系数远超传统指标。这套思路也适用于 chart QA、code generation、数学解答评测等子任务。
- strict + relaxed 双指标设计巧妙:一个突出难度天花板(拉开顶尖闭源差距),一个揭示底层差异(区分多数 0 分模型),既不会被"全部满分"或"全部 0 分"压扁。
- "考试视角"重新框定了 T2I 评测目标:以往评 T2I 关心 fidelity / aesthetic / alignment,这里转向"正确性 + 可读性",更贴近 AGI 路线上对"专家级智能"的检验。
- 数据策展协议可复用:GPT-5 起草 + 人工细化的双层 pipeline 在很多需要 scoring criteria 的 benchmark 上都能照搬。
局限与展望¶
- 1000 题对覆盖 10 个学科 + 4 层分类来说仍偏少,部分子领域(如音乐)样本只够几十张,统计稳定性受限。
- 依赖 GPT-5 / Gemini-3-Flash 这类前沿闭源 MLLM 做 judge,长期可复现性和成本是隐患;附录测了开源 judge,但与人类相关系数有所下降。
- 评分点权重平均分配且总和为 1,没有体现"主结构 vs 细节"的层次重要度。
- 题目集中在"画图考试",对动画、视频、3D 等学科可视化任务尚未覆盖。
相关工作与启发¶
- vs MMMU / MMLU / Humanity's Last Exam: 都是多学科考试,但都只评 understanding;GenExam 把同样严肃的考试规模带到了 generation 端。
- vs MMMG / OneIG-Bench / SridBench: 同为学科图像生成评测,但前者强调"概念插图"宽松;GenExam 的 prompt 更长、约束更硬、评分更细。
- vs RISEBench / WiScore: 借鉴了 strict 二值评分和人类对齐的加权方式,但首次把"customized scoring points"扩展到学科级评测。
- 可迁移启发:把"VQA-style 评分点"做成模型评测的通用接口,对多模态推理、agent benchmark、代码生成评测同样适用;同时也提示统一 MLLM 研究者:当前 unified 架构在学科生成上的劣势提醒"理解 + 生成共用 backbone"的设计仍需重新打磨。
评分¶
- 新颖性: ⭐⭐⭐⭐ 首个学科级 T2I 考试 benchmark,scoring-points 协议是显著创新。
- 实验充分度: ⭐⭐⭐⭐⭐ 17 个模型 × 10 学科 × 双指标 + 5 位人类标注 250 题对齐 + 多 evaluator 鲁棒性,覆盖广。
- 写作质量: ⭐⭐⭐⭐ 图表清晰、协议讲得很透;附录细节稍多,主文需要回头查 token 不太友好。
- 价值: ⭐⭐⭐⭐⭐ 给 T2I 社区第一次给出了"考试级"评测,长期会成为统一 MLLM 学科能力的标尺。