GRAB: A Challenging GRaph Analysis Benchmark for Large Multimodal Models¶
会议: ICCV 2025
arXiv: 2408.11817
代码: https://grab-benchmark.github.io
领域: 多模态VLM
关键词: 图表分析, benchmark, 大型多模态模型, 合成数据, 视觉推理
一句话总结¶
GRAB 是一个面向大型多模态模型(LMM)的图表分析基准测试,包含 3284 道合成题目覆盖 5 个任务和 23 个图形属性,当前最强模型 Claude 3.5 Sonnet 仅达到 21.0% 的准确率,揭示了 LMM 在视觉分析推理方面的严重不足。
研究背景与动机¶
领域现状与痛点¶
大型多模态模型(LMM)的能力正在飞速提升,但现有基准测试正快速饱和。GPT-4o 在 MGSM、HumanEval、MMLU 等主流基准上得分已超 88-90%,意味着这些测试已难以区分模型之间的能力差距。与此同时,现有基准中标签错误据报道十分普遍,进一步压缩了可用的评估空间。
图表分析是核心应用场景:科学和数学图表的解读是很多分析工作的基础。在很多场景中,底层数据不可获取(如文档中的图、手绘草图),只能通过视觉解读来推断数值。这对 LMM 的精确视觉推理能力提出了很高要求。
现有图表基准的不足: - 已有基准(如 ChartQA、MathVista)难度不够,GPT-4o 在 MathVista 上已超 60% - 很多题目侧重于 OCR 类简单任务(读图例、轴标签),未考验真正的分析推理能力 - 标注质量参差不齐,人工标注引入噪声
核心矛盾与切入角度¶
作者认为,下一代基准需要具备三个关键属性:足够的难度(当前最强模型仍有大量上升空间)、无噪声的高质量标注、以及抵抗数据污染的能力。合成数据是满足这些要求的最佳途径——它可以精确控制题目难度、自动生成无噪声答案、且不太可能出现在预训练数据中。
基于这一思路,作者设计了 GRAB,一个以合成图表为主、覆盖广泛图表分析能力的挑战性基准。
方法详解¶
整体框架¶
GRAB 由 3284 道题目组成,覆盖 5 个核心任务和 23 个图形属性。所有合成图表均使用 Matplotlib 和 Seaborn 库生成。数据集还包含一个 500 题的轻量版 GRAB-Lite 便于快速评估。
关键设计¶
1. 图形属性分类体系(23 个属性,9 大类)¶
- 截距与梯度:x 截距、y 截距、梯度
- 驻点:驻点坐标
- 三角函数:振幅、垂直偏移、周期
- 函数方程:函数表达式识别
- 计数:点数、序列数
- 相关性:Pearson、Spearman、Kendall 相关系数
- 有界面积:总有界面积、净有界面积
- 离散度指标:均值、中位数、四分位距、方差
- 范围与极值:最大/最小值、域长度、值域
设计动机:覆盖分析师在解读图表时可能执行的大部分典型任务,刻意排除简单的 OCR 类问题(读标题/图例)以聚焦于视觉分析推理。
2. 五大任务划分¶
- Properties(660 题):单函数/序列的属性推导,作为基础任务
- Functions(710 题):多达 10 条函数的属性均值计算,函数重叠增加难度
- Series(490 题):多达 10 个数据序列的属性均值计算,数据噪声增加难度
- Transforms(310 题):对单函数施加最多 10 次变换(旋转、平移、缩放、反射)后求属性
- Real(1114 题):增加真实场景元素——手绘白板图、纸上草图、截图嵌入(邮件/PPT/视频会议)、添加噪声(模糊/翻转/伪影)
设计动机:从简单到复杂渐进式评估,Real 任务测试模型面对真实场景退化的鲁棒性。
3. 数据生成与质量控制¶
- 生成流程:为每个图形属性初始生成 250 道候选题,然后下采样保证答案均匀分布,避免答案集中在 0 附近的偏差
- 精度设计:约 75% 的题目要求整数精度答案,~25% 要求 1 位小数精度以增加难度
- 图表美学:Properties 任务随机采样图表外观参数,其他任务统一外观以控制变量
- 质量控制:经过多轮人工审查,确保题目可回答、答案正确、图表清晰可读
4. 评估协议¶
- 严格精确匹配:不做宽松后处理,输出必须与标准答案完全一致
- 联合评估任务能力和指令遵循能力:冗余回答(如"The answer is...")会被判错
- 设计动机:如果模型能推理但不能精确输出,在实际应用中同样无用
损失函数 / 训练策略¶
GRAB 是评估基准,不涉及模型训练。
实验关键数据¶
主实验¶
| 模型 | Properties | Functions | Series | Transforms | Real | 总分 |
|---|---|---|---|---|---|---|
| Claude 3.5 Sonnet | 41.8 | 15.5 | 11.0 | 10.0 | 19.6 | 21.0 |
| Gemini 1.5 Pro | 34.2 | 11.4 | 13.3 | 6.5 | 20.3 | 18.8 |
| Gemini 1.5 Flash | 28.5 | 11.5 | 8.4 | 9.0 | 17.1 | 16.1 |
| GPT-4o | 24.7 | 10.8 | 9.2 | 3.5 | 17.3 | 14.9 |
| GPT-4 Turbo | 18.5 | 8.5 | 4.9 | 3.5 | 7.5 | 9.2 |
| LLaVA-1.5 13b | 5.0 | 7.7 | 8.4 | 3.9 | 8.9 | 7.3 |
| CogVLM-Chat | 7.0 | 4.9 | 5.1 | 3.9 | 10.5 | 7.2 |
所有 20 个被评估的 LMM 表现都极差,最强的 Claude 3.5 Sonnet 仅 21.0%,大多数开源模型表现接近随机水平。
消融实验(任务难度分析)¶
| Real 子集 | Whiteboard | Paper | Screenshots | Noise | 总分 |
|---|---|---|---|---|---|
| Claude 3.5 Sonnet | 14.6 | 17.0 | 18.6 | 21.1 | 19.6 |
| GPT-4o | 29.3 | 9.8 | 18.0 | 16.3 | 17.3 |
| Gemini 1.5 Pro | 34.4 | 24.4 | 21.9 | 17.2 | 20.3 |
| Gemini 2.5 Flash | 36.6 | 22.0 | 29.5 | 29.3 | 29.4 |
| 类别 | Claude 3.5 Sonnet | GPT-4o | Gemini 1.5 Pro | 说明 |
|---|---|---|---|---|
| Counting | 30.0 | 30.0 | 33.3 | 最简单的类别 |
| Intercepts & Gradients | 25.5 | 14.1 | 17.9 | 中等难度 |
| Correlation | 9.2 | 15.8 | 26.7 | 难度较高 |
| Area Bounded | 2.7 | 2.0 | 4.7 | 几乎全败 |
| Functions | 0.0 | 0.0 | 0.0 | 所有模型得分为0 |
关键发现¶
- Transforms 任务最难:所有模型在此任务上表现最差,说明 LMM 难以进行多步视觉变换推理
- Functions 类别全军覆没:没有任何模型在函数方程识别类别上得到非零分数
- Area Bounded 类别极难:需要复杂的积分估计,所有模型接近零分
- 闭源模型全面优于开源模型:除 Reka Core 外,所有闭源模型都优于最好的开源模型
- Real 任务表现与其他任务相当:说明噪声/干扰对性能影响不大,核心瓶颈是推理能力而非图像质量
- 指令遵循能力是得分因素之一:部分模型虽然计算正确但因输出格式不符被判错
- Gemini 代际进步显著:从 1.5 Flash 到 2.0 Flash 到 2.5 Flash,性能持续提升
亮点与洞察¶
- 前瞻性设计:为下一代模型预留了大量提升空间,当前模型仅达 21%,5年内可能仍有价值
- 合成数据的方法论贡献:展示了如何通过合成数据构建高质量、可控、抗污染的基准
- 精确匹配评估的哲学:指令遵循能力与推理能力同等重要的评估理念值得借鉴
- 全面揭示 LMM 短板:图表分析这一看似简单的任务,竟然是当前最强模型的巨大盲区
局限与展望¶
- 合成数据可能与真实世界图表存在分布差异(Matplotlib 风格很固定)
- 严格精确匹配可能低估了某些模型的真实推理能力
- 未考虑 chain-of-thought 提示等高级推理策略的效果
- Real 任务中手绘图数量有限(仅 41 张白板 + 41 张纸),代表性不足
- 未纳入更新的模型(如 GPT-4.5、Claude 4 等)
- 缺乏对模型失败模式的系统分类分析
相关工作与启发¶
- MathVista:覆盖更广泛的数学推理,但难度不够(GPT-4o 超 60%),GRAB 聚焦图表分析且难度更高
- ChartQA、PlotQA:已有图表理解基准,但已接近饱和
- FigureQA:二分类图表理解任务,难度太低
- 对 LMM 社区的启示:精确数值推理是比 VQA 更难的挑战,需要专门的能力提升
评分¶
- 新颖性: ⭐⭐⭐⭐ — 基准本身设计精良,但"构建高难度基准"不算全新思路
- 实验充分度: ⭐⭐⭐⭐⭐ — 20个模型、详细的类别分析和消融
- 写作质量: ⭐⭐⭐⭐⭐ — 结构清晰,图表丰富,论述严谨
- 价值: ⭐⭐⭐⭐ — 对理解和推动 LMM 发展有重要参考价值