ChartMuseum: 测试大型视觉语言模型的图表视觉推理能力¶

会议: NeurIPS 2025
arXiv: 2505.13444
代码: https://chartmuseum-leaderboard.github.io
领域: 多模态VLM
关键词: 图表理解, 视觉推理, 基准测试, VLM评估, 图表问答

一句话总结¶

提出ChartMuseum图表问答基准，包含1162个专家标注问题和184个来源的真实图表，首次系统区分视觉推理与文本推理能力，揭示当前最强模型Gemini-2.5-Pro仅63.0%而人类达93%，视觉推理性能比文本推理低35%-55%。

现有图表QA基准过度依赖文本推理: 在ChartQA上仅用提取的文本信息（不看图），Claude-3.7-Sonnet就能达到74.1%准确率（看图87.4%），说明大部分问题不需要真正的视觉推理
- 而在ChartMuseum上，同样的纯文本方式只有15.2%（看图61.3%），差距达46%，说明ChartMuseum真正考察了视觉推理
前沿模型在已有基准上趋于饱和: ChartQA上模型准确率集中在85%-90%之间，难以区分模型能力差异
视觉推理与文本推理的区分被忽视: 图表理解涉及两类推理——直接从图形关系中推断（视觉推理）vs. 从提取的文本/数值中推断（文本推理），但现有工作未明确区分
合成数据案例研究揭示问题: 作者用不含任何文字标注的合成图表测试，随着视觉复杂度（overlay/subplot数量n）增加，模型性能显著下降，而人类表现稳定

ChartMuseum是一个图表问答（Chart QA）基准数据集，由13名计算机科学研究者手工标注，包含1162个 (图像, 问题, 简短答案) 元组，图像来自928张独特的真实世界图表、184个不同网站来源。数据集划分为dev/test = 162/1000。

视觉推理vs文本推理区分: 将图表理解中的推理明确分为两类：
- 视觉推理: 从图形关系中进行推断，用自然语言表达困难（如散点图中判断两变量的相关性）
- 视觉提取: 视觉推理的子类，通过视觉解读获取数值（如通过对比y轴刻度估计柱子的值）
- 文本推理: 对已提取信息进行逻辑/算术/比较运算，或直接从图表中读取文本标注
- 这一区分表明现有基准严重偏向文本推理
四类问题分类体系:
- Textual Reasoning (123题): 几乎完全靠文本推理即可解答
- Visual Reasoning (510题): 主要需要视觉推理，占比最大
- Text/Visual Reasoning (234题): 文本或视觉推理均可解答
- Synthesis Reasoning (133题): 同时需要文本和视觉推理
多阶段质量审核流程:
- 第一阶段：选取高质量图表
- 第二阶段：手工创建问答对（不使用LLM辅助、不使用模板）
- 第三阶段：独立审核者验证答案正确性
- 第四阶段：与标注者讨论迭代优化
- 每个样本平均耗时20分钟（标注10min + 审核5min + 迭代5min），总计约400小时
- 标注规则：答案空间≥4选项、答案客观无歧义、排除why/how/描述性/复合问题

本文为基准测试论文，不涉及模型训练。评估使用LLM-as-a-Judge（GPT-4.1-mini）判断答案等价性，所有问题都有唯一确定答案，不使用容忍误差的近似匹配。

模型	Visual (510)	Synthesis (133)	Visual/Text (234)	Text (123)	Overall (1000)
开源小模型
InternVL3-2B	12.2	13.5	18.4	30.1	16.0
Qwen2.5-VL-3B	16.7	21.1	26.5	28.5	21.0
开源中型模型
Qwen2.5-VL-7B	19.4	24.8	36.3	41.5	26.8
InternVL3-8B	23.5	24.8	32.9	42.3	28.2
Bespoke-MiniChart-7B	26.3	32.3	41.0	54.5	34.0
开源大模型
Qwen2.5-VL-32B	29.0	36.1	46.2	62.6	38.1
Pixtral-Large-124B	31.6	36.1	40.6	65.9	38.5
Qwen2.5-VL-72B	30.4	35.3	42.3	68.3	38.5
闭源模型
Gemini-1.5-Flash	22.7	30.8	36.3	56.1	31.1
GPT-4o	31.8	45.1	50.9	65.9	42.2
GPT-4.1	37.1	53.4	54.3	78.9	48.4
Claude-3.5-Sonnet	45.7	53.4	61.5	78.0	54.4
Claude-3.7-Sonnet	50.6	55.6	69.2	88.6	60.3
推理模型
o3 (high)	50.4	63.2	69.7	85.4	60.9
o4-mini (high)	51.2	66.2	68.4	86.2	61.5
Claude-3.7-Sonnet (think)	52.5	56.4	71.8	86.2	61.7
Gemini-2.5-Pro	53.3	64.7	70.1	87.8	63.0
人类	98.2	—	—	—	93.0

现有基准对比（文本提取实验）:

数据集	仅文本提取	使用图像
ChartQA	74.1%	87.4%
ChartMuseum	15.2%	61.3%

ChartMuseum的文本提取vs图像差距达46%，远大于ChartQA的13%，证明ChartMuseum真正测试了视觉推理能力。

视觉任务分类错误分析 (各采样50个错误实例):

闭源vs开源差距巨大: 最佳开源模型Qwen2.5-VL-72B (38.5%) 与最佳闭源模型Gemini-2.5-Pro (63.0%) 差距达24.5%
视觉推理远弱于文本推理: 所有模型在Visual列的表现比Text列低35%-55%，如GPT-4.1在Text上78.9%但Visual仅37.1%（降41.8%），Qwen2.5-VL-72B从68.3%降至30.4%（降37.9%）
推理模型提升有限: Claude-3.7-Sonnet开启extended thinking仅提升1.4%（60.3%→61.7%），说明问题不在推理步骤长度而在基础视觉能力
人类视觉推理近乎完美: 人类在视觉推理子集上达98.2%（56/57正确），而最强模型仅53.3%
专用模型仍有差距: Bespoke-MiniChart-7B虽大幅超越同量级开源模型（34.0% vs 26.8%/28.2%），但仍远逊于闭源模型
策略错误: Claude-3.7-Sonnet有16%的错误属于策略错误——模型未能采用视觉推理"捷径"，转而尝试提取数值进行计算，导致答错

视觉推理与文本推理的形式化区分是本文最重要的贡献，这一框架让我们能量化LVLM在两种能力上的不对称性
"提取即可答"实验（Section 2.2）巧妙地证明了ChartQA等旧基准的局限性——不看图也能答对74%
四类视觉任务分类学（Symbol Selection / Visual Comparison / Trajectory Tracking / X/Y Value Identification）为未来模型改进提供了具体方向
Strategy Error的发现特别有趣: 模型过度依赖文本化推理策略，即使问题可以通过简单的视觉比较解决，模型也倾向于提取数值再计算——这揭示了当前LVLM的深层架构偏见
数据集标注完全由人类完成（不使用LLM生成问题），每个样本20分钟，总计400小时，质量控制严格

维度	分数	说明
问题重要性	⭐⭐⭐⭐⭐	揭示LVLM视觉推理的系统性缺陷，问题切中要害
方法创新性	⭐⭐⭐⭐	视觉vs文本推理的形式化区分和四类问题分类体系新颖
实验充分度	⭐⭐⭐⭐⭐	21个模型+人类基线，多维度分析，错误分类细致
写作质量	⭐⭐⭐⭐⭐	动机链条清晰：旧基准不够→合成实验验证→新基准→全面评估→错误分析
实用价值	⭐⭐⭐⭐	为LVLM视觉推理改进提供了诊断工具和具体方向
总分	4.6/5	高质量基准论文，问题界定精准、实验设计完整