跳转至

ChartMuseum: 测试大型视觉语言模型的图表视觉推理能力

会议: NeurIPS 2025
arXiv: 2505.13444
代码: https://chartmuseum-leaderboard.github.io
领域: 多模态VLM
关键词: 图表理解, 视觉推理, 基准测试, VLM评估, 图表问答

一句话总结

提出ChartMuseum图表问答基准,包含1162个专家标注问题和184个来源的真实图表,首次系统区分视觉推理与文本推理能力,揭示当前最强模型Gemini-2.5-Pro仅63.0%而人类达93%,视觉推理性能比文本推理低35%-55%。

研究背景与动机

  • 现有图表QA基准过度依赖文本推理: 在ChartQA上仅用提取的文本信息(不看图),Claude-3.7-Sonnet就能达到74.1%准确率(看图87.4%),说明大部分问题不需要真正的视觉推理
    • 而在ChartMuseum上,同样的纯文本方式只有15.2%(看图61.3%),差距达46%,说明ChartMuseum真正考察了视觉推理
  • 前沿模型在已有基准上趋于饱和: ChartQA上模型准确率集中在85%-90%之间,难以区分模型能力差异
  • 视觉推理与文本推理的区分被忽视: 图表理解涉及两类推理——直接从图形关系中推断(视觉推理)vs. 从提取的文本/数值中推断(文本推理),但现有工作未明确区分
  • 合成数据案例研究揭示问题: 作者用不含任何文字标注的合成图表测试,随着视觉复杂度(overlay/subplot数量n)增加,模型性能显著下降,而人类表现稳定

方法详解

整体框架

ChartMuseum是一个图表问答(Chart QA)基准数据集,由13名计算机科学研究者手工标注,包含1162个 (图像, 问题, 简短答案) 元组,图像来自928张独特的真实世界图表、184个不同网站来源。数据集划分为dev/test = 162/1000。

关键设计

  1. 视觉推理vs文本推理区分: 将图表理解中的推理明确分为两类:

    • 视觉推理: 从图形关系中进行推断,用自然语言表达困难(如散点图中判断两变量的相关性)
    • 视觉提取: 视觉推理的子类,通过视觉解读获取数值(如通过对比y轴刻度估计柱子的值)
    • 文本推理: 对已提取信息进行逻辑/算术/比较运算,或直接从图表中读取文本标注
    • 这一区分表明现有基准严重偏向文本推理
  2. 四类问题分类体系:

    • Textual Reasoning (123题): 几乎完全靠文本推理即可解答
    • Visual Reasoning (510题): 主要需要视觉推理,占比最大
    • Text/Visual Reasoning (234题): 文本或视觉推理均可解答
    • Synthesis Reasoning (133题): 同时需要文本和视觉推理
  3. 多阶段质量审核流程:

    • 第一阶段:选取高质量图表
    • 第二阶段:手工创建问答对(不使用LLM辅助、不使用模板)
    • 第三阶段:独立审核者验证答案正确性
    • 第四阶段:与标注者讨论迭代优化
    • 每个样本平均耗时20分钟(标注10min + 审核5min + 迭代5min),总计约400小时
    • 标注规则:答案空间≥4选项、答案客观无歧义、排除why/how/描述性/复合问题

损失函数 / 训练策略

本文为基准测试论文,不涉及模型训练。评估使用LLM-as-a-Judge(GPT-4.1-mini)判断答案等价性,所有问题都有唯一确定答案,不使用容忍误差的近似匹配。

实验关键数据

主实验

模型 Visual (510) Synthesis (133) Visual/Text (234) Text (123) Overall (1000)
开源小模型
InternVL3-2B 12.2 13.5 18.4 30.1 16.0
Qwen2.5-VL-3B 16.7 21.1 26.5 28.5 21.0
开源中型模型
Qwen2.5-VL-7B 19.4 24.8 36.3 41.5 26.8
InternVL3-8B 23.5 24.8 32.9 42.3 28.2
Bespoke-MiniChart-7B 26.3 32.3 41.0 54.5 34.0
开源大模型
Qwen2.5-VL-32B 29.0 36.1 46.2 62.6 38.1
Pixtral-Large-124B 31.6 36.1 40.6 65.9 38.5
Qwen2.5-VL-72B 30.4 35.3 42.3 68.3 38.5
闭源模型
Gemini-1.5-Flash 22.7 30.8 36.3 56.1 31.1
GPT-4o 31.8 45.1 50.9 65.9 42.2
GPT-4.1 37.1 53.4 54.3 78.9 48.4
Claude-3.5-Sonnet 45.7 53.4 61.5 78.0 54.4
Claude-3.7-Sonnet 50.6 55.6 69.2 88.6 60.3
推理模型
o3 (high) 50.4 63.2 69.7 85.4 60.9
o4-mini (high) 51.2 66.2 68.4 86.2 61.5
Claude-3.7-Sonnet (think) 52.5 56.4 71.8 86.2 61.7
Gemini-2.5-Pro 53.3 64.7 70.1 87.8 63.0
人类 98.2 93.0

消融实验

现有基准对比(文本提取实验):

数据集 仅文本提取 使用图像
ChartQA 74.1% 87.4%
ChartMuseum 15.2% 61.3%

ChartMuseum的文本提取vs图像差距达46%,远大于ChartQA的13%,证明ChartMuseum真正测试了视觉推理能力。

视觉任务分类错误分析 (各采样50个错误实例):

错误类型 Claude-3.7-Sonnet Gemini-2.5-Pro
Symbol Selection 34% 28%
Visual Comparison 28% 26%
Trajectory Tracking 14% 12%
X/Y Value Identification 6% 28%
Strategy Error 16% 2%
Textual Reasoning Error 6% 2%

关键发现

  1. 闭源vs开源差距巨大: 最佳开源模型Qwen2.5-VL-72B (38.5%) 与最佳闭源模型Gemini-2.5-Pro (63.0%) 差距达24.5%
  2. 视觉推理远弱于文本推理: 所有模型在Visual列的表现比Text列低35%-55%,如GPT-4.1在Text上78.9%但Visual仅37.1%(降41.8%),Qwen2.5-VL-72B从68.3%降至30.4%(降37.9%)
  3. 推理模型提升有限: Claude-3.7-Sonnet开启extended thinking仅提升1.4%(60.3%→61.7%),说明问题不在推理步骤长度而在基础视觉能力
  4. 人类视觉推理近乎完美: 人类在视觉推理子集上达98.2%(56/57正确),而最强模型仅53.3%
  5. 专用模型仍有差距: Bespoke-MiniChart-7B虽大幅超越同量级开源模型(34.0% vs 26.8%/28.2%),但仍远逊于闭源模型
  6. 策略错误: Claude-3.7-Sonnet有16%的错误属于策略错误——模型未能采用视觉推理"捷径",转而尝试提取数值进行计算,导致答错

亮点与洞察

  • 视觉推理与文本推理的形式化区分是本文最重要的贡献,这一框架让我们能量化LVLM在两种能力上的不对称性
  • "提取即可答"实验(Section 2.2)巧妙地证明了ChartQA等旧基准的局限性——不看图也能答对74%
  • 四类视觉任务分类学(Symbol Selection / Visual Comparison / Trajectory Tracking / X/Y Value Identification)为未来模型改进提供了具体方向
  • Strategy Error的发现特别有趣: 模型过度依赖文本化推理策略,即使问题可以通过简单的视觉比较解决,模型也倾向于提取数值再计算——这揭示了当前LVLM的深层架构偏见
  • 数据集标注完全由人类完成(不使用LLM生成问题),每个样本20分钟,总计400小时,质量控制严格

局限与展望

  • 仅包含英文图表和问题,未覆盖多语言场景
  • 仅评估短答案QA,未涵盖摘要生成、开放式回答等任务
  • 不包含不可回答的问题(unanswerable questions)
  • 数据集规模(1162题)相对不大,部分子类别样本较少
  • 未提出改进模型视觉推理的具体方法(纯诊断性工作)
  • 可扩展方向:基于发现的视觉推理弱点,设计针对性的训练数据或架构改进

相关工作与启发

  • 图表QA基准演进: FigureQA/DVQA(合成图表+模板问题)→ ChartQA(真实图表+人工问题)→ CharXiv/ChartQAPro(更复杂但来源有限或模型生成问题)→ ChartMuseum(多来源+纯人工+区分推理类型)
  • 视觉推理困难的根源: 视觉编码器瓶颈(Prismatic VLMs)、视觉特征解码错位、抽象视觉推理能力有限、难以识别可文字描述的特征
  • CoT对视觉推理效果有限: 与数学/代码领域的显著提升不同,extended thinking在图表理解上几乎无效,呼应了"thinking makes humans worse"的发现
  • 启发: 未来LVLM需要从架构层面增强视觉推理能力,而非仅靠扩展推理链长度

评分

维度 分数 说明
问题重要性 ⭐⭐⭐⭐⭐ 揭示LVLM视觉推理的系统性缺陷,问题切中要害
方法创新性 ⭐⭐⭐⭐ 视觉vs文本推理的形式化区分和四类问题分类体系新颖
实验充分度 ⭐⭐⭐⭐⭐ 21个模型+人类基线,多维度分析,错误分类细致
写作质量 ⭐⭐⭐⭐⭐ 动机链条清晰:旧基准不够→合成实验验证→新基准→全面评估→错误分析
实用价值 ⭐⭐⭐⭐ 为LVLM视觉推理改进提供了诊断工具和具体方向
总分 4.6/5 高质量基准论文,问题界定精准、实验设计完整