跳转至

VisioMath: Benchmarking Figure-based Mathematical Reasoning in LMMs

会议: ICLR 2026
arXiv: 2506.06727
代码: GitHub
领域: 多模态VLM
关键词: 数学推理基准, 多图像推理, 视觉相似性, 图文对齐, LMM评测

一句话总结

提出VisioMath基准,包含1800道K-12数学题目,所有选项均为高度视觉相似的图表,揭示了LMM在多图像-文本对齐上的核心短板,并探索三种对齐策略实现+12.6%的提升。

研究背景与动机

现有多模态数学推理基准大多关注单图场景或文本选项,忽略了一类重要且常见的题型:所有答案选项均为图表的题目。这类题目在K-12数学教育中普遍存在,要求对视觉极为相似的几何图形、函数曲线等进行精细比较推理。

已有多图像基准(如MathVerse-mv、MV-Math)缺乏对高度视觉相似的系统考量。VisioMath的核心观察:LMM在区分几乎相同的图表选项时系统性失败,其主要失败模式是图文错位——模型依赖位置启发式而非文本线索进行推理。

方法详解

整体框架

VisioMath 把一类被以往基准忽略的题型——所有答案选项都是图表、且这些图表彼此高度相似——固化成一个 1800 题的多选数学基准,再围绕它做大规模 LMM 评测,最后探索能缓解模型短板的对齐策略。整条主线是「造一个专挑视觉相似性的难基准 → 量化模型在相似度上的退化 → 用对齐策略验证瓶颈可被部分修复」。

关键设计

1. 选项即图表的基准构建:把「比较几乎一样的图」做成可控难度。 普通数学基准的选项是文本或单张配图,模型只要读懂题干就够;VisioMath 要求模型在 8070 张图表选项中分辨出哪一张才是答案,而这些图往往只差一条曲线的斜率或一个顶点的位置。作者从 2002–2023 年中国高中与高考真题中筛出 1800 道这类多选题,覆盖几何、代数可视化、数值比较、函数模式识别等 K-12 主题,保证题目的代表性;同时用 JSON 结构化存储、LaTeX 规范数学公式、手工裁剪保证严格的一图一选项,并经人工交叉审核,避免脏数据稀释难度。这样基准的难度不是来自题目本身有多难,而是来自「选项之间太像」这一受控变量。

2. 用最小余弦相似度量化视觉相似性:让「有多像」变成可分箱的连续轴。 要研究相似度对推理的影响,先得能给每道题的相似度打分。作者用 Qwen multimodal-embedding-v1 把每个选项图 \(x_i\) 编码成向量 \(f(x_i)\),取所有选项两两余弦相似度中的最小值作为该题的相似度 \(\text{Sim}(Q) = \min_{i \neq j} \cos(f(x_i), f(x_j))\)——之所以取最小值而非平均,是因为只要存在一对极像的干扰项就足以让模型混淆。基准刻意保留完整的相似度谱、不做截断筛选,避免选择偏差,再把全部题目按相似度分到四个四分位区间 Q1–Q4,从而能系统观察模型准确率随相似度升高如何下滑。此外约一半题目的题干本身也含图,进一步把「多源视觉信息整合」这一维度叠加进来。

3. 三种对齐策略:从免训练改写到 CoT 微调,逐级验证瓶颈可修。 既然主要失败模式是图文错位(模型把文字选项标签和对应的图对不上),作者就设计三种针对性干预来佐证这一诊断。前两种免训练:图像合并把多张选项图拼到单一布局里,减少模型跨图切换的负担;显式视觉-文本锚点在每张图和它对应的文本选项之间打上明确的对应标记,强制建立图文绑定。第三种是对齐导向的 CoT 微调,构建一份多图像思维链数据集做标准 SFT,让模型显式地一步步描述「哪张图对应哪个选项、为什么」,仅用少量数据即可带来 +12.6% 的提升。三种策略由轻到重,共同说明这道短板不是无解,而是当前模型缺乏显式的多图-文本对齐机制。

实验关键数据

主实验

模型 VisioMath均分 无图题干 有图题干
Human 91.3 92.3 89.7
Gemini 2.5 Pro 80.9 86.3 75.2
Seed1.6-Thinking 72.3 83.9 58.0
GPT-4.1 52.6 56.1 42.8
GLM-4.5V (开源最佳) 53.7 61.2 37.2
Qwen2.5-VL-72B 43.7 49.8 33.0
Vision-R1-7B 36.7 33.7 29.2
Random 25.6 - -
视觉相似度区间 Q1 (低) Q2 Q3 Q4 (高)
Human 95.7 91.2 87.6 89.0
Gemini 2.5 Pro 86.2 83.8 76.7 76.9
GLM-4.5V 68.7 59.3 44.2 44.7
Qwen2.5-VL-7B 33.6 37.8 29.8 29.6

消融实验

策略 准确率 提升 说明
Baseline (无策略) 基准 - 原始推理
选项重排(Shuffling) -8.7% (Gemini) 显著下降 证明模型依赖位置启发式
对齐导向CoT微调 +12.6% 最大提升 少量CoT数据即可
误差分析(GLM4.5V, 50样本) 占比 说明
图文错位 36% 最主要错误来源
其他推理错误 64% 含计算错误、概念错误等

关键发现

  • 有图题干更难: 几乎所有LMM在题干含图的题目上准确率显著下降(Gemini下降11.1%,GLM下降24%),说明多源视觉信息整合是瓶颈
  • 高相似度严重退化: 从最低到最高相似度四分位,模型准确率下降12-15个百分点
  • 图文错位是主因: 36%的错误来自图文对齐失败,LMM倾向用位置启发式代替语义推理
  • 人类vs LMM的差异: 人类在高相似度区间准确率仅轻微下降后趋于稳定,说明人类错误更多来自概念理解,而LMM错误来自感知-对齐失败
  • 开源最佳GLM-4.5V (53.7%) 与人类 (91.3%) 差距达37.6%,说明该任务远未解决

亮点与洞察

  • 填补了图表选项数学推理评测的空白,首个系统化研究视觉相似度对多模态推理的影响
  • 选项重排实验精妙地证明了LMM依赖位置启发式而非真正的语义对齐
  • 视觉相似度量化方法(最小余弦相似度 + Qwen嵌入)经过严格验证
  • +12.6%的CoT微调收益说明问题可通过数据策略部分缓解

局限与展望

  • 题目来源仅限中国高考/高中(虽有英文翻译),文化和课程覆盖有限
  • 基准规模1800题相对中等,细分领域样本可能不足
  • 对齐策略仅为初步探索,更系统的架构级改进有待研究
  • 仅评测多选题,开放式图表推理未覆盖

相关工作与启发

  • 与MathVista、MathVerse等互补——VisioMath专注于多图选项的细粒度区分
  • 图文错位问题可能普遍存在于需处理多图的VLM任务中(如文档理解、医学影像对比)
  • 为LMM训练提供启示:需加强多图-文本显式对齐能力

评分

  • 新颖性: ⭐⭐⭐⭐ 填补图表选项推理评测空白,视觉相似度量化新颖
  • 实验充分度: ⭐⭐⭐⭐⭐ 覆盖20+个模型(闭源+开源+数学专用),误差分析和对照实验充分
  • 写作质量: ⭐⭐⭐⭐⭐ 结构严谨,观察-分析-策略逻辑清晰,图表直观
  • 价值: ⭐⭐⭐⭐ 揭示了LMM的核心短板,但作为benchmark论文实用性取决于社区采纳