VisioMath: Benchmarking Figure-based Mathematical Reasoning in LMMs¶

会议: ICLR 2026
arXiv: 2506.06727
代码: GitHub
领域: 多模态VLM
关键词: 数学推理基准, 多图像推理, 视觉相似性, 图文对齐, LMM评测

一句话总结¶

提出VisioMath基准，包含1800道K-12数学题目，所有选项均为高度视觉相似的图表，揭示了LMM在多图像-文本对齐上的核心短板，并探索三种对齐策略实现+12.6%的提升。

研究背景与动机¶

现有多模态数学推理基准大多关注单图场景或文本选项，忽略了一类重要且常见的题型：所有答案选项均为图表的题目。这类题目在K-12数学教育中普遍存在，要求对视觉极为相似的几何图形、函数曲线等进行精细比较推理。

已有多图像基准（如MathVerse-mv、MV-Math）缺乏对高度视觉相似的系统考量。VisioMath的核心观察：LMM在区分几乎相同的图表选项时系统性失败，其主要失败模式是图文错位——模型依赖位置启发式而非文本线索进行推理。

方法详解¶

整体框架¶

VisioMath 把一类被以往基准忽略的题型——所有答案选项都是图表、且这些图表彼此高度相似——固化成一个 1800 题的多选数学基准，再围绕它做大规模 LMM 评测，最后探索能缓解模型短板的对齐策略。整条主线是「造一个专挑视觉相似性的难基准 → 量化模型在相似度上的退化 → 用对齐策略验证瓶颈可被部分修复」。

关键设计¶

1. 选项即图表的基准构建：把「比较几乎一样的图」做成可控难度

普通数学基准的选项是文本或单张配图，模型只要读懂题干就够；VisioMath 要求模型在 8070 张图表选项中分辨出哪一张才是答案，而这些图往往只差一条曲线的斜率或一个顶点的位置。作者从 2002–2023 年中国高中与高考真题中筛出 1800 道这类多选题，覆盖几何、代数可视化、数值比较、函数模式识别等 K-12 主题，保证题目的代表性；同时用 JSON 结构化存储、LaTeX 规范数学公式、手工裁剪保证严格的一图一选项，并经人工交叉审核，避免脏数据稀释难度。这样基准的难度不是来自题目本身有多难，而是来自「选项之间太像」这一受控变量。

2. 用最小余弦相似度量化视觉相似性：让「有多像」变成可分箱的连续轴

要研究相似度对推理的影响，先得能给每道题的相似度打分。作者用 Qwen multimodal-embedding-v1 把每个选项图 \(x_i\) 编码成向量 \(f(x_i)\)，取所有选项两两余弦相似度中的最小值作为该题的相似度 \(\text{Sim}(Q) = \min_{i \neq j} \cos(f(x_i), f(x_j))\)——之所以取最小值而非平均，是因为只要存在一对极像的干扰项就足以让模型混淆。基准刻意保留完整的相似度谱、不做截断筛选，避免选择偏差，再把全部题目按相似度分到四个四分位区间 Q1–Q4，从而能系统观察模型准确率随相似度升高如何下滑。此外约一半题目的题干本身也含图，进一步把「多源视觉信息整合」这一维度叠加进来。

3. 三种对齐策略：从免训练改写到 CoT 微调，逐级验证瓶颈可修

既然主要失败模式是图文错位（模型把文字选项标签和对应的图对不上），作者就设计三种针对性干预来佐证这一诊断。前两种免训练：图像合并把多张选项图拼到单一布局里，减少模型跨图切换的负担；显式视觉-文本锚点在每张图和它对应的文本选项之间打上明确的对应标记，强制建立图文绑定。第三种是对齐导向的 CoT 微调，构建一份多图像思维链数据集做标准 SFT，让模型显式地一步步描述「哪张图对应哪个选项、为什么」，仅用少量数据即可带来 +12.6% 的提升。三种策略由轻到重，共同说明这道短板不是无解，而是当前模型缺乏显式的多图-文本对齐机制。

实验关键数据¶

主实验¶

模型	VisioMath均分	无图题干	有图题干
Human	91.3	92.3	89.7
Gemini 2.5 Pro	80.9	86.3	75.2
Seed1.6-Thinking	72.3	83.9	58.0
GPT-4.1	52.6	56.1	42.8
GLM-4.5V (开源最佳)	53.7	61.2	37.2
Qwen2.5-VL-72B	43.7	49.8	33.0
Vision-R1-7B	36.7	33.7	29.2
Random	25.6	-	-

视觉相似度区间	Q1 (低)	Q2	Q3	Q4 (高)
Human	95.7	91.2	87.6	89.0
Gemini 2.5 Pro	86.2	83.8	76.7	76.9
GLM-4.5V	68.7	59.3	44.2	44.7
Qwen2.5-VL-7B	33.6	37.8	29.8	29.6

消融实验¶

策略	准确率	提升	说明
Baseline (无策略)	基准	-	原始推理
选项重排(Shuffling)	-8.7% (Gemini)	显著下降	证明模型依赖位置启发式
对齐导向CoT微调	+12.6%	最大提升	少量CoT数据即可

误差分析(GLM4.5V, 50样本)	占比	说明
图文错位	36%	最主要错误来源
其他推理错误	64%	含计算错误、概念错误等

关键发现¶

有图题干更难: 几乎所有LMM在题干含图的题目上准确率显著下降（Gemini下降11.1%，GLM下降24%），说明多源视觉信息整合是瓶颈
高相似度严重退化: 从最低到最高相似度四分位，模型准确率下降12-15个百分点
图文错位是主因: 36%的错误来自图文对齐失败，LMM倾向用位置启发式代替语义推理
人类vs LMM的差异: 人类在高相似度区间准确率仅轻微下降后趋于稳定，说明人类错误更多来自概念理解，而LMM错误来自感知-对齐失败
开源最佳GLM-4.5V (53.7%) 与人类 (91.3%) 差距达37.6%，说明该任务远未解决

亮点与洞察¶

填补了图表选项数学推理评测的空白，首个系统化研究视觉相似度对多模态推理的影响
选项重排实验精妙地证明了LMM依赖位置启发式而非真正的语义对齐
视觉相似度量化方法（最小余弦相似度 + Qwen嵌入）经过严格验证
+12.6%的CoT微调收益说明问题可通过数据策略部分缓解

局限与展望¶

题目来源仅限中国高考/高中（虽有英文翻译），文化和课程覆盖有限
基准规模1800题相对中等，细分领域样本可能不足
对齐策略仅为初步探索，更系统的架构级改进有待研究
仅评测多选题，开放式图表推理未覆盖

评分¶

新颖性: ⭐⭐⭐⭐ 填补图表选项推理评测空白，视觉相似度量化新颖
实验充分度: ⭐⭐⭐⭐⭐ 覆盖20+个模型（闭源+开源+数学专用），误差分析和对照实验充分
写作质量: ⭐⭐⭐⭐⭐ 结构严谨，观察-分析-策略逻辑清晰，图表直观
价值: ⭐⭐⭐⭐ 揭示了LMM的核心短板，但作为benchmark论文实用性取决于社区采纳