Math Blind: Failures in Diagram Understanding Undermine Reasoning in MLLMs¶
会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=RtvmTxdQV9
代码: viocean/MATHEMETRIC(项目主页)
领域: 多模态 VLM / 数学视觉推理
关键词: 数学图示感知, MLLM, 几何感知, 视觉定位, 感知-推理迁移, 结构化图示
一句话总结¶
本文提出诊断基准 MATHEMETRIC 把"感知"从"推理"中剥离出来,揭示当前 MLLM 在数学图示上的基础感知(形状/计数/关系/定位)极差、尤其细粒度定位接近 0,从而"盲信文本"(即 Math Blind);进而用图结构化的几何感知数据集 GEOMETRIC 训练后,定位任务 +79%,且这种感知增益无需额外 CoT 数据就能迁移到推理,四个公开基准 +3~4%。
研究背景与动机¶
领域现状:数学图示是一种"人造的符号视觉语言"——它不是真实世界的像素采样,而是由精确几何结构和符号记号组成的抽象表达。MathVista、MathVerse 等基准虽然评测了 MLLM 的数学视觉推理,但它们把感知和推理混在一起测:最终只看答案对不对,中间的感知错误被掩盖了。
现有痛点:人们普遍把 MLLM 在图示上的"推理崩溃和幻觉"归因于推理能力不足,却没人验证过——这些失败到底是不是源于模型根本"看不懂"图本身。已有几何训练数据集(MAVIS、AutoGeo)的标注又往往表达含糊、结构属性模糊(如把一串操作过程当作图的描述),无法教会模型图的结构。
核心矛盾:MLLM 在自然图像上感知很强(2T 图像训练),但面对几何图就退化——因为缺少可利用的语义先验和表面模式,无法泛化。低层感知本应像人一样"一眼可解",却成了 MLLM 的瓶颈,并向下游传播成错误推理。
本文目标:先用诊断手段证明"感知缺陷确实存在并拖垮推理",再证明"补强感知能直接迁移提升推理"。
核心 idea:① 诊断——构造一个纯感知、无需推理的基准(MATHEMETRIC),把感知能力单独量出来;② 修复——把图示显式表达为"图元节点 + 关系边 + 细粒度框"的图结构训练语料(GEOMETRIC),让模型学会"看哪里",从而打破对文本捷径的依赖。
方法详解¶
整体框架¶
工作分两条线:一个诊断基准 MATHEMETRIC 用于"测出"感知短板,一个结构化训练集 GEOMETRIC 用于"补上"感知短板;二者共享同一套合成数据引擎(基于几何子句的图元 + 关系采样 + 逻辑验证器 + Matplotlib 渲染 + 模板化 Q&A 生成),区别只在于一个生成评测题、一个生成训练对话。
flowchart TD
A[几何子句引擎<br/>16形状池+10关系池] --> B[逻辑验证器<br/>检验前置点/几何合法性]
B --> C[结构化JSON标注<br/>shape/relationship/location/style]
C --> D[Matplotlib渲染图像]
C --> E[模板化Q&A生成]
E --> F[MATHEMETRIC<br/>纯感知诊断基准<br/>4类任务]
E --> G[GEOMETRIC<br/>图结构化训练语料<br/>节点-边-框]
G --> H[SFT训练<br/>Qwen2.5-VL/SVE-Math]
H --> I[感知↑→推理迁移↑]
关键设计¶
1. MATHEMETRIC:把感知从推理中剥离的诊断基准。 它只问"人类一眼就能答"的纯感知问题,含 1,198 张图、1,609 道题,覆盖平面几何(66%)、立体几何(20%)和图表(14%),并设计四类任务:形状分类(16 类基础形状 + CLEVR 物体 + FigureQA 元素)、物体计数、关系识别(4 种空间关系 + 10 多种数学关系)、物体定位(自由形式预测 \((x_1,y_1,x_2,y_2)\) 边界框)。题型混用单选、判断、自由作答;定位以 IoU 阈值 0.65 评判。关键就在于答案直接来自标注、不含任何多步推理,因此"答错就是感知错",把以往被最终答案掩盖的中间错误暴露出来。
2. 合成数据引擎:以几何子句为原子单位、带验证器保证逻辑自洽。 受 AlphaGeometry 启发,引擎从形状池(等腰三角形、正方形、平行四边形、五边形、圆、椭圆…)和关系池(平行、垂直、相切、内切…)采样几何子句,每个子句声明 explanation 和 prerequisite(如 W = incircle ∆KMQ 需要前置点 K、M、Q)。验证器按"人工规则 + 基础数学原理 + 前置点约束"逐个检验,丢弃非法组合、保留合法子句组,再渲染成图并存为结构化 JSON(attributes、bounding boxes、relationships、style 一应俱全)。为增加难度,还注入高斯噪声、不规则涂鸦、角标楔形符号等增广。这套引擎是诊断与训练共用的"真相之源"。
3. GEOMETRIC:把图示显式写成"图(graph)"的结构化描述语料。 区别于 MAVIS/AutoGeo 含糊的过程式描述,GEOMETRIC 用固定模板把每张图组织成"先数物体数 N → 再逐个给形状属性 → 再给每个图元的细粒度框坐标 → 最后逐条说明图元间关系"的层级化文本,本质上对应图的节点(物体+属性)、边(关系)、几何位置(框)。它带来三点训练价值:(1) 提供清晰的物体属性与关系,类比图的节点与边;(2) 提供细粒度框坐标,让模型系统性学会空间感知;(3) 可与推理型 CoT 数学数据集在自微调阶段融合,使模型既会感知又会推理。此外还配套了多轮对话的指令数据(每问对准一个具体感知任务)来强化指令跟随。
4. 感知→推理的迁移训练与验证。 对 SVE-Math-DeepSeek 做全参 SFT、对 Qwen2.5-VL-7B/32B 做 LoRA,仅用 GEOMETRIC 补强感知(不加额外推理数据)。其核心论点是:当模型先"看对"了,多步推理链自然更稳——许多原本错误的样例只需纠正一个关键感知错误就能解决。这验证了感知与推理是互补的,而非靠堆推理数据或强化学习硬抬。
实验关键数据¶
主实验:MATHEMETRIC 感知诊断(部分模型 all 准确率,%)¶
| 模型 | Avg. | 平面-cls | 平面-grd | 平面-rlat |
|---|---|---|---|---|
| Human(作者) | 99.2 | 98.7 | 95.9 | 100.0 |
| Qwen2.5-VL-7B | 59.2 | 56.2 | 18.5 | 52.0 |
| Qwen2.5-VL-32B | 62.2 | 56.9 | 0.0 | 67.0 |
| GPT-4o | 53.3 | 58.4 | 1.1 | 62.5 |
| InternVL2.5-38B | 63.1 | 59.9 | 2.5 | 66.0 |
| SVE-Math-DeepSeek-7B | 46.6 | 52.4 | 3.6 | 51.0 |
| Qwen2.5-VL-7B+(本文) | 72.9 | 70.7 | 82.6 | 85.0 |
| Qwen2.5-VL-32B+(本文) | 74.2 | 70.7 | 84.0 | 79.5 |
| SVE-Math-DeepSeek-7B+(本文) | 68.4 | 75.8 | 82.9 | 96.5 |
要点:几乎所有 SOTA 模型在细粒度定位(grd)上接近 0(含 32B、GPT-4o),与人类 95%+ 形成断崖;本文方法把定位拉到 80%+(grd 任务约 +79%)。
感知与推理联动(Table 2,%)¶
| 模型 | 平面感知 | MathVerse | MathVista | GeoQA | MATH-V |
|---|---|---|---|---|---|
| SVE-Math-DeepSeek-7B | 35.4 | 24.3 | 48.7 | 72.8 | 14.4 |
| SVE-Math-DeepSeek-7B+ | 84.6 | 28.1 | 51.3 | 76.2 | 16.6 |
| Qwen2.5-VL-7B | 44.0 | 49.2 | 68.2 | 76.4 | 25.1 |
| Qwen2.5-VL-7B+ | 78.5 | 52.8 | 70.3 | 79.6 | 27.3 |
| Qwen2.5-VL-32B | 43.3 | 54.8 | 74.7 | 82.9 | 31.9 |
| Qwen2.5-VL-32B+ | 77.9 | 57.3 | 76.9 | 85.3 | 33.3 |
要点:纯靠补强感知(无额外推理数据),MathVerse 等四个推理基准 +3~4%;SVE-Math-DeepSeek+ 的 28.1% 甚至超过用大规模推理样本 + RL 训练的 MultiMath(26.9%)。
关键发现¶
- 盲信文本(Math Blind):图—文冲突时模型偏信文本,感知越弱越严重;对形状的顶点顺序不敏感(顶点序本应定义形状身份),说明在靠模式记忆而非真感知。
- 脆弱性:易被细微视觉噪声和无关干扰物带偏,无法聚焦显著物体。
- 规模无效:Qwen2VL 从 7B→72B,MathVista +22.3% 但 MATHEMETRIC 仅 +8.3%——堆参数对感知几乎无用。
- 通用 vs 数学模型:通用模型因见过 FigureQA/CLEVR/图表,在立体几何和图表上反超数学专用模型,但细粒度框任务全军覆没。
亮点与洞察¶
- 方法论贡献:用"一眼可解"的纯感知任务把感知从推理里干净剥离,给"MLLM 到底看没看懂图"这一长期含糊的问题提供了可量化的诊断工具。
- 机制洞察:把"推理崩溃"重新归因为"感知崩溃 + 盲信文本",并用数据证明低层感知是高层推理的地基。
- 数据设计哲学:图示的本质是"图(graph)"——显式编码节点/边/框比堆规模更有效(MAVIS 比本文大 5× 反而更差,因含糊且分布外)。
- 迁移性:感知增益无需任何额外 CoT/RL 即可迁移到推理,且能跨子域泛化(只训平面几何也能提升立体几何/图表)。
局限与展望¶
- 训练主要覆盖平面几何,立体几何与图表是零样本迁移,提升幅度小于平面几何。
- 未显式建模视觉—文本交互(不像 MINT-CoT 那样做 token 级融合),作者承认显式建模视觉-文本交互如何进一步放大"感知→推理"是未来方向。
- 合成数据由模板和固定关系池生成,真实世界手绘/扫描几何图的分布外鲁棒性仍待检验。
- 评测主要在数学几何域,能否推广到电路图、流程图、分子式等更广义"符号视觉"尚未验证。
相关工作与启发¶
- 数学视觉推理基准:MathVista、MathVerse、MATH-V、GeoQA——本文指出它们感知-推理混测的盲点。
- 几何训练数据集:MAVIS、AutoGeo——本文的对照与改进对象(含糊 vs 结构化)。
- 数学专用 MLLM:SVE-Math-DeepSeek(几何图元视觉编码器)、G-LLaVA、Math-LLaVA、MultiMath、URSA。
- 推理增强路线:Vision-R1(RL 增强,算力重)、MINT-CoT(视觉-文本 token 融合)——本文走"补感知"这条更轻量的互补路线。
- 思想启发:受 AlphaGeometry 的几何子句表示启发构造合成引擎;"用结构降低学习复杂度"的思路对其他符号视觉任务(图表、UI、文档版面)有借鉴价值。
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ "感知/推理剥离诊断 + 图结构化数据补感知"的组合视角新颖,且把"推理失败"重新归因为"感知失败"有思想冲击力。
- 实验充分度: ⭐⭐⭐⭐ 评测 20 个 MLLM、覆盖三大子域四类任务,主表 + Table 2 + 五因素消融较完整;但训练侧主要在平面几何、真实分布外验证偏弱。
- 写作质量: ⭐⭐⭐⭐ 故事线清晰(诊断→归因→修复→迁移验证),图表信息密度高;术语(Math Blind / blind reasoning)有记忆点。
- 价值: ⭐⭐⭐⭐⭐ 给数学多模态社区指出"先补感知地基再谈推理"的明确方向,基准 + 数据集均可复用,实用价值高。