ICLR 2026 多模态VLM 几何问题求解层级化评测形式化验证 MLLM 推理诊断 Chain-of-Thought

GeoBench: Rethinking Multimodal Geometric Problem-Solving via Hierarchical Evaluation¶

会议: ICLR 2026
代码: https://github.com/FrontierX-Lab/GeoBench
领域: 多模态 / VLM 几何推理评测
关键词: 几何问题求解, 层级化评测, 形式化验证, MLLM, 推理诊断, Chain-of-Thought

一句话总结¶

GeoBench 用形式化引擎 TrustGeoGen 生成 1021 道可验证的合成几何题，按 van Hiele 认知模型把几何推理拆成「视觉感知→目标规划→定理应用→自反思回溯」四层六任务，从而把 VLM 的几何能力从"只看最终答案"细化到"诊断到底卡在哪一步"。

研究背景与动机¶

领域现状：多模态大模型（MLLM）在 GeoQA 等几何 benchmark 上已能逼近甚至超过人类，看似几何推理已被攻克。
现有痛点：当前评测有三个系统性缺陷——（1）题目几乎全部来自公开教材，存在测试集污染风险，模型靠记忆模式而非真推理拿分；（2）只看最终答案对错，忽略定理链、证明生成这些定义"几何严谨性"的中间过程；（3）缺乏诊断粒度，模型答错时无法判断是空间感知弱、定理检索差还是不会纠错。
核心矛盾：高分掩盖了能力盲区——一个只会背 GeoQA 答案模式的模型和一个真正会做几何证明的模型，在传统 benchmark 上分数可能相同，但它们的真实能力天差地别。
本文目标：构造一个无污染、过程可诊断、能定位瓶颈的几何推理评测，把"会不会做几何题"分解成可单独度量的子能力。
核心 idea：层级化诊断评测——借 van Hiele 几何思维认知模型把求解过程分四层，每层对应若干形式化验证的子任务；同时用合成数据彻底规避教材污染，所有推理步骤经符号求解器证明正确。

方法详解¶

整体框架¶

GeoBench 的构造分两阶段：先用形式化引擎 TrustGeoGen 生成"图像+题目+完整推理图"三元组（每步推理由符号系统证明正确），再基于推理图把四个认知层级实例化成六个选择题任务，每题一对正解 + 三个精心设计的干扰项。

flowchart TD
    A[TrustGeoGen 形式化引擎] -->|base scene + 构造规则| B[完整推理图 G=P,S,R,→]
    B --> C[目标导向推理路径 P]
    C --> D1[L1 视觉感知<br/>数值感知 + 结构感知]
    C --> D2[L2 目标规划<br/>无关前提过滤 + 子目标分解]
    C --> D3[L3 定理应用<br/>定理选择]
    C --> D4[L4 自反思回溯<br/>错误分支定位]
    D1 & D2 & D3 & D4 --> E[1021 道四选一题<br/>正解+3干扰项]

关键设计¶

1. 形式化推理图作为评测真值：把"答案正确"升级为"过程可验证"。 GeoBench 不直接出题，而是先让 TrustGeoGen 从随机 base scene 出发、用构造规则迭代扩展几何元素，生成一个完整推理图 \(G=(P,S,R,\hookrightarrow)\)：其中 \(P\) 是初始前提（关系前提 \(p^r_i\) 如"A、B、C 共线"和数值前提 \(p^n_j\) 如 \(AB=3\)），\(S\) 是每步推出的中间状态，\(R\) 是演绎规则集，\(\hookrightarrow\) 形式化为 \(S_r \xrightarrow{r} s'\) 表示"对状态子集 \(S_r\) 应用规则 \(r\) 推出 \(s'\)"。再从目标状态 \(s_t\) 反向回溯出目标导向推理路径 \(\mathcal{P}=\{(S_{i-1},r_s,s)\mid S_{i-1}\xrightarrow{r_s}s\}\)。这条由符号求解器证明的"黄金推理链"是所有六个任务出题与判分的依据——干扰项的正确/错误有形式化保证，而非人工标注，从根本上排除了答案歧义和教材污染。

2. van Hiele 四层六任务：把几何能力解耦成可单独度量的维度。 四个层级逐级加难，每层从推理图上自动抽取对应任务的题目。L1 视觉感知含数值感知（从图中读取数值前提，干扰项用数值篡改 \(AB=6\to AB=4\) 或标签篡改 \(AB\to AY\) 制造，专测幻觉）和结构感知（识别几何关系前提，干扰项对关系做逆否，如"D、E、F 共线"→"不共线"）。L2 目标规划含无关前提过滤（正解取自未参与推理的前提 \(P\setminus S_0\)，要求 \(P\setminus S_0\neq\varnothing\) 且 \(|S_0|\geq3\)）和子目标分解（基于后向链，正解为推出结论所需的中间条件 \(S_{r_t}\setminus P\)，干扰项混入无关中间状态）。L3 定理应用的定理选择任务从用过的规则集 \(R_{used}\)（\(|R_{used}|\geq3\)）里取三条做干扰，正解是规则库里没用到的那条，专测模型能否区分相关与无关定理。L4 自反思回溯的错误分支定位把错误路径 \(\mathcal{P}_{faulty}:=\mathcal{P}_{wrong}\setminus\mathcal{P}\) 定义为偏离黄金链的子图，要求模型指出 8 步推理中最初出错的那一步——这是最难、最能反映真自反思能力的任务。

3. 合成数据 + OOD 双重验证，确保诊断结论可迁移。 全部 1021 题来自 76 个几何构造、42 条演绎规则、40 个 base scene 的合成，t-SNE 显示其图像与解题嵌入和 GeoQA 几乎不重叠且分布更广，解题 token 长度普遍上千（GeoQA 上限仅 189），难度经实测落在"超过中学、接近竞赛"区间。更关键的是，作者用 Spearman 秩相关 \(\rho\) 把每个子任务的分数向量 \(X_i\) 与最终求解分数向量 \(Y\) 关联，发现子目标分解、无关前提过滤、定理选择三个任务相关性最高，且这一排序在 GeoBench-solving、GeoQA、Geometry3K 三个数据集上一致——证明 GeoBench 诊断出的瓶颈能 OOD 泛化，不是过拟合某个数据集的产物。

实验关键数据¶

主实验：四层六任务（节选 Table 4，acc）¶

模型	N.P.	S.P.	I.P.F.	S.D.	T.S.	F.B.L.
Random	24.6%	25.8%	26.2%	24.6%	25.6%	25.7%
Human	100%	100%	77.5%	100%	56.7%	52.9%
Qwen2.5-VL-72b	85.7%	40.7%	38.5%	77.0%	47.4%	26.5%
GPT-4o	66.7%	23.0%	44.0%	57.5%	35.1%	23.8%
OpenAI-o1	75.0%	65.2%	61.5%	77.0%	53.2%	27.9%
OpenAI-o3	81.0%	74.8%	70.0%	91.0%	54.4%	22.5%
Gemini-2.5-pro	81.0%	60.0%	74.0%	87.0%	45.0%	18.4%

性能随层级升高单调下滑；推理模型（o1/o3/Gemini-2.5-pro）整体强于通用 MLLM；L4 错误分支定位是公认天花板——最高仅 27.9%，与随机 25.7% 几乎无差异，连 o3 都掉到 22.5%（低于随机）。

难度定位（Table 3）¶

模型	GeoQA	Geometry3K	OlympiadBench-Geo	GeoBench-solving
Gemini-2.5-pro	79.6%	80.7%	75.0%	49.6%
GPT-4o	42.3%	31.5%	13.4%	22.1%

GeoBench 求解难度略高于奥赛级 OlympiadBench-Geo，远超中学题。

子任务与最终求解的相关性（Table 6，Spearman ρ）¶

	N.P.	S.P.	I.P.F.	S.D.	T.S.	F.B.L.
vs GeoBench-solving	0.40	0.76	0.98	0.89	0.83	0.50
vs GeoQA (OOD)	0.66	0.67	0.75	0.93	0.85	0.50

鲁棒性消融（Table 7 扰动 / Table 8 纯文本，acc）¶

设置	N.P.	S.P.	S.D.	T.S.
Qwen2-VL-72b（原始）	86.3%	29.6%	60.5%	37.1%
Qwen2-VL-72b（扰动）	81.0%	33.3%	56.5%	39.8%
Qwen2-VL-72b（纯文本）	47.6%	19.3%	59.5%	31.0%
Qwen2-VL-72b（图文）	86.3%	29.6%	60.5%	37.1%

去掉图像后视觉任务（N.P. 86.3%→47.6%）断崖下跌，而规划类任务（S.D.）几乎不变，证明 benchmark 的视觉接地是真考点而非文本捷径。

关键发现¶

瓶颈识别：无关前提过滤（I.P.F.）、子目标分解（S.D.）、定理选择（T.S.）与最终求解相关性最高（ρ 高达 0.98/0.89/0.83），是决定复杂几何题成败的核心能力；错误分支定位相关性最弱。
CoT 反直觉失效：在 Qwen 系列和 GPT-4o 上做"let's think step by step" vs "only output the answer"消融，发现 CoT 并非普遍有益，在自反思回溯（F.B.L.）任务上反而降低性能——作者推测当 prompt 里含有误导性推理步骤时，CoT 会把模型引向无效纠错。
鲁棒性验证：扰动数据集（Table 7）和纯文本 vs 图文（Table 8）实验显示，去掉图像后 N.P./S.P. 等视觉任务显著下降，证明 benchmark 确实在考视觉接地而非纯文本捷径。

亮点与洞察¶

把评测从"对答案"变成"做体检"：四层六任务像一组诊断指标，能告诉你模型到底卡在感知、规划、定理还是纠错——这对开发几何推理系统给出了可操作的改进方向。
形式化验证 = 无污染 + 可信干扰项：用符号求解器证明每步推理，既规避教材污染，又让正解/干扰项的对错有数学保证，省去人工标注的噪声与歧义。
相关性分析串起诊断与求解：用 Spearman ρ 量化"哪个子能力最决定最终成绩"，并在 OOD 上验证排序一致，把碎片化的子任务分数升华成有迁移性的结论。
F.B.L. 全军覆没是最有价值的负面信号：所有模型（含 o3）在错误定位上接近随机，说明当前 MLLM 的"自反思"能力很可能是表演而非真实，指向一个明确的研究空白。

局限与展望¶

依赖单一引擎：全部数据来自 TrustGeoGen，几何场景受限于其 76 构造/42 规则/40 base scene，多样性虽广但仍是规则可枚举的合成分布，与真实手绘/复杂图示的几何题仍有差距。
四选一格式：选择题便于自动判分，但天然存在猜测基线，且无法考查模型自由生成完整证明的能力（与最终 open-ended 求解仍隔一层）。
CoT 失效仅观察未机理化：论文给出"误导步骤干扰纠错"的推测，但未深入分析 CoT 在 F.B.L. 上失效的内在机制，也未提出对应的 prompt/训练改进。
展望：可把诊断信号反哺训练（如针对 S.D./I.P.F. 做定向数据增强）、扩展到非欧/立体几何、以及把四选一升级为过程级评分。

评分¶

新颖性: ⭐⭐⭐⭐ — 把 van Hiele 认知模型与形式化推理图结合做层级诊断评测，CoT 在纠错任务上失效的发现尤其有价值；评测方法论创新明显，但底层依赖已有的 TrustGeoGen 引擎。
实验充分度: ⭐⭐⭐⭐ — 覆盖 18+ 模型、四层六任务、人类基线、OOD 验证、CoT 消融、扰动与纯文本鲁棒性实验，相关性分析扎实；唯 F.B.L. 等任务样本量偏小。
写作质量: ⭐⭐⭐⭐ — 框架清晰、形式化定义严谨、表格诊断信息密集；个别处 GeoBench/GenBench 拼写不一致。
价值: ⭐⭐⭐⭐ — 给几何推理研究提供了可诊断、可定位瓶颈的标准评测，I.P.F./S.D./T.S. 是关键能力、F.B.L. 是公认短板等结论对后续工作有直接指导意义。