Pi-GPS: Enhancing Geometry Problem Solving by Unleashing the Power of Diagrammatic Information¶

会议: ICCV 2025
arXiv: 2503.05543
代码: 无
领域: 多模态VLM
关键词: 几何问题求解, 文本歧义消解, 多模态推理, 神经符号方法, MLLM

一句话总结¶

Pi-GPS 提出利用几何图形信息消解文本描述中的歧义，通过"纠正器+验证器"微模块解决了先前被忽视的文本模糊性问题，在 Geometry3K 上比此前最优神经符号方法提升近 10%。

研究背景与动机¶

几何问题求解（GPS）要求模型从文本描述和对应几何图形中推导出正确答案，是多模态数学推理中最具挑战性的任务之一。它涉及对视觉形状、空间关系、符号抽象和逻辑推理的综合理解。

现有方法的分类： - 符号方法：依赖形式逻辑和定理库进行推理，可解释性强但规则覆盖有限 - 神经方法：以数据驱动方式生成解题路径，灵活但缺乏正确性保证 - 混合方法（如 Inter-GPS、GeoDRL、E-GPS）：将两者结合，先解析（parsing）再推理（reasoning），是当前主流方向

核心痛点——文本歧义被忽视：现有混合方法在解析阶段，文本解析器和图形解析器各自独立工作，导致文本中存在的歧义无法通过图形信息来消解。例如： - 文本中提到"一个形状"，但不指明是三角形、矩形还是圆形 - 文本引用"阴影区域的面积"，但不指明具体的阴影区域由哪些元素构成 - 文本描述了某条高的关系 IsAltitudeOf(Line(C,P), Shape($))，但未指明具体的形状

这些歧义在仅有文本时难以解决，但结合图形信息后往往可以轻松消解。然而此前的工作几乎完全忽略了这个问题。

本文的切入角度：设计一个轻量级的"微模块"，利用图形信息来系统性地消解文本中的歧义，然后将消歧后的形式化语言送入后续推理阶段。这个思路与现有框架正交，可以即插即用地提升任何神经符号方法的性能。

方法详解¶

整体框架¶

Pi-GPS 由两大部分组成：解析器（Parser） 和 推理器（Reasoner）。在解析器中嵌入了本文的核心创新——文本歧义消解模块（Text Disambiguation Module）。整体流程为：

文本解析器：使用基于正则表达式的规则解析器，从问题文本中提取命题集合 $P_T$ 和目标 $t^*$
图形解析器：使用 PGDPNet 端到端解析几何图形，提取点、线、圆等元素及其逻辑关系
文本歧义消解模块（核心贡献）：利用图形信息消解文本解析结果中的歧义
定理预测器：基于 LLM（o3-mini）预测定理应用顺序
求解器：按预测的定理顺序执行符号推理，得出最终答案

关键设计¶

1. 纠正器（Rectifier）——基于 MLLM 的歧义消解¶

功能：识别文本解析输出中的未知标识符（用 $ 表示的未指定元素），并利用 MLLM 结合图形信息进行消歧
核心思路：首先通过正则表达式分类识别三种歧义类型，然后针对每种类型构建特定的prompt，输入 MLLM（如 GPT-4o）进行消解
三种歧义类型：
- 未指定点：例如 CircumscribedTo(Square($), Circle($))，识别出外接正方形和内切圆但未指明具体顶点
- 未指定形状：例如 IsAltitudeOf(Line(C,P), Shape($))，识别到垂线但未指明对应的形状
- 未指定区域：例如 Find(AreaOf(Shaded(Shape($))))，需要求阴影面积但未指明阴影区域的构成
设计动机：利用定制化的 prompt（而非通用prompt）帮助 MLLM 聚焦于特定类型的歧义，实验表明通用prompt反而会引入更多错误

2. 验证器（Verifier）——基于图形启发式规则的一致性检查¶

功能：对 MLLM 生成的消歧结果进行几何一致性验证，过滤掉不符合几何规则的输出
核心思路：利用三种启发式规则进行验证：
- 实体存在性验证：检查 MLLM 生成的点、线等是否在原始图中存在
- 形状闭合与顺序验证：检查生成的多边形顶点是否能形成闭合图形，顺序是否正确。构建图数据结构检查连通性和度数
- 几何一致性验证：利用解析几何方法验证生成的顶点坐标是否与目标几何形状一致
设计动机：MLLM 存在幻觉问题，且生成精确的形式化语言对 MLLM 来说非常困难（一个字符或括号的错误就会使输出无效）。验证器通过迭代反馈机制，将验证失败的信息返回给纠正器进行修正

3. 定理预测器——基于 LLM 的定理排序¶

功能：利用 LLM（o3-mini）预测应用定理的最优顺序
核心思路：将定理库知识作为 prompt 提供给 LLM，模型根据消歧后的文本和图形形式化语言，生成最合适的定理应用顺序
设计动机：先前方法依赖标注的定理序列进行训练，标注成本高且覆盖有限。利用 LLM 的泛化能力可以减少对标注数据的依赖

损失函数 / 训练策略¶

本方法主要是基于规则和 prompt 的框架，不涉及端到端训练。图形解析器 PGDPNet 是预训练的，MLLM 和 LLM 以零样本方式使用。

实验关键数据¶

主实验¶

方法类别	方法	Geometry3K (Choice)	Geometry3K (Completion)	PGPS9K (Choice)	PGPS9K (Completion)
MLLM	GPT-4o	58.6	34.8	51.0	33.3
MLLM	Gemini 2	60.7	38.9	56.8	38.2
神经符号	Inter-GPS	57.5	43.4	-	-
神经符号	GeoDRL	68.4	57.9	66.7	55.6
神经符号	E-GPS	67.9	-	-	-
神经符号	Pi-GPS (本文)	77.8	70.6	69.8	61.4

Pi-GPS 在 Geometry3K 上比 GeoDRL 提升 9.4%（Choice），比 E-GPS 提升 9.9%（Choice），甚至在部分子类别（ratio）上超过人类专家。

消融实验¶

配置	Completion	Choice	说明
基线（无模块）	60.7	70.6	仅解析+遍历求解
+文本消歧模块	68.9	76.6	消歧是核心提升来源（+6%）
+定理预测器	63.2	72.3	减少推理步数
+两者结合	70.6	77.8	完整 Pi-GPS
纠正器（通用prompt）	62.4	71.9	通用prompt反而降低性能
纠正器（定制prompt）	64.2	73.3	定制prompt有效
+验证器	70.6	77.8	验证器提供4-6%的增益

关键发现¶

文本歧义消解模块是性能提升的核心驱动力，贡献约 5-6% 的一致提升
验证器至关重要：不加验证器时纠正器可能因 MLLM 幻觉反而降低性能
定制化 prompt 比通用 prompt 更有效，通用 prompt 可能引入不必要的修改
定理预测对所有测试的 LLM 效果相近，说明这个任务对 LLM 来说已足够成熟
相比直接用 LLM 解题，将 LLM 用于定理预测更准确且更可解释

亮点与洞察¶

问题发现的价值：文本歧义是一个被长期忽视的关键问题，本文通过系统性分析证明了其对GPS性能的显著影响
模块化设计：纠正器-验证器的设计思路可以推广到其他需要消解多模态歧义的任务
验证器的必要性：直接信任 MLLM 的输出是危险的，必须通过领域知识驱动的验证来约束
LLM 用途的洞察：将 LLM 用于中间推理步骤（定理预测）比直接端到端解题更合适

局限与展望¶

文本解析器仍基于规则，对某些语法变体处理不佳
图形解析器难以识别复杂关系（如切线）
定理库不够完善，缺少某些关键定理（如正六边形内角120度）
消歧模块依赖 MLLM 的零样本能力，对格式错误不够鲁棒
未在更大规模或更高难度的几何数据集上验证

评分¶

新颖性: ⭐⭐⭐⭐ — 问题发现新颖但解决方案相对简单
实验充分度: ⭐⭐⭐⭐⭐ — 消融全面，对比充分
写作质量: ⭐⭐⭐⭐ — 结构清晰，例子直观
价值: ⭐⭐⭐⭐ — 揭示了被忽视的关键因素，提供了可复现的改进思路