Pi-GPS: Enhancing Geometry Problem Solving by Unleashing the Power of Diagrammatic Information¶
会议: ICCV 2025
arXiv: 2503.05543
代码: 无
领域: 多模态VLM
关键词: 几何问题求解, 文本歧义消解, 多模态推理, 神经符号方法, MLLM
一句话总结¶
Pi-GPS 提出利用几何图形信息消解文本描述中的歧义,通过"纠正器+验证器"微模块解决了先前被忽视的文本模糊性问题,在 Geometry3K 上比此前最优神经符号方法提升近 10%。
研究背景与动机¶
几何问题求解(GPS)要求模型从文本描述和对应几何图形中推导出正确答案,是多模态数学推理中最具挑战性的任务之一。它涉及对视觉形状、空间关系、符号抽象和逻辑推理的综合理解。
现有方法的分类: - 符号方法:依赖形式逻辑和定理库进行推理,可解释性强但规则覆盖有限 - 神经方法:以数据驱动方式生成解题路径,灵活但缺乏正确性保证 - 混合方法(如 Inter-GPS、GeoDRL、E-GPS):将两者结合,先解析(parsing)再推理(reasoning),是当前主流方向
核心痛点——文本歧义被忽视:现有混合方法在解析阶段,文本解析器和图形解析器各自独立工作,导致文本中存在的歧义无法通过图形信息来消解。例如:
- 文本中提到"一个形状",但不指明是三角形、矩形还是圆形
- 文本引用"阴影区域的面积",但不指明具体的阴影区域由哪些元素构成
- 文本描述了某条高的关系 IsAltitudeOf(Line(C,P), Shape($)),但未指明具体的形状
这些歧义在仅有文本时难以解决,但结合图形信息后往往可以轻松消解。然而此前的工作几乎完全忽略了这个问题。
本文的切入角度:设计一个轻量级的"微模块",利用图形信息来系统性地消解文本中的歧义,然后将消歧后的形式化语言送入后续推理阶段。这个思路与现有框架正交,可以即插即用地提升任何神经符号方法的性能。
方法详解¶
整体框架¶
Pi-GPS 由两大部分组成:解析器(Parser) 和 推理器(Reasoner)。在解析器中嵌入了本文的核心创新——文本歧义消解模块(Text Disambiguation Module)。整体流程为:
- 文本解析器:使用基于正则表达式的规则解析器,从问题文本中提取命题集合 \(P_T\) 和目标 \(t^*\)
- 图形解析器:使用 PGDPNet 端到端解析几何图形,提取点、线、圆等元素及其逻辑关系
- 文本歧义消解模块(核心贡献):利用图形信息消解文本解析结果中的歧义
- 定理预测器:基于 LLM(o3-mini)预测定理应用顺序
- 求解器:按预测的定理顺序执行符号推理,得出最终答案
关键设计¶
1. 纠正器(Rectifier)——基于 MLLM 的歧义消解¶
- 功能:识别文本解析输出中的未知标识符(用
$表示的未指定元素),并利用 MLLM 结合图形信息进行消歧 - 核心思路:首先通过正则表达式分类识别三种歧义类型,然后针对每种类型构建特定的prompt,输入 MLLM(如 GPT-4o)进行消解
- 三种歧义类型:
- 未指定点:例如
CircumscribedTo(Square($), Circle($)),识别出外接正方形和内切圆但未指明具体顶点 - 未指定形状:例如
IsAltitudeOf(Line(C,P), Shape($)),识别到垂线但未指明对应的形状 - 未指定区域:例如
Find(AreaOf(Shaded(Shape($)))),需要求阴影面积但未指明阴影区域的构成
- 未指定点:例如
- 设计动机:利用定制化的 prompt(而非通用prompt)帮助 MLLM 聚焦于特定类型的歧义,实验表明通用prompt反而会引入更多错误
2. 验证器(Verifier)——基于图形启发式规则的一致性检查¶
- 功能:对 MLLM 生成的消歧结果进行几何一致性验证,过滤掉不符合几何规则的输出
- 核心思路:利用三种启发式规则进行验证:
- 实体存在性验证:检查 MLLM 生成的点、线等是否在原始图中存在
- 形状闭合与顺序验证:检查生成的多边形顶点是否能形成闭合图形,顺序是否正确。构建图数据结构检查连通性和度数
- 几何一致性验证:利用解析几何方法验证生成的顶点坐标是否与目标几何形状一致
- 设计动机:MLLM 存在幻觉问题,且生成精确的形式化语言对 MLLM 来说非常困难(一个字符或括号的错误就会使输出无效)。验证器通过迭代反馈机制,将验证失败的信息返回给纠正器进行修正
3. 定理预测器——基于 LLM 的定理排序¶
- 功能:利用 LLM(o3-mini)预测应用定理的最优顺序
- 核心思路:将定理库知识作为 prompt 提供给 LLM,模型根据消歧后的文本和图形形式化语言,生成最合适的定理应用顺序
- 设计动机:先前方法依赖标注的定理序列进行训练,标注成本高且覆盖有限。利用 LLM 的泛化能力可以减少对标注数据的依赖
损失函数 / 训练策略¶
本方法主要是基于规则和 prompt 的框架,不涉及端到端训练。图形解析器 PGDPNet 是预训练的,MLLM 和 LLM 以零样本方式使用。
实验关键数据¶
主实验¶
| 方法类别 | 方法 | Geometry3K (Choice) | Geometry3K (Completion) | PGPS9K (Choice) | PGPS9K (Completion) |
|---|---|---|---|---|---|
| MLLM | GPT-4o | 58.6 | 34.8 | 51.0 | 33.3 |
| MLLM | Gemini 2 | 60.7 | 38.9 | 56.8 | 38.2 |
| 神经符号 | Inter-GPS | 57.5 | 43.4 | - | - |
| 神经符号 | GeoDRL | 68.4 | 57.9 | 66.7 | 55.6 |
| 神经符号 | E-GPS | 67.9 | - | - | - |
| 神经符号 | Pi-GPS (本文) | 77.8 | 70.6 | 69.8 | 61.4 |
Pi-GPS 在 Geometry3K 上比 GeoDRL 提升 9.4%(Choice),比 E-GPS 提升 9.9%(Choice),甚至在部分子类别(ratio)上超过人类专家。
消融实验¶
| 配置 | Completion | Choice | 说明 |
|---|---|---|---|
| 基线(无模块) | 60.7 | 70.6 | 仅解析+遍历求解 |
| +文本消歧模块 | 68.9 | 76.6 | 消歧是核心提升来源(+6%) |
| +定理预测器 | 63.2 | 72.3 | 减少推理步数 |
| +两者结合 | 70.6 | 77.8 | 完整 Pi-GPS |
| 纠正器(通用prompt) | 62.4 | 71.9 | 通用prompt反而降低性能 |
| 纠正器(定制prompt) | 64.2 | 73.3 | 定制prompt有效 |
| +验证器 | 70.6 | 77.8 | 验证器提供4-6%的增益 |
关键发现¶
- 文本歧义消解模块是性能提升的核心驱动力,贡献约 5-6% 的一致提升
- 验证器至关重要:不加验证器时纠正器可能因 MLLM 幻觉反而降低性能
- 定制化 prompt 比通用 prompt 更有效,通用 prompt 可能引入不必要的修改
- 定理预测对所有测试的 LLM 效果相近,说明这个任务对 LLM 来说已足够成熟
- 相比直接用 LLM 解题,将 LLM 用于定理预测更准确且更可解释
亮点与洞察¶
- 问题发现的价值:文本歧义是一个被长期忽视的关键问题,本文通过系统性分析证明了其对GPS性能的显著影响
- 模块化设计:纠正器-验证器的设计思路可以推广到其他需要消解多模态歧义的任务
- 验证器的必要性:直接信任 MLLM 的输出是危险的,必须通过领域知识驱动的验证来约束
- LLM 用途的洞察:将 LLM 用于中间推理步骤(定理预测)比直接端到端解题更合适
局限与展望¶
- 文本解析器仍基于规则,对某些语法变体处理不佳
- 图形解析器难以识别复杂关系(如切线)
- 定理库不够完善,缺少某些关键定理(如正六边形内角120度)
- 消歧模块依赖 MLLM 的零样本能力,对格式错误不够鲁棒
- 未在更大规模或更高难度的几何数据集上验证
相关工作与启发¶
- AlphaGeometry2:展示了 LLM 在几何推理中的潜力,但主要关注语言处理忽略了图形
- GeoDRL:将深度强化学习引入定理预测,是本文的重要基线
- E-GPS:结合了自上而下和自下而上推理,减少解题步数
- 对多模态推理中的歧义问题研究,可以给 VQA、图表理解等相关领域带来启发
评分¶
- 新颖性: ⭐⭐⭐⭐ — 问题发现新颖但解决方案相对简单
- 实验充分度: ⭐⭐⭐⭐⭐ — 消融全面,对比充分
- 写作质量: ⭐⭐⭐⭐ — 结构清晰,例子直观
- 价值: ⭐⭐⭐⭐ — 揭示了被忽视的关键因素,提供了可复现的改进思路