跳转至

Pi-GPS: Enhancing Geometry Problem Solving by Unleashing the Power of Diagrammatic Information

会议: ICCV 2025
arXiv: 2503.05543
代码: 无
领域: 多模态VLM
关键词: 几何问题求解, 文本歧义消解, 多模态推理, 神经符号方法, MLLM

一句话总结

Pi-GPS 提出利用几何图形信息消解文本描述中的歧义,通过"纠正器+验证器"微模块解决了先前被忽视的文本模糊性问题,在 Geometry3K 上比此前最优神经符号方法提升近 10%。

研究背景与动机

几何问题求解(GPS)要求模型从文本描述和对应几何图形中推导出正确答案,是多模态数学推理中最具挑战性的任务之一。它涉及对视觉形状、空间关系、符号抽象和逻辑推理的综合理解。

现有方法的分类: - 符号方法:依赖形式逻辑和定理库进行推理,可解释性强但规则覆盖有限 - 神经方法:以数据驱动方式生成解题路径,灵活但缺乏正确性保证 - 混合方法(如 Inter-GPS、GeoDRL、E-GPS):将两者结合,先解析(parsing)再推理(reasoning),是当前主流方向

核心痛点——文本歧义被忽视:现有混合方法在解析阶段,文本解析器和图形解析器各自独立工作,导致文本中存在的歧义无法通过图形信息来消解。例如: - 文本中提到"一个形状",但不指明是三角形、矩形还是圆形 - 文本引用"阴影区域的面积",但不指明具体的阴影区域由哪些元素构成 - 文本描述了某条高的关系 IsAltitudeOf(Line(C,P), Shape($)),但未指明具体的形状

这些歧义在仅有文本时难以解决,但结合图形信息后往往可以轻松消解。然而此前的工作几乎完全忽略了这个问题。

本文的切入角度:设计一个轻量级的"微模块",利用图形信息来系统性地消解文本中的歧义,然后将消歧后的形式化语言送入后续推理阶段。这个思路与现有框架正交,可以即插即用地提升任何神经符号方法的性能。

方法详解

整体框架

Pi-GPS 由两大部分组成:解析器(Parser)推理器(Reasoner)。在解析器中嵌入了本文的核心创新——文本歧义消解模块(Text Disambiguation Module)。整体流程为:

  1. 文本解析器:使用基于正则表达式的规则解析器,从问题文本中提取命题集合 \(P_T\) 和目标 \(t^*\)
  2. 图形解析器:使用 PGDPNet 端到端解析几何图形,提取点、线、圆等元素及其逻辑关系
  3. 文本歧义消解模块(核心贡献):利用图形信息消解文本解析结果中的歧义
  4. 定理预测器:基于 LLM(o3-mini)预测定理应用顺序
  5. 求解器:按预测的定理顺序执行符号推理,得出最终答案

关键设计

1. 纠正器(Rectifier)——基于 MLLM 的歧义消解

  • 功能:识别文本解析输出中的未知标识符(用 $ 表示的未指定元素),并利用 MLLM 结合图形信息进行消歧
  • 核心思路:首先通过正则表达式分类识别三种歧义类型,然后针对每种类型构建特定的prompt,输入 MLLM(如 GPT-4o)进行消解
  • 三种歧义类型
    • 未指定点:例如 CircumscribedTo(Square($), Circle($)),识别出外接正方形和内切圆但未指明具体顶点
    • 未指定形状:例如 IsAltitudeOf(Line(C,P), Shape($)),识别到垂线但未指明对应的形状
    • 未指定区域:例如 Find(AreaOf(Shaded(Shape($)))),需要求阴影面积但未指明阴影区域的构成
  • 设计动机:利用定制化的 prompt(而非通用prompt)帮助 MLLM 聚焦于特定类型的歧义,实验表明通用prompt反而会引入更多错误

2. 验证器(Verifier)——基于图形启发式规则的一致性检查

  • 功能:对 MLLM 生成的消歧结果进行几何一致性验证,过滤掉不符合几何规则的输出
  • 核心思路:利用三种启发式规则进行验证:
    • 实体存在性验证:检查 MLLM 生成的点、线等是否在原始图中存在
    • 形状闭合与顺序验证:检查生成的多边形顶点是否能形成闭合图形,顺序是否正确。构建图数据结构检查连通性和度数
    • 几何一致性验证:利用解析几何方法验证生成的顶点坐标是否与目标几何形状一致
  • 设计动机:MLLM 存在幻觉问题,且生成精确的形式化语言对 MLLM 来说非常困难(一个字符或括号的错误就会使输出无效)。验证器通过迭代反馈机制,将验证失败的信息返回给纠正器进行修正

3. 定理预测器——基于 LLM 的定理排序

  • 功能:利用 LLM(o3-mini)预测应用定理的最优顺序
  • 核心思路:将定理库知识作为 prompt 提供给 LLM,模型根据消歧后的文本和图形形式化语言,生成最合适的定理应用顺序
  • 设计动机:先前方法依赖标注的定理序列进行训练,标注成本高且覆盖有限。利用 LLM 的泛化能力可以减少对标注数据的依赖

损失函数 / 训练策略

本方法主要是基于规则和 prompt 的框架,不涉及端到端训练。图形解析器 PGDPNet 是预训练的,MLLM 和 LLM 以零样本方式使用。

实验关键数据

主实验

方法类别 方法 Geometry3K (Choice) Geometry3K (Completion) PGPS9K (Choice) PGPS9K (Completion)
MLLM GPT-4o 58.6 34.8 51.0 33.3
MLLM Gemini 2 60.7 38.9 56.8 38.2
神经符号 Inter-GPS 57.5 43.4 - -
神经符号 GeoDRL 68.4 57.9 66.7 55.6
神经符号 E-GPS 67.9 - - -
神经符号 Pi-GPS (本文) 77.8 70.6 69.8 61.4

Pi-GPS 在 Geometry3K 上比 GeoDRL 提升 9.4%(Choice),比 E-GPS 提升 9.9%(Choice),甚至在部分子类别(ratio)上超过人类专家。

消融实验

配置 Completion Choice 说明
基线(无模块) 60.7 70.6 仅解析+遍历求解
+文本消歧模块 68.9 76.6 消歧是核心提升来源(+6%)
+定理预测器 63.2 72.3 减少推理步数
+两者结合 70.6 77.8 完整 Pi-GPS
纠正器(通用prompt) 62.4 71.9 通用prompt反而降低性能
纠正器(定制prompt) 64.2 73.3 定制prompt有效
+验证器 70.6 77.8 验证器提供4-6%的增益

关键发现

  • 文本歧义消解模块是性能提升的核心驱动力,贡献约 5-6% 的一致提升
  • 验证器至关重要:不加验证器时纠正器可能因 MLLM 幻觉反而降低性能
  • 定制化 prompt 比通用 prompt 更有效,通用 prompt 可能引入不必要的修改
  • 定理预测对所有测试的 LLM 效果相近,说明这个任务对 LLM 来说已足够成熟
  • 相比直接用 LLM 解题,将 LLM 用于定理预测更准确且更可解释

亮点与洞察

  • 问题发现的价值:文本歧义是一个被长期忽视的关键问题,本文通过系统性分析证明了其对GPS性能的显著影响
  • 模块化设计:纠正器-验证器的设计思路可以推广到其他需要消解多模态歧义的任务
  • 验证器的必要性:直接信任 MLLM 的输出是危险的,必须通过领域知识驱动的验证来约束
  • LLM 用途的洞察:将 LLM 用于中间推理步骤(定理预测)比直接端到端解题更合适

局限与展望

  • 文本解析器仍基于规则,对某些语法变体处理不佳
  • 图形解析器难以识别复杂关系(如切线)
  • 定理库不够完善,缺少某些关键定理(如正六边形内角120度)
  • 消歧模块依赖 MLLM 的零样本能力,对格式错误不够鲁棒
  • 未在更大规模或更高难度的几何数据集上验证

相关工作与启发

  • AlphaGeometry2:展示了 LLM 在几何推理中的潜力,但主要关注语言处理忽略了图形
  • GeoDRL:将深度强化学习引入定理预测,是本文的重要基线
  • E-GPS:结合了自上而下和自下而上推理,减少解题步数
  • 对多模态推理中的歧义问题研究,可以给 VQA、图表理解等相关领域带来启发

评分

  • 新颖性: ⭐⭐⭐⭐ — 问题发现新颖但解决方案相对简单
  • 实验充分度: ⭐⭐⭐⭐⭐ — 消融全面,对比充分
  • 写作质量: ⭐⭐⭐⭐ — 结构清晰,例子直观
  • 价值: ⭐⭐⭐⭐ — 揭示了被忽视的关键因素,提供了可复现的改进思路