GeoGramBench: Benchmarking the Geometric Program Reasoning in Modern LLMs¶

会议: ICLR 2026
arXiv: 2505.17653
代码: GitHub
领域: LLM推理
关键词: 几何推理, 程序转几何, benchmark, 空间推理, Asymptote代码

一句话总结¶

形式化Program-to-Geometry任务并提出GeoGramBench（500题），按三级几何复杂度分类法评估19个前沿LLM从过程式绘图代码构建几何表征并推理的能力，发现即使GPT-5在最高抽象级别也仅39.26%准确率，揭示了LLM空间抽象的根本性短板。

研究背景与动机¶

领域现状：空间推理是人类认知和AI的基础能力，支撑机器人、自动导航、自动设计等应用。LLM在解释几何变换和空间关系方面引起广泛关注，但从过程式代码进行几何推理的能力被严重忽视。

现有痛点：既有benchmark（如MathVerse, GeoSense, Euclid）聚焦视觉几何理解；MATH-500和AIME24虽包含少量Asymptote代码题，但缺乏系统性的Program-to-Geometry评测。更关键的是，现有基准未识别到代码中的答案泄露问题——代码参数可直接或间接暴露答案。

核心矛盾：初步研究表明LLM在从代码到空间推理的过渡中存在显著性能下降。DeepSeek-R1在含Asymptote代码的几何题（\(\mathbb{P}_{TC}\)）上比纯文本题（\(\mathbb{P}_T\)）准确率骤降23.5%（AIME24）和10.9%（MATH-500）。GPT-o1和QwQ-32B也呈现类似趋势。

本文方案：形式化Program-to-Geometry任务定义，提出GeoGramBench（500题精心策划的几何题含过程式绘图代码），配套三级几何复杂度分类法而非传统推理难度分类。

方法详解¶

整体框架¶

任务定义：给定文本描述和几何绘图代码（Asymptote/Matplotlib），模型需解析代码构建内部几何表征，并基于该表征进行推理得到数值答案（长度/面积/体积/角度/比例/计数）。

分类法基于几何复杂度而非推理步骤： 1. Primitive Recognition（基元识别）：1-2个几何基元（点/线/弧/圆/多边形），聚焦长度/面积/角度等基本属性 2. Local Relation Composition（局部关系组合）：多个局部几何元素，需识别和整合子组件间的空间关系 3. Global Abstract Integration（全局抽象整合）：涉及空间方向/参数化/递归/3D对象/复合结构/高级几何操作（旋转/折叠/投影）

关键设计1: 答案泄露防护¶

功能：确保模型无法通过检查代码直接获得答案，必须真正进行几何推理。

核心思路：识别两类泄露—— - 直接泄露：答案显式编码为坐标值（如圆半径、线段长度），处理方法为重缩放坐标同时保持几何形状 - 间接泄露：答案可从代码参数或公式计算得出，处理方法为修改或遮蔽关键代码参数

设计动机：在MATH-500中发现大量Asymptote代码直接包含答案的情况，不解决此问题将使评估失效。经4位专家（硕士及以上数学背景）两轮人工验证确保每道题的答案不可从代码检查获得。

关键设计2: 基于几何复杂度的分类法验证¶

功能：证明几何复杂度而非推理步骤数是Program-to-Geometry任务的主要挑战。

核心思路：在QwQ-32B上对比MATH-500的推理复杂度（按MATH-500标注）和几何复杂度： - 纯文本题（\(\mathbb{P}_T\)）：准确率随推理复杂度增加而下降——符合传统benchmark - 含代码题（\(\mathbb{P}_{TC}\)）：准确率与推理复杂度基本无关，但随几何复杂度增加显著下降

设计动机：传统基于推理步骤的分类法（高中→竞赛级）不适用于此任务。几何复杂度分类法能更准确捕获模型瓶颈。

数据构建流程¶

从3个开源数学数据集（NuminaMath-1.5, HARP, Omni-MATH）聚合约905K候选题 → 过滤含Asymptote代码的9,260题 → n-gram去重至1,782题 → GPT-4o筛选几何题得1,247题 → 两轮人工验证（格式规范化+质量提升：去污染/答案泄露防护/准确性校验）→ 392题 → 增补AIME24(5题)/MATH-500(42题)/Mathverse(61题固体几何手写matplotlib代码) → 最终500题。

实验关键数据¶

主实验：19个LLM在GeoGramBench上的表现¶

模型	Primitive	Compositional	Abstract	总平均
GPT-5	90.44%	84.59%	39.26%	75.01%
Qwen3-235B-Think	89.09%	79.12%	49.05%	74.00%
GPT-o1	85.92%	76.12%	44.67%	70.92%
GPT-o3-mini	83.49%	76.10%	42.67%	70.00%
DeepSeek-R1	84.68%	75.13%	40.86%	69.17%
QwQ-32B	85.17%	73.12%	37.92%	67.12%
GPT-4o	40.02%	21.36%	4.51%	21.40%
DeepScaleR-1.5B	65.44%	47.89%	15.76%	43.83%

所有模型在Abstract级别均低于50%，GPT-5仅39.26%。

消融实验：绘图语言影响¶

基准	Asymptote代码	Matplotlib代码	差异
AIME24 (QwQ-32B)	~X%	~X%	< 1%
MATH-500 (QwQ-32B)	~X%	~X%	< 1%

绘图语言的选择几乎不影响性能，瓶颈在于空间抽象而非代码语法理解。

关键发现¶

最难子类型：Primitive/Compositional级别中角度题最难（需重建和推理隐式空间关系）；Abstract级别中面积和体积最难（需完整3D空间理解）
CoT推理效果有限：Token Budget Forcing增加77.4%的token数（10,544→18,710）仅提升0.30%准确率（54.60%→54.90%），说明瓶颈不在推理长度而在空间表征构建能力
领域数据微调饱和效应：添加100个GeoGramBench训练样本可提升3.02%，但从100增至300样本仅额外提升0.58%，瓶颈在模型架构而非数据量
常见失败模式：（1）偏好代数方法而非几何构造；（2）极少引入辅助线/点；（3）空间方向（顺/逆时针）判断困难；（4）符号-几何元素映射混淆

亮点与洞察¶

首次形式化Program-to-Geometry任务并构建专用大规模benchmark
几何复杂度分类法的验证实验极具说服力——证明此任务的难度来源与传统数学推理不同
答案泄露问题的识别和系统性防护是重要贡献，提升了评估的有效性
行为分析（RQ1-3）提供了对LLM内部几何推理机制的深入洞察
假设的"多阶段内部几何表征过程"（附录H）为未来研究提供了有价值的框架

局限与展望¶

仅覆盖2D和简单3D几何，未涉及真实世界3D场景
失败模式分析主要基于定性观察，缺乏自动化的系统性诊断工具
500题规模虽为最大Program-to-Geometry评测集，但各子类型分布不均（Volume仅27题）
仅测试zero-shot设置，未探索few-shot或in-context learning的潜力
微调实验仅使用s1.1-32B单一模型

评分¶

新颖性: ⭐⭐⭐⭐ 首个专用Program-to-Geometry评测基准，任务定义清晰且分类法有理论支撑
实验充分度: ⭐⭐⭐⭐⭐ 19个模型广泛评测，含行为分析、微调消融、CoT分析、绘图语言对比
写作质量: ⭐⭐⭐⭐ 结构完整，研究问题驱动分析，图表丰富清晰
价值: ⭐⭐⭐⭐ 揭示LLM空间推理的根本性短板，对未来模型设计有重要指导意义