跳转至

RealMath: A Continuous Benchmark for Evaluating Language Models on Research-Level Mathematics

会议: NeurIPS 2025
arXiv: 2505.12575
代码: GitHub / HuggingFace
领域: LLM推理 / 数学基准评测
关键词: 数学推理, 研究级数学, benchmark, 数据污染, 自动评测

一句话总结

提出 RealMath,一个从 arXiv 论文和 Math StackExchange 中自动提取可验证数学问题的可持续刷新基准,用于评估 LLM 在真实研究级数学任务上的能力。

研究背景与动机

领域现状: 现有数学推理基准主要来源于三类:(1) 课程/竞赛题 (GSM8K, MATH, AIME, IMO);(2) 形式化定理证明 (LeanDojo, MiniF2F);(3) 专家人工构造的极难问题 (FrontierMath, HLE)。

现有痛点: 这些基准只覆盖了数学实践的狭窄切面——竞赛数学 ≠ 研究数学;形式化证明 ≠ 日常数学研究;极难问题仅关注人类专家最前沿能力。

核心矛盾: 真实数学研究中遇到的问题在结构、主题和难度上与竞赛题有本质差异,但现有基准无法反映 LLM 在真实研究场景中的辅助价值。

本文目标 构建一个能反映真实数学研究实践、支持自动评测、且可持续刷新以抵抗数据污染的数学推理基准。

切入角度: 从 arXiv 论文和 StackExchange 中自动提取带有确定性答案的数学定理,转化为 QA 对。

核心 idea: 用自动化 pipeline 从学术论文中提取"构造性定理"(有唯一精确答案),作为评估 LLM 研究级数学能力的可刷新基准。

方法详解

整体框架

一个五阶段自动数据收集 pipeline:获取论文 → 提取 LaTeX 源码 → 识别构造性定理 → 生成 QA 对 → 过滤简单问题。

关键设计

  1. 论文获取与解析: 从 arXiv API 批量获取数学相关论文(如5个月约4000篇),下载并解析 LaTeX 源码以保留数学符号。
  2. 构造性定理识别: 使用 LLM(o3-mini)作为 judge,从提取的定理中筛选出具有唯一精确答案的定理。排除不等式、多解、非构造性证明类定理。从 ~14,747 个定理中筛出 407 个。
  3. QA 对生成: 将选中的定理转化为问答对,保留定理前的上下文(论文introduction到定理之前的内容)作为 context。
  4. 质量过滤: 通过 LLM 审查过滤掉答案显而易见或过于简单的样本,最终保留约 280 个高质量 QA 对(5个月窗口内)。
  5. 可持续刷新: pipeline 可以持续运行,每月生成 70+ 新样本,自动抵抗数据污染。

设计标准

  • 真实应用导向: 源自实际研究论文,而非人工构造
  • 自动验证: 仅保留有精确数值或符号答案的问题
  • 持续采集: 与新发论文同步更新,避免污染

数据规模与来源

数据集 时间跨度 QA 对数量
Math.arXiv 2022.05-2022.09 + 2024.12-2025.03 633
CS.arXiv 2022.05-2023.10 111
Math.StackExchange 2024.04-2025.03 542

Pipeline 各阶段数据量(以4000篇论文为例)

阶段 输出量
获取论文 4,000 篇
提取 LaTeX 源码 3,922 篇
提取所有定理 14,747 个
确认构造性定理 407 个
生成 QA 对 401 对
过滤简单问题 280 对

实验关键数据

主实验

模型 Math.arXiv CS.arXiv Math.StackExchange
o3 49.1 44.1 70.7
o4-mini 43.4 42.3 70.8
Gemini 2.5-pro 32.5 25.2 60.9
DeepSeek-R1 30.5 31.5 62.2
Claude 3.7-Sonnet 34.1 31.5 61.1
Grok 3 29.5 25.2 54.8
Claude 3.5-Sonnet 18.3 16.2 37.6
Llama 3.1-405B 16.4 15.3 32.1
GPT-4o-mini 12.5 7.2 40.8

难度分层分析

难度 o3 准确率
Easy 97.5%
Medium 81.4%
Hard 27.9%

关键发现

  1. LLM 在研究数学上表现意外强劲: o3 在 Math.arXiv 上达到 49.1%,远高于在 FrontierMath 等极难基准上的表现,说明 LLM 已可作为数学家的有价值助手。
  2. 模型间能力画像不同: o3 擅长表示论、数论等高度理论化领域;Gemini 2.5-pro 在机器学习、优化等实用领域更强——两者最佳/最差领域几乎互补。
  3. 上下文并非总是必要: o4-mini 在 CS.arXiv 上即使不提供上下文也能达到 21.6%(有上下文 42.3%),说明模型能自行推断部分符号和概念。
  4. 无数据污染证据: 模型在 2025 年新论文上反而比 2022 年旧论文表现更好。
  5. 微调效果有限: 对 GPT-4o-mini 微调 500 个样本后准确率未提升,说明瓶颈在于缺乏专业数学知识/技能。
  6. 主要错误类型: 推理缺陷 > 概念误解 > 遗漏关键洞察。

亮点与洞察

  1. 范式创新: 首次提出从真实学术论文中自动构建数学 benchmark 的 pipeline,打破了"竞赛题"和"专家手工构造"的范式。
  2. 可持续性: 可自动持续刷新的设计比 FrontierMath(私有固定测试集)更具可持续性和可复现性。
  3. 实用洞察: 揭示了 LLM 在研究级数学上可能已具备实用价值(~50% 准确率),而此前基准(如 FrontierMath 接近 0%)给出了过度悲观的信号。
  4. 数据质量: 无需人工标注即达到 94% 的高质量率,在 9000+ 篇论文中提取 633 个高质量样本。
  5. 能力画像差异: 不同模型在不同数学子领域的表现差异巨大且互补,o3 和 Gemini 2.5-pro 的最强/最弱领域几乎完全相反。
  6. 定理QA转化设计: 将定理转化为"给定上下文+问答"的形式,保留了原始数学符号和前提条件,比直接评估定理证明更可扩展。

局限与展望

  1. 仅评估构造性问题: 排除了证明题、不等式、开放性问题等数学研究的重要组成部分。
  2. 依赖论文正确性: 假设 arXiv 论文中的定理正确,但 arXiv 论文未经同行评审。
  3. StackExchange 数据质量较低: 用户提交内容常有错误或描述不清。
  4. 初始表现较高: 整体准确率相对较高(o3: 49%),可能面临"天花板"问题。
  5. 评测范围: 仅关注定理验证能力,未覆盖证明生成、数学建模等能力。

相关工作与启发

  • vs FrontierMath: FrontierMath 关注极难问题 + 私有测试集;RealMath 覆盖全难度范围 + 可公开刷新
  • vs MathConstruct: 类似构造性问题思路,但 RealMath 直接从论文提取而非人工设计
  • vs SWE-bench: 与软件工程领域"从真实任务评估"的趋势类似,数学领域的"in the wild"评测

评分

  • 新颖性: ⭐⭐⭐⭐ (从真实论文构建benchmark的新范式)
  • 实验充分度: ⭐⭐⭐⭐ (覆盖10+模型、多数据源、多维度分析)
  • 写作质量: ⭐⭐⭐⭐ (清晰流畅,动机论述充分)
  • 价值: ⭐⭐⭐⭐ (填补了研究级数学评测的空白,pipeline可持续使用)