RealMath: A Continuous Benchmark for Evaluating Language Models on Research-Level Mathematics¶
会议: NeurIPS 2025
arXiv: 2505.12575
代码: GitHub / HuggingFace
领域: LLM推理 / 数学基准评测
关键词: 数学推理, 研究级数学, benchmark, 数据污染, 自动评测
一句话总结¶
提出 RealMath,一个从 arXiv 论文和 Math StackExchange 中自动提取可验证数学问题的可持续刷新基准,用于评估 LLM 在真实研究级数学任务上的能力。
研究背景与动机¶
领域现状: 现有数学推理基准主要来源于三类:(1) 课程/竞赛题 (GSM8K, MATH, AIME, IMO);(2) 形式化定理证明 (LeanDojo, MiniF2F);(3) 专家人工构造的极难问题 (FrontierMath, HLE)。
现有痛点: 这些基准只覆盖了数学实践的狭窄切面——竞赛数学 ≠ 研究数学;形式化证明 ≠ 日常数学研究;极难问题仅关注人类专家最前沿能力。
核心矛盾: 真实数学研究中遇到的问题在结构、主题和难度上与竞赛题有本质差异,但现有基准无法反映 LLM 在真实研究场景中的辅助价值。
本文目标 构建一个能反映真实数学研究实践、支持自动评测、且可持续刷新以抵抗数据污染的数学推理基准。
切入角度: 从 arXiv 论文和 StackExchange 中自动提取带有确定性答案的数学定理,转化为 QA 对。
核心 idea: 用自动化 pipeline 从学术论文中提取"构造性定理"(有唯一精确答案),作为评估 LLM 研究级数学能力的可刷新基准。
方法详解¶
整体框架¶
一个五阶段自动数据收集 pipeline:获取论文 → 提取 LaTeX 源码 → 识别构造性定理 → 生成 QA 对 → 过滤简单问题。
关键设计¶
- 论文获取与解析: 从 arXiv API 批量获取数学相关论文(如5个月约4000篇),下载并解析 LaTeX 源码以保留数学符号。
- 构造性定理识别: 使用 LLM(o3-mini)作为 judge,从提取的定理中筛选出具有唯一精确答案的定理。排除不等式、多解、非构造性证明类定理。从 ~14,747 个定理中筛出 407 个。
- QA 对生成: 将选中的定理转化为问答对,保留定理前的上下文(论文introduction到定理之前的内容)作为 context。
- 质量过滤: 通过 LLM 审查过滤掉答案显而易见或过于简单的样本,最终保留约 280 个高质量 QA 对(5个月窗口内)。
- 可持续刷新: pipeline 可以持续运行,每月生成 70+ 新样本,自动抵抗数据污染。
设计标准¶
- 真实应用导向: 源自实际研究论文,而非人工构造
- 自动验证: 仅保留有精确数值或符号答案的问题
- 持续采集: 与新发论文同步更新,避免污染
数据规模与来源¶
| 数据集 | 时间跨度 | QA 对数量 |
|---|---|---|
| Math.arXiv | 2022.05-2022.09 + 2024.12-2025.03 | 633 |
| CS.arXiv | 2022.05-2023.10 | 111 |
| Math.StackExchange | 2024.04-2025.03 | 542 |
Pipeline 各阶段数据量(以4000篇论文为例)¶
| 阶段 | 输出量 |
|---|---|
| 获取论文 | 4,000 篇 |
| 提取 LaTeX 源码 | 3,922 篇 |
| 提取所有定理 | 14,747 个 |
| 确认构造性定理 | 407 个 |
| 生成 QA 对 | 401 对 |
| 过滤简单问题 | 280 对 |
实验关键数据¶
主实验¶
| 模型 | Math.arXiv | CS.arXiv | Math.StackExchange |
|---|---|---|---|
| o3 | 49.1 | 44.1 | 70.7 |
| o4-mini | 43.4 | 42.3 | 70.8 |
| Gemini 2.5-pro | 32.5 | 25.2 | 60.9 |
| DeepSeek-R1 | 30.5 | 31.5 | 62.2 |
| Claude 3.7-Sonnet | 34.1 | 31.5 | 61.1 |
| Grok 3 | 29.5 | 25.2 | 54.8 |
| Claude 3.5-Sonnet | 18.3 | 16.2 | 37.6 |
| Llama 3.1-405B | 16.4 | 15.3 | 32.1 |
| GPT-4o-mini | 12.5 | 7.2 | 40.8 |
难度分层分析¶
| 难度 | o3 准确率 |
|---|---|
| Easy | 97.5% |
| Medium | 81.4% |
| Hard | 27.9% |
关键发现¶
- LLM 在研究数学上表现意外强劲: o3 在 Math.arXiv 上达到 49.1%,远高于在 FrontierMath 等极难基准上的表现,说明 LLM 已可作为数学家的有价值助手。
- 模型间能力画像不同: o3 擅长表示论、数论等高度理论化领域;Gemini 2.5-pro 在机器学习、优化等实用领域更强——两者最佳/最差领域几乎互补。
- 上下文并非总是必要: o4-mini 在 CS.arXiv 上即使不提供上下文也能达到 21.6%(有上下文 42.3%),说明模型能自行推断部分符号和概念。
- 无数据污染证据: 模型在 2025 年新论文上反而比 2022 年旧论文表现更好。
- 微调效果有限: 对 GPT-4o-mini 微调 500 个样本后准确率未提升,说明瓶颈在于缺乏专业数学知识/技能。
- 主要错误类型: 推理缺陷 > 概念误解 > 遗漏关键洞察。
亮点与洞察¶
- 范式创新: 首次提出从真实学术论文中自动构建数学 benchmark 的 pipeline,打破了"竞赛题"和"专家手工构造"的范式。
- 可持续性: 可自动持续刷新的设计比 FrontierMath(私有固定测试集)更具可持续性和可复现性。
- 实用洞察: 揭示了 LLM 在研究级数学上可能已具备实用价值(~50% 准确率),而此前基准(如 FrontierMath 接近 0%)给出了过度悲观的信号。
- 数据质量: 无需人工标注即达到 94% 的高质量率,在 9000+ 篇论文中提取 633 个高质量样本。
- 能力画像差异: 不同模型在不同数学子领域的表现差异巨大且互补,o3 和 Gemini 2.5-pro 的最强/最弱领域几乎完全相反。
- 定理QA转化设计: 将定理转化为"给定上下文+问答"的形式,保留了原始数学符号和前提条件,比直接评估定理证明更可扩展。
局限与展望¶
- 仅评估构造性问题: 排除了证明题、不等式、开放性问题等数学研究的重要组成部分。
- 依赖论文正确性: 假设 arXiv 论文中的定理正确,但 arXiv 论文未经同行评审。
- StackExchange 数据质量较低: 用户提交内容常有错误或描述不清。
- 初始表现较高: 整体准确率相对较高(o3: 49%),可能面临"天花板"问题。
- 评测范围: 仅关注定理验证能力,未覆盖证明生成、数学建模等能力。
相关工作与启发¶
- vs FrontierMath: FrontierMath 关注极难问题 + 私有测试集;RealMath 覆盖全难度范围 + 可公开刷新
- vs MathConstruct: 类似构造性问题思路,但 RealMath 直接从论文提取而非人工设计
- vs SWE-bench: 与软件工程领域"从真实任务评估"的趋势类似,数学领域的"in the wild"评测
评分¶
- 新颖性: ⭐⭐⭐⭐ (从真实论文构建benchmark的新范式)
- 实验充分度: ⭐⭐⭐⭐ (覆盖10+模型、多数据源、多维度分析)
- 写作质量: ⭐⭐⭐⭐ (清晰流畅,动机论述充分)
- 价值: ⭐⭐⭐⭐ (填补了研究级数学评测的空白,pipeline可持续使用)