RealMath: A Continuous Benchmark for Evaluating Language Models on Research-Level Mathematics¶

会议: NeurIPS 2025
arXiv: 2505.12575
代码: GitHub / HuggingFace
领域: LLM推理 / 数学基准评测
关键词: 数学推理, 研究级数学, benchmark, 数据污染, 自动评测

一句话总结¶

提出 RealMath，一个从 arXiv 论文和 Math StackExchange 中自动提取可验证数学问题的可持续刷新基准，用于评估 LLM 在真实研究级数学任务上的能力。

研究背景与动机¶

领域现状: 现有数学推理基准主要来源于三类：(1) 课程/竞赛题 (GSM8K, MATH, AIME, IMO)；(2) 形式化定理证明 (LeanDojo, MiniF2F)；(3) 专家人工构造的极难问题 (FrontierMath, HLE)。

现有痛点: 这些基准只覆盖了数学实践的狭窄切面——竞赛数学 ≠ 研究数学；形式化证明 ≠ 日常数学研究；极难问题仅关注人类专家最前沿能力。

核心矛盾: 真实数学研究中遇到的问题在结构、主题和难度上与竞赛题有本质差异，但现有基准无法反映 LLM 在真实研究场景中的辅助价值。

本文目标 构建一个能反映真实数学研究实践、支持自动评测、且可持续刷新以抵抗数据污染的数学推理基准。

切入角度: 从 arXiv 论文和 StackExchange 中自动提取带有确定性答案的数学定理，转化为 QA 对。

核心 idea: 用自动化 pipeline 从学术论文中提取"构造性定理"（有唯一精确答案），作为评估 LLM 研究级数学能力的可刷新基准。

方法详解¶

整体框架¶

一个五阶段自动数据收集 pipeline：获取论文 → 提取 LaTeX 源码 → 识别构造性定理 → 生成 QA 对 → 过滤简单问题。

关键设计¶

论文获取与解析: 从 arXiv API 批量获取数学相关论文（如5个月约4000篇），下载并解析 LaTeX 源码以保留数学符号。
构造性定理识别: 使用 LLM（o3-mini）作为 judge，从提取的定理中筛选出具有唯一精确答案的定理。排除不等式、多解、非构造性证明类定理。从 ~14,747 个定理中筛出 407 个。
QA 对生成: 将选中的定理转化为问答对，保留定理前的上下文（论文introduction到定理之前的内容）作为 context。
质量过滤: 通过 LLM 审查过滤掉答案显而易见或过于简单的样本，最终保留约 280 个高质量 QA 对（5个月窗口内）。
可持续刷新: pipeline 可以持续运行，每月生成 70+ 新样本，自动抵抗数据污染。

设计标准¶

真实应用导向: 源自实际研究论文，而非人工构造
自动验证: 仅保留有精确数值或符号答案的问题
持续采集: 与新发论文同步更新，避免污染

数据规模与来源¶

数据集	时间跨度	QA 对数量
Math.arXiv	2022.05-2022.09 + 2024.12-2025.03	633
CS.arXiv	2022.05-2023.10	111
Math.StackExchange	2024.04-2025.03	542

Pipeline 各阶段数据量（以4000篇论文为例）¶

阶段	输出量
获取论文	4,000 篇
提取 LaTeX 源码	3,922 篇
提取所有定理	14,747 个
确认构造性定理	407 个
生成 QA 对	401 对
过滤简单问题	280 对

实验关键数据¶

主实验¶

模型	Math.arXiv	CS.arXiv	Math.StackExchange
o3	49.1	44.1	70.7
o4-mini	43.4	42.3	70.8
Gemini 2.5-pro	32.5	25.2	60.9
DeepSeek-R1	30.5	31.5	62.2
Claude 3.7-Sonnet	34.1	31.5	61.1
Grok 3	29.5	25.2	54.8
Claude 3.5-Sonnet	18.3	16.2	37.6
Llama 3.1-405B	16.4	15.3	32.1
GPT-4o-mini	12.5	7.2	40.8

难度分层分析¶

难度	o3 准确率
Easy	97.5%
Medium	81.4%
Hard	27.9%

关键发现¶

LLM 在研究数学上表现意外强劲: o3 在 Math.arXiv 上达到 49.1%，远高于在 FrontierMath 等极难基准上的表现，说明 LLM 已可作为数学家的有价值助手。
模型间能力画像不同: o3 擅长表示论、数论等高度理论化领域；Gemini 2.5-pro 在机器学习、优化等实用领域更强——两者最佳/最差领域几乎互补。
上下文并非总是必要: o4-mini 在 CS.arXiv 上即使不提供上下文也能达到 21.6%（有上下文 42.3%），说明模型能自行推断部分符号和概念。
无数据污染证据: 模型在 2025 年新论文上反而比 2022 年旧论文表现更好。
微调效果有限: 对 GPT-4o-mini 微调 500 个样本后准确率未提升，说明瓶颈在于缺乏专业数学知识/技能。
主要错误类型: 推理缺陷 > 概念误解 > 遗漏关键洞察。

亮点与洞察¶

范式创新: 首次提出从真实学术论文中自动构建数学 benchmark 的 pipeline，打破了"竞赛题"和"专家手工构造"的范式。
可持续性: 可自动持续刷新的设计比 FrontierMath（私有固定测试集）更具可持续性和可复现性。
实用洞察: 揭示了 LLM 在研究级数学上可能已具备实用价值（~50% 准确率），而此前基准（如 FrontierMath 接近 0%）给出了过度悲观的信号。
数据质量: 无需人工标注即达到 94% 的高质量率，在 9000+ 篇论文中提取 633 个高质量样本。
能力画像差异: 不同模型在不同数学子领域的表现差异巨大且互补，o3 和 Gemini 2.5-pro 的最强/最弱领域几乎完全相反。
定理QA转化设计: 将定理转化为"给定上下文+问答"的形式，保留了原始数学符号和前提条件，比直接评估定理证明更可扩展。

局限与展望¶

仅评估构造性问题: 排除了证明题、不等式、开放性问题等数学研究的重要组成部分。
依赖论文正确性: 假设 arXiv 论文中的定理正确，但 arXiv 论文未经同行评审。
StackExchange 数据质量较低: 用户提交内容常有错误或描述不清。
初始表现较高: 整体准确率相对较高（o3: 49%），可能面临"天花板"问题。
评测范围: 仅关注定理验证能力，未覆盖证明生成、数学建模等能力。

评分¶

新颖性: ⭐⭐⭐⭐ (从真实论文构建benchmark的新范式)
实验充分度: ⭐⭐⭐⭐ (覆盖10+模型、多数据源、多维度分析)
写作质量: ⭐⭐⭐⭐ (清晰流畅，动机论述充分)
价值: ⭐⭐⭐⭐ (填补了研究级数学评测的空白，pipeline可持续使用)