From Abstract to Contextual: What LLMs Still Cannot Do in Mathematics¶

会议: ICLR 2026
arXiv: 2601.23048
代码: 无
领域: LLM推理
关键词: 数学推理, 情境推理, 问题建模, 基准评测, LLM能力评估

一句话总结¶

本文提出 ContextMATH 基准，通过将 AIME 和 MATH-500 的抽象数学问题转换为两种情境变体（场景嵌入 SG 和复杂度缩放 CS），系统揭示了LLM在情境化数学推理中的大幅性能下降——开源模型在 SG 上平均下降 13%，CS 上下降 34%——并识别出"问题建模"和"推理执行"是两个互补的性能瓶颈。

研究背景与动机¶

LLM 在数学基准测试上已取得接近完美的表现（AIME 接近满分，甚至达到 IMO 金牌水平），但这种成功仍局限于定义明确的抽象问题。在实际应用中，数学问题往往以叙事情境的形式出现——从金融分析到科学研究，数学核心需要从具体描述中提取和建模。

现有数学基准（如 GSM8K、MATH、AIME）几乎全部针对抽象问题，即使包含简单叙事（如"Jack 有 8 支笔"），这些上下文也浅薄且有限。这导致一个关键能力——情境化数学推理（contextual mathematical reasoning）——一直未被充分评估。本文试图回答：当数学核心被嵌入叙事场景时，LLM 的表现如何？

方法详解¶

整体框架¶

ContextMATH 基于 AIME 2024、AIME 2025 和 MATH-500（难度 ≥3）构建，将每道原始问题转换为两种情境变体，并在 61 个模型（46 个开源 + 15 个商用）上进行系统评估。

关键设计¶

场景嵌入（Scenario Grounding, SG）：将抽象数学结构嵌入具有真实实体和交互的叙事场景中，数学推理核心不变。例如，将变量 (a, b, c) 映射为系统组件。SG 主要测试模型在存在情境噪声时能否正确理解和应用其数学知识。

复杂度缩放（Complexity Scaling, CS）：将显式条件隐藏在子问题中。例如，直接给出"25 个指示灯"变为"指示灯的唯一配对数恰好为 300"。CS 不仅引入情境化，还要求模型先解决子问题恢复原始条件，模拟现实中约束条件间接给出的情况，同时减少对表面模式匹配的依赖。

问题建模评估：为深入分析失败原因，专门设计了三个指标评估模型从情境中抽取数学建模的能力： - 建模准确率（Formulation Accuracy）：模型正确将情境翻译为数学问题的比率 - 建模必要性（Formulation Necessity）：P(建模正确 | 答案正确)，衡量正确建模对正确求解的必要程度 - 建模充分性（Formulation Sufficiency）：P(答案正确 | 建模正确)，衡量正确建模能否可靠地导向正确答案

基准构建：使用 o1-mini 通过多步提示生成情境变体，然后由 3 位具有计算机科学高级学位和竞赛数学背景的专家独立审核，确保数学等价性、叙事可信度和无歧义性。SG 平均 133 词，CS 平均 176 词。

损失函数 / 训练策略¶

在训练实验部分，作者探索了两种策略：

端到端微调：基于 DeepMath-103K 数据集，使用 Qwen3-Base 系列在三种数据配置下 SFT： - SFT_Ori：仅原始数学问题（50k） - SFT_Syn：仅合成情境问题（50k） - SFT_Mix：两者混合（100k）

专用建模模型训练：将情境-原始问题对作为训练数据，训练专门的建模模型，再与求解器串联。测试了未微调和微调两种设置。

实验关键数据¶

主实验¶

商用模型在 ContextMATH 上的性能下降：

模型	AIME24-Ori	AIME24-SG	AIME24-CS	AIME25-Ori	AIME25-SG	AIME25-CS
GPT-5	90.0%	83.3% (-7%)	80.0% (-11%)	90.0%	80.0% (-11%)	66.7% (-26%)
DeepSeek-R1	93.3%	70.0% (-25%)	66.7% (-29%)	86.7%	73.3% (-15%)	53.3% (-38%)
Gemini 2.5 Pro	83.3%	73.3% (-12%)	76.7% (-8%)	83.3%	56.7% (-32%)	50.0% (-40%)
o3	83.3%	70.0% (-16%)	66.7% (-20%)	76.7%	70.0% (-9%)	60.0% (-22%)
Qwen3-32B	81.2%	67.9% (-16%)	57.1% (-30%)	70.0%	54.4% (-22%)	45.0% (-36%)

关键发现：即使 GPT-5 在 AIME25-CS 上也下降 26%；DeepSeek-R1 在 AIME25-CS 上下降 38%。

消融实验¶

实验维度	关键结论
建模分析 (GPT-5)	平均建模准确率 81.4%，必要性 85.6%，充分性 82.7%
模型规模效应	Qwen3-0.6B 建模 42.8% → Qwen3-32B 75.0%，规模有帮助但不解决问题
错误类型分析	建模错误占约 80%，远超计算、逻辑和其他错误
SFT 效果 (14B)	SFT_Mix 在 AIME24-SG 从 11.0%→52.5%，平均提升 31.9%
SFT_Ori vs SFT_Syn	情境数据(SFT_Syn)在情境问题上更有效，混合(SFT_Mix)整体最优
专用建模模型	直接求解(57.7%) > 未微调建模+求解(56.2%) > 微调建模+求解(24.6%)
泛化评估	SFT_Mix 在 AMC23 和 Math-Perturb 上也有提升，不损害抽象推理能力

关键发现¶

情境化是普遍瓶颈：无论开源还是商用模型，从抽象到情境的性能下降是普遍的，CS 比 SG 下降更严重
建模是首要瓶颈：正确求解的样本中，建模准确率显著高于平均水平（必要性高）；但正确建模并不总能导向正确答案（充分性不足）
两个互补瓶颈：建模能力和推理能力是两个独立但互补的瓶颈，随模型规模增大两者都改善但不消除
过度专业化风险：进一步的 SFT/RL 可能过拟合到标准格式，在 SG/CS 上反而下降更多
建模不可独立训练：专用建模模型训练后串联求解器，性能反而崩溃（从 57.7% 降至 ~22%），说明建模能力很难从配对监督中单独习得

亮点与洞察¶

精准问题定义：将"情境化数学推理"明确为一个独立的、未被充分研究的能力维度，不同于简单的数学应用题
实验设计巧妙：SG 保持推理难度不变只增加情境，CS 同时增加条件恢复的认知负担，两者互补形成完整的评估谱系
瓶颈分析深入：通过必要性和充分性的概率框架，精确刻画了建模与推理之间的依赖关系
大规模评估：61 个模型的评估覆盖从 0.6B 到 GPT-5 的完整规模谱，家族内对比（base→SFT→RL）提供了训练策略的系统证据

局限与展望¶

情境变体由 LLM 生成后人工审核，可能存在分布偏差；未来可探索更多样的情境生成方式
未为 MATH-500 构建 CS 变体（部分问题过于简单），覆盖范围有待扩展
专用建模模型训练失败的原因分析不够深入，未探索其他训练策略（如 RL、多任务等）
评估局限于最终答案正确性，未分析中间推理链的质量

评分¶

新颖性: ⭐⭐⭐⭐ — 问题定义清晰且重要，SG/CS 双变体设计有创意
实验充分度: ⭐⭐⭐⭐⭐ — 61 个模型的大规模评估，多维度分析和训练实验
写作质量: ⭐⭐⭐⭐⭐ — 结构严谨，分析层层递进，图表信息量大
价值: ⭐⭐⭐⭐⭐ — 揭示了 LLM 数学推理中被忽视的核心短板