From Abstract to Contextual: What LLMs Still Cannot Do in Mathematics¶
会议: ICLR 2026
arXiv: 2601.23048
代码: 无
领域: LLM推理
关键词: 数学推理, 情境推理, 问题建模, 基准评测, LLM能力评估
一句话总结¶
本文提出 ContextMATH 基准,通过将 AIME 和 MATH-500 的抽象数学问题转换为两种情境变体(场景嵌入 SG 和复杂度缩放 CS),系统揭示了LLM在情境化数学推理中的大幅性能下降——开源模型在 SG 上平均下降 13%,CS 上下降 34%——并识别出"问题建模"和"推理执行"是两个互补的性能瓶颈。
研究背景与动机¶
LLM 在数学基准测试上已取得接近完美的表现(AIME 接近满分,甚至达到 IMO 金牌水平),但这种成功仍局限于定义明确的抽象问题。在实际应用中,数学问题往往以叙事情境的形式出现——从金融分析到科学研究,数学核心需要从具体描述中提取和建模。
现有数学基准(如 GSM8K、MATH、AIME)几乎全部针对抽象问题,即使包含简单叙事(如"Jack 有 8 支笔"),这些上下文也浅薄且有限。这导致一个关键能力——情境化数学推理(contextual mathematical reasoning)——一直未被充分评估。本文试图回答:当数学核心被嵌入叙事场景时,LLM 的表现如何?
方法详解¶
整体框架¶
ContextMATH 基于 AIME 2024、AIME 2025 和 MATH-500(难度 ≥3)构建,将每道原始问题转换为两种情境变体,并在 61 个模型(46 个开源 + 15 个商用)上进行系统评估。
关键设计¶
场景嵌入(Scenario Grounding, SG):将抽象数学结构嵌入具有真实实体和交互的叙事场景中,数学推理核心不变。例如,将变量 (a, b, c) 映射为系统组件。SG 主要测试模型在存在情境噪声时能否正确理解和应用其数学知识。
复杂度缩放(Complexity Scaling, CS):将显式条件隐藏在子问题中。例如,直接给出"25 个指示灯"变为"指示灯的唯一配对数恰好为 300"。CS 不仅引入情境化,还要求模型先解决子问题恢复原始条件,模拟现实中约束条件间接给出的情况,同时减少对表面模式匹配的依赖。
问题建模评估:为深入分析失败原因,专门设计了三个指标评估模型从情境中抽取数学建模的能力: - 建模准确率(Formulation Accuracy):模型正确将情境翻译为数学问题的比率 - 建模必要性(Formulation Necessity):P(建模正确 | 答案正确),衡量正确建模对正确求解的必要程度 - 建模充分性(Formulation Sufficiency):P(答案正确 | 建模正确),衡量正确建模能否可靠地导向正确答案
基准构建:使用 o1-mini 通过多步提示生成情境变体,然后由 3 位具有计算机科学高级学位和竞赛数学背景的专家独立审核,确保数学等价性、叙事可信度和无歧义性。SG 平均 133 词,CS 平均 176 词。
损失函数 / 训练策略¶
在训练实验部分,作者探索了两种策略:
端到端微调:基于 DeepMath-103K 数据集,使用 Qwen3-Base 系列在三种数据配置下 SFT: - SFT_Ori:仅原始数学问题(50k) - SFT_Syn:仅合成情境问题(50k) - SFT_Mix:两者混合(100k)
专用建模模型训练:将情境-原始问题对作为训练数据,训练专门的建模模型,再与求解器串联。测试了未微调和微调两种设置。
实验关键数据¶
主实验¶
商用模型在 ContextMATH 上的性能下降:
| 模型 | AIME24-Ori | AIME24-SG | AIME24-CS | AIME25-Ori | AIME25-SG | AIME25-CS |
|---|---|---|---|---|---|---|
| GPT-5 | 90.0% | 83.3% (-7%) | 80.0% (-11%) | 90.0% | 80.0% (-11%) | 66.7% (-26%) |
| DeepSeek-R1 | 93.3% | 70.0% (-25%) | 66.7% (-29%) | 86.7% | 73.3% (-15%) | 53.3% (-38%) |
| Gemini 2.5 Pro | 83.3% | 73.3% (-12%) | 76.7% (-8%) | 83.3% | 56.7% (-32%) | 50.0% (-40%) |
| o3 | 83.3% | 70.0% (-16%) | 66.7% (-20%) | 76.7% | 70.0% (-9%) | 60.0% (-22%) |
| Qwen3-32B | 81.2% | 67.9% (-16%) | 57.1% (-30%) | 70.0% | 54.4% (-22%) | 45.0% (-36%) |
关键发现:即使 GPT-5 在 AIME25-CS 上也下降 26%;DeepSeek-R1 在 AIME25-CS 上下降 38%。
消融实验¶
| 实验维度 | 关键结论 |
|---|---|
| 建模分析 (GPT-5) | 平均建模准确率 81.4%,必要性 85.6%,充分性 82.7% |
| 模型规模效应 | Qwen3-0.6B 建模 42.8% → Qwen3-32B 75.0%,规模有帮助但不解决问题 |
| 错误类型分析 | 建模错误占约 80%,远超计算、逻辑和其他错误 |
| SFT 效果 (14B) | SFT_Mix 在 AIME24-SG 从 11.0%→52.5%,平均提升 31.9% |
| SFT_Ori vs SFT_Syn | 情境数据(SFT_Syn)在情境问题上更有效,混合(SFT_Mix)整体最优 |
| 专用建模模型 | 直接求解(57.7%) > 未微调建模+求解(56.2%) > 微调建模+求解(24.6%) |
| 泛化评估 | SFT_Mix 在 AMC23 和 Math-Perturb 上也有提升,不损害抽象推理能力 |
关键发现¶
- 情境化是普遍瓶颈:无论开源还是商用模型,从抽象到情境的性能下降是普遍的,CS 比 SG 下降更严重
- 建模是首要瓶颈:正确求解的样本中,建模准确率显著高于平均水平(必要性高);但正确建模并不总能导向正确答案(充分性不足)
- 两个互补瓶颈:建模能力和推理能力是两个独立但互补的瓶颈,随模型规模增大两者都改善但不消除
- 过度专业化风险:进一步的 SFT/RL 可能过拟合到标准格式,在 SG/CS 上反而下降更多
- 建模不可独立训练:专用建模模型训练后串联求解器,性能反而崩溃(从 57.7% 降至 ~22%),说明建模能力很难从配对监督中单独习得
亮点与洞察¶
- 精准问题定义:将"情境化数学推理"明确为一个独立的、未被充分研究的能力维度,不同于简单的数学应用题
- 实验设计巧妙:SG 保持推理难度不变只增加情境,CS 同时增加条件恢复的认知负担,两者互补形成完整的评估谱系
- 瓶颈分析深入:通过必要性和充分性的概率框架,精确刻画了建模与推理之间的依赖关系
- 大规模评估:61 个模型的评估覆盖从 0.6B 到 GPT-5 的完整规模谱,家族内对比(base→SFT→RL)提供了训练策略的系统证据
局限与展望¶
- 情境变体由 LLM 生成后人工审核,可能存在分布偏差;未来可探索更多样的情境生成方式
- 未为 MATH-500 构建 CS 变体(部分问题过于简单),覆盖范围有待扩展
- 专用建模模型训练失败的原因分析不够深入,未探索其他训练策略(如 RL、多任务等)
- 评估局限于最终答案正确性,未分析中间推理链的质量
相关工作与启发¶
本文与 GSM8K/MATH 等传统数学基准形成互补,将评估从"模型能否解方程"推进到"模型能否从叙事中建立方程"。与 Cheng et al. (2025) 的结论形成有趣对比:后者在简单基准上发现建模不是主要瓶颈,而本文在复杂情境中证明建模是首要瓶颈。这启示我们:LLM 的数学能力评估需要区分"格式化解题"和"理解问题"两个层面。
评分¶
- 新颖性: ⭐⭐⭐⭐ — 问题定义清晰且重要,SG/CS 双变体设计有创意
- 实验充分度: ⭐⭐⭐⭐⭐ — 61 个模型的大规模评估,多维度分析和训练实验
- 写作质量: ⭐⭐⭐⭐⭐ — 结构严谨,分析层层递进,图表信息量大
- 价值: ⭐⭐⭐⭐⭐ — 揭示了 LLM 数学推理中被忽视的核心短板