ClozeMath: Improving Mathematical Reasoning in Language Models by Learning to Fill Equations¶
会议: ACL 2025
arXiv: 2506.03763
代码: 无(Qualcomm AI Research)
领域: LLM Reasoning
关键词: 数学推理, Text Infilling, 方程掩码, PrefixLM, Chain-of-Thought
一句话总结¶
ClozeMath 提出了一种受人类完形填空学习启发的微调策略,通过掩码数学解答中的方程式并训练模型预测它们(text-infilling目标),与标准语言模型目标联合训练,在GSM8K和MATH上显著超越了强基线Masked Thought,并在推理时间扩展和鲁棒性测试中表现出更好的泛化能力。
研究背景与动机¶
当前LLM的数学推理能力主要通过Chain-of-Thought(CoT)格式的数据训练来增强——模型学习在给出答案前生成中间推理步骤。然而,这种训练范式存在一个根本性问题:
预测范式的局限:标准的下一个token预测目标可能并不符合人类的学习方式。人类学习数学解法时,倾向于先理解通用方法,再处理具体细节(先把握"解题思路",再算具体数字),而非简单记忆"哪个步骤接哪个步骤"。
Masked Thought的缺陷:最近的强基线方法Masked Thought Fine-tuning (MFT) 通过随机掩码解答中的token来迫使模型关注更远的问题定义信息。但其随机掩码策略存在虚假关联问题:当连续的数学变换步骤紧密互联时,掩码可能导致模型在缺少前置步骤定义(如变量定义被掩码)的情况下被迫预测后续步骤,学到错误的依赖关系。
核心洞察:在数学解答中,文本部分(rationales)描述的是通用解题方法,而方程式是问题特定的计算。作者受到人类完形填空(cloze)练习的启发:给定解题的文字推理过程,让模型填充缺失的方程,从而强化模型对数学关系的推断能力。
方法详解¶
整体框架¶
ClozeMath 在标准语言模型训练之上增加了一个 text-infilling(文本填充)目标。训练时,模型同时优化两个损失: - \(\mathcal{L}_{\text{lm}}\):标准的语言建模目标(给定问题预测解答) - \(\mathcal{L}_{\text{tf}}\):方程填充目标(给定问题和被掩码了方程的解答,预测被掩码的方程)
最终目标:\(\mathcal{L}_{\text{ClozeMath}} = \mathcal{L}_{\text{lm}} + \mathcal{L}_{\text{tf}}\)
推理时使用常规的逐token生成,不需要任何特殊处理。
关键设计¶
-
方程掩码策略(Equation Masking):
- 功能:识别数学解答中的所有方程式,用特殊掩码token(\<X>, \<Y>等)替换它们,保留文本推理部分完整。
- 渐进式反掩码:给定解答中有 \(|F^i|\) 个方程,生成 \(|F^i|\) 个text-infilling样本:第一个掩码所有方程,第二个保留第一个方程但掩码剩余的,依此类推。这遵循了数学解答中方程的因果依赖关系——每个方程只依赖之前的方程。
- 为什么不随机掩码:消融实验证明,随机掩码(类似T5的span corruption)会破坏文本推理部分的逻辑连贯性,显著降低性能(74.22% → 71.19%)。
-
PrefixLM架构:
- 做法:在预训练的decoder-only模型上实现PrefixLM——prompt部分(问题+被掩码的解答)使用双向注意力,目标序列(被掩码的方程)使用因果注意力,用 \<SEP> token分隔。
- 核心动机:双向注意力允许模型更好地理解prefix中的信息(问题定义+文字推理),从而更有效地推断缺失的方程。
- 关键发现:PrefixLM单独使用时改善微弱(71.57% → 71.79%),但与方程填充目标结合后效果显著(71.57% → 74.22%)。这说明充分利用双向上下文的前提是有合适的训练目标。
-
样本平衡:
- 由于text-infilling目标的样本数取决于方程数量,实践中通过复制语言建模样本来维持两个目标大约50:50的样本比例。
损失函数 / 训练策略¶
- 联合训练损失:\(\mathcal{L}_{\text{ClozeMath}} = \mathcal{L}_{\text{lm}} + \mathcal{L}_{\text{tf}}\)
- 使用 LoRA(rank=32)微调基础语言模型(DeepSeek-Math-7B-base、Llama-3.1-8B、Llama-3.2-3B、Llama-3.2-1B)
- 扩展词表以支持 \<SEP> 和掩码token
实验关键数据¶
主实验¶
| 数据集 | 模型 | 基线(Base) | MFT | ClozeMath | ClozeMath vs MFT |
|---|---|---|---|---|---|
| GSM8K | DeepSeek-Math-7B | 59.21 | 70.20 | 74.22 | +4.02 |
| GSM8K | Llama-3.1-8B | 49.58 | 64.82 | 70.00 | +5.18 |
| GSM8K | Llama-3.2-3B | 17.66 | 45.03 | 53.15 | +8.12 |
| GSM8K | Llama-3.2-1B | 4.62 | 21.15 | 27.89 | +6.74 |
| MATH | DeepSeek-Math-7B | 31.68 | 33.42 | 36.90 | +3.48 |
| MATH | Llama-3.1-8B | 18.06 | 20.94 | 22.88 | +1.94 |
消融实验¶
| 配置 | GSM8K准确率 | 说明 |
|---|---|---|
| ClozeMath完整版 | 74.22% | 方程掩码 + PrefixLM |
| W/o Text-infilling | 71.79% | 仅PrefixLM,无填充目标 |
| W/o PrefixLM | 72.71% | 方程填充 + CausalLM |
| W/o 两者(标准IT) | 71.57% | 传统instruction tuning |
| 随机掩码(非方程) | 71.19% | 破坏逻辑连贯性,性能最低 |
关键发现¶
- ClozeMath 在所有模型规模上都一致超越 MFT,且在训练过程中更加样本高效(每个checkpoint都更好)
- 推理时间扩展:使用CoT decoding(k=9)时,ClozeMath同样优于MFT(如DeepSeek-Math: 77.10% vs 76.50%),证明其在增加推理计算量时的扩展性
- 鲁棒性测试(GSM-Symbolic):在添加新约束的变体问题上,ClozeMath的优势更加明显(DeepSeek-Math GSM-P1: 49.25% vs 44.25%,提升5%)
- 模型越小,ClozeMath相对MFT的改进越大(Llama-3.2-3B在GSM8K上+8.12)
亮点与洞察¶
- 人类学习的类比非常精准:完形填空是语言学习的经典方法,将其迁移到数学推理中是一个优雅的设计。模型先理解解题思路(保留的文本),再推导具体方程,符合"先掌握方法论,再处理细节"的学习范式
- 对Masked Thought虚假关联的分析很有洞见:具体指出了MFT在变换步骤紧密关联时可能学到错误依赖的问题(如缺少变量b的定义却要预测4*b=24)
- PrefixLM + 方程填充的协同效应:单独使用PrefixLM几乎无效,但与方程填充结合后效果显著,说明架构选择和训练目标需要协同设计
局限与展望¶
- 仅在10B以下模型上验证,更大模型的效果未知
- 目前仅针对数学推理,是否能推广到其他需要结构化推理的领域(如代码生成、逻辑推理)有待验证
- 方程识别依赖启发式规则,对于更复杂的数学表达(如LaTeX格式的复杂公式)可能需要更鲁棒的解析
- CoT decoding评估因MATH数据集格式问题仅限于GSM8K
相关工作与启发¶
- 与 Masked Thought (Chen et al., 2024) 形成直接对比,展示了有针对性的掩码策略(方程 vs 随机)的差异
- Text infilling 思路源自 T5 (Raffel et al., 2020) 和 UL2 (Tay et al., 2023),但创新在于只掩码方程而非随机span
- PrefixLM 的应用受 Liu et al. (2018) 启发,验证了其在推理任务中配合特定目标的有效性
- 对研究社区的启发:训练目标的设计应考虑任务的结构特性,而非简单套用通用方案
评分¶
- 新颖性: ⭐⭐⭐⭐ 完形填空的类比新颖且优雅,方程掩码策略简单有效
- 实验充分度: ⭐⭐⭐⭐⭐ 多模型、多数据集、消融、鲁棒性、推理时间扩展,非常全面
- 写作质量: ⭐⭐⭐⭐⭐ 动机清晰,对MFT缺陷的分析深入,图示直观
- 价值: ⭐⭐⭐⭐ 提供了一种即插即用的微调策略,可广泛应用于数学推理LLM的训练