ClozeMath: Improving Mathematical Reasoning in Language Models by Learning to Fill Equations¶

会议: ACL 2025
arXiv: 2506.03763
代码: 无（Qualcomm AI Research）
领域: LLM Reasoning
关键词: 数学推理, Text Infilling, 方程掩码, PrefixLM, Chain-of-Thought

一句话总结¶

ClozeMath 提出了一种受人类完形填空学习启发的微调策略，通过掩码数学解答中的方程式并训练模型预测它们（text-infilling目标），与标准语言模型目标联合训练，在GSM8K和MATH上显著超越了强基线Masked Thought，并在推理时间扩展和鲁棒性测试中表现出更好的泛化能力。

研究背景与动机¶

当前LLM的数学推理能力主要通过Chain-of-Thought（CoT）格式的数据训练来增强——模型学习在给出答案前生成中间推理步骤。然而，这种训练范式存在一个根本性问题：

预测范式的局限：标准的下一个token预测目标可能并不符合人类的学习方式。人类学习数学解法时，倾向于先理解通用方法，再处理具体细节（先把握"解题思路"，再算具体数字），而非简单记忆"哪个步骤接哪个步骤"。

Masked Thought的缺陷：最近的强基线方法Masked Thought Fine-tuning (MFT) 通过随机掩码解答中的token来迫使模型关注更远的问题定义信息。但其随机掩码策略存在虚假关联问题：当连续的数学变换步骤紧密互联时，掩码可能导致模型在缺少前置步骤定义（如变量定义被掩码）的情况下被迫预测后续步骤，学到错误的依赖关系。

核心洞察：在数学解答中，文本部分（rationales）描述的是通用解题方法，而方程式是问题特定的计算。作者受到人类完形填空（cloze）练习的启发：给定解题的文字推理过程，让模型填充缺失的方程，从而强化模型对数学关系的推断能力。

方法详解¶

整体框架¶

ClozeMath 在标准语言模型训练之上增加了一个 text-infilling（文本填充）目标。训练时，模型同时优化两个损失： - \(\mathcal{L}_{\text{lm}}\)：标准的语言建模目标（给定问题预测解答） - \(\mathcal{L}_{\text{tf}}\)：方程填充目标（给定问题和被掩码了方程的解答，预测被掩码的方程）

最终目标：\(\mathcal{L}_{\text{ClozeMath}} = \mathcal{L}_{\text{lm}} + \mathcal{L}_{\text{tf}}\)

推理时使用常规的逐token生成，不需要任何特殊处理。

关键设计¶

方程掩码策略（Equation Masking）:
- 功能：识别数学解答中的所有方程式，用特殊掩码token（\<X>, \<Y>等）替换它们，保留文本推理部分完整。
- 渐进式反掩码：给定解答中有 \(|F^i|\) 个方程，生成 \(|F^i|\) 个text-infilling样本：第一个掩码所有方程，第二个保留第一个方程但掩码剩余的，依此类推。这遵循了数学解答中方程的因果依赖关系——每个方程只依赖之前的方程。
- 为什么不随机掩码：消融实验证明，随机掩码（类似T5的span corruption）会破坏文本推理部分的逻辑连贯性，显著降低性能（74.22% → 71.19%）。
PrefixLM架构:
- 做法：在预训练的decoder-only模型上实现PrefixLM——prompt部分（问题+被掩码的解答）使用双向注意力，目标序列（被掩码的方程）使用因果注意力，用 \<SEP> token分隔。
- 核心动机：双向注意力允许模型更好地理解prefix中的信息（问题定义+文字推理），从而更有效地推断缺失的方程。
- 关键发现：PrefixLM单独使用时改善微弱（71.57% → 71.79%），但与方程填充目标结合后效果显著（71.57% → 74.22%）。这说明充分利用双向上下文的前提是有合适的训练目标。
样本平衡:
- 由于text-infilling目标的样本数取决于方程数量，实践中通过复制语言建模样本来维持两个目标大约50:50的样本比例。

损失函数 / 训练策略¶

联合训练损失：\(\mathcal{L}_{\text{ClozeMath}} = \mathcal{L}_{\text{lm}} + \mathcal{L}_{\text{tf}}\)
使用 LoRA（rank=32）微调基础语言模型（DeepSeek-Math-7B-base、Llama-3.1-8B、Llama-3.2-3B、Llama-3.2-1B）
扩展词表以支持 \<SEP> 和掩码token

实验关键数据¶

主实验¶

数据集	模型	基线(Base)	MFT	ClozeMath	ClozeMath vs MFT
GSM8K	DeepSeek-Math-7B	59.21	70.20	74.22	+4.02
GSM8K	Llama-3.1-8B	49.58	64.82	70.00	+5.18
GSM8K	Llama-3.2-3B	17.66	45.03	53.15	+8.12
GSM8K	Llama-3.2-1B	4.62	21.15	27.89	+6.74
MATH	DeepSeek-Math-7B	31.68	33.42	36.90	+3.48
MATH	Llama-3.1-8B	18.06	20.94	22.88	+1.94

消融实验¶

配置	GSM8K准确率	说明
ClozeMath完整版	74.22%	方程掩码 + PrefixLM
W/o Text-infilling	71.79%	仅PrefixLM，无填充目标
W/o PrefixLM	72.71%	方程填充 + CausalLM
W/o 两者（标准IT）	71.57%	传统instruction tuning
随机掩码（非方程）	71.19%	破坏逻辑连贯性，性能最低

关键发现¶

ClozeMath 在所有模型规模上都一致超越 MFT，且在训练过程中更加样本高效（每个checkpoint都更好）
推理时间扩展：使用CoT decoding（k=9）时，ClozeMath同样优于MFT（如DeepSeek-Math: 77.10% vs 76.50%），证明其在增加推理计算量时的扩展性
鲁棒性测试（GSM-Symbolic）：在添加新约束的变体问题上，ClozeMath的优势更加明显（DeepSeek-Math GSM-P1: 49.25% vs 44.25%，提升5%）
模型越小，ClozeMath相对MFT的改进越大（Llama-3.2-3B在GSM8K上+8.12）

亮点与洞察¶

人类学习的类比非常精准：完形填空是语言学习的经典方法，将其迁移到数学推理中是一个优雅的设计。模型先理解解题思路（保留的文本），再推导具体方程，符合"先掌握方法论，再处理细节"的学习范式
对Masked Thought虚假关联的分析很有洞见：具体指出了MFT在变换步骤紧密关联时可能学到错误依赖的问题（如缺少变量b的定义却要预测4*b=24）
PrefixLM + 方程填充的协同效应：单独使用PrefixLM几乎无效，但与方程填充结合后效果显著，说明架构选择和训练目标需要协同设计

局限与展望¶

仅在10B以下模型上验证，更大模型的效果未知
目前仅针对数学推理，是否能推广到其他需要结构化推理的领域（如代码生成、逻辑推理）有待验证
方程识别依赖启发式规则，对于更复杂的数学表达（如LaTeX格式的复杂公式）可能需要更鲁棒的解析
CoT decoding评估因MATH数据集格式问题仅限于GSM8K

评分¶

新颖性: ⭐⭐⭐⭐ 完形填空的类比新颖且优雅，方程掩码策略简单有效
实验充分度: ⭐⭐⭐⭐⭐ 多模型、多数据集、消融、鲁棒性、推理时间扩展，非常全面
写作质量: ⭐⭐⭐⭐⭐ 动机清晰，对MFT缺陷的分析深入，图示直观
价值: ⭐⭐⭐⭐ 提供了一种即插即用的微调策略，可广泛应用于数学推理LLM的训练