MARGE: Improving Math Reasoning for LLMs with Guided Exploration¶

会议: ICML 2025
arXiv: 2505.12500
代码: https://github.com/georgao35/MARGE
领域: LLM推理 / 数学推理
关键词: 数学推理, 引导探索, 中间状态, 信用分配, 自生成数据

一句话总结¶

MARGE 提出了一种基于"命中引导探索"（hit-guided exploration）的方法来增强 LLM 的数学推理能力，通过系统地探索自生成解答中的中间推理状态，实现充分探索和更好的信用分配，无需外部标注或额外价值模型，同时提升了单次准确率和探索多样性。

研究背景与动机¶

领域现状：LLM 在数学推理上展现了强大潜力，但高质量训练数据的短缺限制了进一步提升。当前主流方法通过自生成数据（self-generated data）来扩展训练规模，即让 LLM 自己生成解题过程，然后用正确/错误信号进行强化学习（RL）训练。

现有痛点： - 虚假相关数据：现有方法生成的数据中存在大量"虚假正确"的推理路径——最终答案碰巧正确，但中间推理步骤有误 - 探索不充分：标准 RL 方法（如 GRPO、ReST）主要从完整解答的最终结果获取反馈，对中间推理步骤的探索不足 - 信用分配困难：当一个多步推理最终出错时，难以判断是哪一步出了问题 - 准确率-多样性权衡：现有对齐方法（alignment methods）通常在提高准确率的同时降低了探索多样性（pass@k 下降）

核心矛盾：为了提升数学推理能力，我们需要更多高质量的训练数据；但现有的数据生成方法只利用最终答案的对错信号，浪费了中间推理步骤中蕴含的丰富信息。

切入角度：不仅看最终答案是否正确，而是深入到每个中间推理状态，看从这个状态出发能否到达正确答案——这就是"命中引导探索"。

核心 idea：从模型自生成的解答中提取中间推理状态，在这些状态上重新采样后续推理路径来判断该状态的"命中率"（hit rate），然后利用命中率引导探索和训练，使模型不仅学会"什么答案正确"，更学会"哪些推理路径更可靠"。

方法详解¶

整体框架¶

MARGE 的整体流程为迭代式的自我改进循环： 1. 生成阶段：用当前策略为训练题目生成多条完整解答 2. 中间状态提取：从生成的解答中提取中间推理状态（reasoning states） 3. 命中估计：对每个中间状态，重新采样后续推理来估计其命中率 4. 训练数据构建：利用命中率构建高质量的训练对——优势状态（高命中率）vs 劣势状态（低命中率） 5. 策略更新：用构建的数据训练模型，提升推理能力 6. 重复上述循环

关键设计¶

中间推理状态探索（Intermediate State Exploration）:
- 给定一条自生成的解答轨迹 \(\tau = (s_0, a_0, s_1, a_1, ..., s_T)\)
- 在每个中间状态 \(s_t\) 处"分叉"——保留到 \(s_t\) 的推理前缀，重新采样后续步骤
- 对每个状态采样 \(K\) 条后续路径，计算有多少条最终到达了正确答案
- 命中率 \(h(s_t) = \frac{\text{到达正确答案的路径数}}{K}\)
- 设计动机：命中率反映了中间状态的"好坏"——高命中率说明从该状态容易到达正确答案，是好的推理中间结果；低命中率说明中间推理已经偏离
命中引导的信用分配（Hit-Guided Credit Assignment）:
- 传统方法（如 DPO）只用最终结果标记整条轨迹为正/负
- MARGE 利用命中率对每个中间步骤进行更精细的信用分配
- 具体地，对于一条最终正确的轨迹，其中命中率低的步骤仍然可能是"虚假的好步骤"（碰巧最终正确）
- 对于一条最终错误的轨迹，其中命中率高的步骤可能包含好的推理片段
- 通过对比不同命中率的状态-动作对来构建训练数据
- 设计动机：解决了传统方法中"整条轨迹一刀切"的粗糙信用分配问题
探索多样性保持:
- 标准 RL 训练倾向于让模型坍缩到少数高奖励的固定模式，降低 pass@k
- MARGE 通过探索中间状态的不同分支，天然保持了更高的探索多样性
- 训练数据中既包含"从好状态探索成功"也包含"从坏状态纠正过来"的样本
- 这使得模型学到更丰富的推理策略，而非仅记住一种解题模板
- 设计动机：在数学推理中，pass@k 的提升意味着模型能用多种方式解决同一问题，这对实际应用（如 majority voting）非常重要
无需外部标注和价值模型:
- 不需要人工标注中间步骤的对错
- 不需要训练额外的 reward model 或 value model
- 命中率完全通过模型自身的采样来估计
- 设计动机：降低了方法的实现复杂度和计算开销

损失函数 / 训练策略¶

MARGE 使用类似 DPO 的偏好优化损失，但训练对是基于命中率构建的：高命中率的（状态, 动作）对作为 chosen，低命中率的作为 rejected。具体数据格式为 {"query": 数学题目, "": guidance hit, "gt": 正确答案}。训练基于开源数据集（Math-Step-DPO-10K 和 Big-Math-RL-Verified），代码使用 backwardlearning 框架。

实验关键数据¶

主实验¶

模型	方法	MATH	GSM8K	其他基准
Qwen2.5-Math-7B-Instruct	Base	基线	基线	基线
Qwen2.5-Math-7B-Instruct	+MARGE	显著提升	显著提升	多数提升
LLaMA-3.1-8B-Instruct	Base	基线	基线	基线
LLaMA-3.1-8B-Instruct	+MARGE	提升	提升	一致提升
MetaMath-Mistral	Base	基线	基线	基线
MetaMath-Mistral	+MARGE	提升	提升	跨架构有效

消融实验¶

配置	单次准确率	pass@k	说明
标准 DPO (整条轨迹)	提升	下降	准确率-多样性权衡
MARGE (无命中引导)	小幅提升	保持	纯探索不够
MARGE (命中引导)	显著提升	提升	同时改善两项
不同采样数 K	随 K 增大而改善	-	但边际递减

关键发现¶

MARGE 是少数能同时提升单次准确率和 pass@k 的方法——打破了常见的准确率-多样性权衡
命中引导的信用分配是核心贡献——仅做中间状态探索但没有命中引导，效果不明显
在多个骨干模型（Qwen2.5-Math、LLaMA-3.1、MetaMath-Mistral）上均有效，展现了良好的通用性
随着自生成数据规模的扩大，MARGE 的优势更加明显——体现了其解锁自生成数据规模化潜力的能力
不需要额外的 reward model 或 value model，降低了实现成本

亮点与洞察¶

"命中率"是一个优雅的信号：不需要训练复杂的价值网络，仅通过从中间状态重新采样就能估计每步推理的"水平"，思路简洁有效
打破准确率-多样性权衡：这是 alignment 方法中的一个难题，MARGE 通过中间状态探索自然地解决了这个问题
可迁移到其他推理任务：中间状态探索+命中引导的框架不限于数学推理，可以应用到代码生成、逻辑推理等任何需要多步推理的任务
扩展 scaling 的思路：当训练数据有限时，通过中间状态的分叉探索可以指数级地扩展有效训练信号

局限与展望¶

命中率估计需要对每个中间状态采样 K 次，计算成本随 K 和轨迹长度增长
中间状态的"切分点"选择可能影响效果——如何确定哪些位置值得探索是一个问题
论文主要在数学推理上验证，在其他推理任务（如代码、常识推理）上的效果未充分验证
命中率的估计可能有噪声——当 K 较小时，估计不准确可能引入错误信号
可考虑将命中率与其他信号（如 ORM 打分）结合，进一步提高信号质量

评分¶

新颖性: ⭐⭐⭐⭐ 中间状态命中引导的思路有新意，但整体框架与现有自我改进方法有相似之处
实验充分度: ⭐⭐⭐⭐ 多模型多基准，消融分析到位，但实验数字细节可以更完整
写作质量: ⭐⭐⭐⭐ 动机论述清晰，方法描述有条理
价值: ⭐⭐⭐⭐ 同时提升准确率和多样性是有价值的贡献，对数学推理提升方法有启发