Mind the Gap: Bridging Thought Leap for Improved Chain-of-Thought Tuning¶
会议: NeurIPS 2025
arXiv: 2505.14684
代码: 项目页面
领域: LLM推理
关键词: Chain-of-Thought, Thought Leap, 推理完整性, 数据增强, 数学推理
一句话总结¶
本文首次系统性地定义了 CoT 推理链中的"思维跳跃"(Thought Leap)现象,提出 CoT-Bridge 模型自动检测并补全推理链中被省略的中间步骤,在 NuminaMath 上最高提升 +5.87%,并可作为即插即用模块增强蒸馏和 RL 流程。
研究背景与动机¶
领域现状:LLM 通过 Chain-of-Thought 推理在数学任务上取得显著进步,CoT 数据集的质量直接决定模型性能上限。
现有痛点:现有 CoT 数据集(MetaMathQA、NuminaMath 等)普遍存在 Thought Leap 现象——专家在书写推理链时会因背景知识自动省略"显而易见"的中间步骤,导致推理链不完整。
核心矛盾:这些被省略的步骤对人类专家来说trivial,但对 LLM 学习来说却是致命的认知断裂——模型无法通过隐含知识弥合这些推理间隙,严重影响泛化能力。
本文目标 (a) 如何自动检测推理链中的跳跃位置? (b) 如何生成高质量的中间补全步骤? (c) 补全后的数据能否普遍提升下游模型性能?
切入角度:作者通过实验发现,在 MetaMathQA 数据集中人为引入不同程度的步骤省略后,模型准确率最多下降 27.83%,且收敛速度显著变慢,证实推理链不完整比事实错误更有害。
核心 idea:训练一个专门的 Bridge 模型来检测 CoT 中的推理跳跃并自动插入缺失步骤,从而提升训练数据质量和下游模型推理能力。
方法详解¶
整体框架¶
输入一条可能不完整的推理链 \(C=(s_0, s_1, \ldots, s_n)\),CoT-Bridge 同时输出:(1) 预测的跳跃位置集合 \(\hat{\mathcal{L}}\) 和 (2) 对应的缺失步骤序列 \(\hat{\mathcal{M}}\),然后将生成的步骤插入原始推理链对应位置,得到补全后的推理链 \(C_{bridged}\)。整个流程分为三步:构造训练数据 → 训练 Bridge 模型 → 应用于已有数据集做增强。
关键设计¶
-
任务形式化 — Thought Leap 定义:
- 功能:定义完整性函数 \(V(s_i, s_{i+1})\) 判断相邻步骤间推理是否充分
- 核心思路:若存在 \(V(s_k, s_{k+1}) = \text{False}\),说明 \(s_k\) 和 \(s_{k+1}\) 之间存在 Thought Leap,需要生成缺失步骤序列 \(S'_{miss}\) 使得补全后每对相邻步骤都满足完整性条件
- 设计动机:区别于以往研究关注事实准确性,本文聚焦推理"结构完整性"这一被忽视的维度
-
ScaleQM+ 数据集构造:
- 功能:从结构完整的 ScaleQuestMath 数据集中系统性删除中间步骤,构造"不完整→完整"的训练对
- 核心思路:对长度为 \(m\) 的推理链,短链(\(m \leq 10\))删 1-2 步,长链(\(m > 10\))删 1-3 步;始终保留最后一步(保留答案);以 0.2 概率保留完整链(教模型识别无需补全的情况)
- 设计动机:通过"正向删除 + 反向补全"的方式,避免了人工标注的高成本,共得到 588k 训练样本
-
CoT-Bridge 模型:
- 功能:基于 Qwen2.5-Math-7B 微调,学习联合检测跳跃位置和生成补全步骤的映射 \(f: C \rightarrow (\hat{\mathcal{L}}, \hat{\mathcal{M}})\)
- 核心思路:与 CoT-Bridge-Random(给定位置只生成内容)形成对比,CoT-Bridge 需要同时学会"在哪补"和"补什么"
- 设计动机:实验证明准确的跳跃定位至关重要——随机位置插入步骤反而可能破坏推理连贯性
数据增强应用¶
将 CoT-Bridge 应用于 MetaMathQA 和 NuminaMath-CoT,根据各数据集的步骤分隔符("\n" 或 "\n\n")进行适配,生成增强版本 MetaMath-Bridge 和 NuminaMath-Bridge。
实验关键数据¶
主实验(Meta-Llama3.1-8B + NuminaMath, 6个benchmark平均)¶
| 方法 | GSM8K | MATH500 | GaoKao2023EN | AMC23 | 平均 |
|---|---|---|---|---|---|
| Direct SFT | 84.86 | 51.45 | 49.03 | 20.00 | 43.87 |
| QwenBridger-72B | 85.25 | 54.20 | 51.62 | 35.00 | 48.41 |
| CoT-Bridge-Random | 84.82 | 54.20 | 51.88 | 33.75 | 48.50 |
| CoT-Bridge | 85.97 | 56.80 | 54.42 | 35.63 | 49.74 (+5.87) |
即插即用增强实验(Qwen2.5-Math-1.5B + Distill/Reject Sampling)¶
| 配置 | GSM8K | MATH500 | 平均 | 说明 |
|---|---|---|---|---|
| Distill - Direct SFT | 81.86 | 68.15 | 55.23 | 蒸馏数据直接训练 |
| Distill - CoT-Bridge | 82.52 | 71.50 | 58.25 (+3.02) | 蒸馏后再补全 |
| Reject Sampling - Direct SFT | 83.36 | 74.90 | 60.44 | 拒绝采样数据直接训练 |
| Reject Sampling - CoT-Bridge | 83.74 | 75.25 | 61.81 (+1.37) | 采样后再补全 |
关键发现¶
- 跳跃定位精度至关重要:CoT-Bridge-Random 在多个 benchmark 上反而掉点(如 Qwen2.5-Math-1.5B + NuminaMath 上 GaoKao -1.56%,MathOdyssey -3.68%),而 CoT-Bridge 一致提升
- 竞赛级难题收益最大:AMC23 上 LLaMA 提升 +15.63%,说明越难的题越需要完整推理链
- OOD 泛化能力提升:在 5 个域外逻辑推理数据集上,LLaMA 平均提升 +2.99%,同时 invalid 回复率降低
- RL 冷启动增强:使用 Bridge 数据做 SFT 冷启动后接 GRPO,最终 RL 准确率 63.98% vs 60.88%(+3.1%)
亮点与洞察¶
- 问题定义新颖:区别于关注事实错误和答案准确性的前人工作,本文首次系统研究 CoT 的"结构完整性"问题,将 Thought Leap 形式化为可检测可修复的任务,这一视角具有启发性。
- 数据构造方法巧妙:通过"从完整数据中删步骤再恢复"来构造训练集,避免了标注成本,且天然保证训练数据的质量(因为 ground truth 来自原始完整链)。
- 即插即用设计实用:CoT-Bridge 可以无缝叠加在蒸馏、拒绝采样、RL 等流程之上,作为通用的数据质量增强模块,迁移到其他场景的门槛很低。
局限与展望¶
- 依赖 ScaleQuestMath 的"完整性"假设:将 ScaleQuestMath 视为近似理想的完整 CoT,但该数据集本身也可能存在 Thought Leap,这限制了 Bridge 模型学到的补全质量上界。
- 仅限数学领域:虽然在逻辑推理 OOD 任务上有提升,但是否能推广到代码生成、科学推理等更多领域未验证。
- Bridge 模型规模固定 7B:未探索更大/更小 Bridge 模型的 scaling 效果,也未探索将 Bridge 能力蒸馏到更小模型。
- 补全质量缺乏细粒度评估:主要通过下游任务准确率间接评估补全质量,缺少对生成步骤的数学正确性和推理逻辑性的直接评估。
评分¶
- 新颖性: ⭐⭐⭐⭐ 首次形式化 Thought Leap 问题,视角独特但方法本身(删步骤再恢复)相对直觉
- 实验充分度: ⭐⭐⭐⭐⭐ 多模型多数据集多场景(蒸馏/RL/OOD)全面验证,消融充分
- 写作质量: ⭐⭐⭐⭐ 问题定义清晰,实验组织合理
- 价值: ⭐⭐⭐⭐ 即插即用的数据质量增强工具,对 CoT 数据集构建有实际指导意义