Mind the Gap: Bridging Thought Leap for Improved Chain-of-Thought Tuning¶

会议: NeurIPS 2025
arXiv: 2505.14684
代码: 项目页面
领域: LLM推理
关键词: Chain-of-Thought, Thought Leap, 推理完整性, 数据增强, 数学推理

一句话总结¶

本文首次系统性地定义了 CoT 推理链中的"思维跳跃"(Thought Leap)现象，提出 CoT-Bridge 模型自动检测并补全推理链中被省略的中间步骤，在 NuminaMath 上最高提升 +5.87%，并可作为即插即用模块增强蒸馏和 RL 流程。

研究背景与动机¶

领域现状：LLM 通过 Chain-of-Thought 推理在数学任务上取得显著进步，CoT 数据集的质量直接决定模型性能上限。

现有痛点：现有 CoT 数据集（MetaMathQA、NuminaMath 等）普遍存在 Thought Leap 现象——专家在书写推理链时会因背景知识自动省略"显而易见"的中间步骤，导致推理链不完整。

核心矛盾：这些被省略的步骤对人类专家来说trivial，但对 LLM 学习来说却是致命的认知断裂——模型无法通过隐含知识弥合这些推理间隙，严重影响泛化能力。

本文目标 (a) 如何自动检测推理链中的跳跃位置？ (b) 如何生成高质量的中间补全步骤？ (c) 补全后的数据能否普遍提升下游模型性能？

切入角度：作者通过实验发现，在 MetaMathQA 数据集中人为引入不同程度的步骤省略后，模型准确率最多下降 27.83%，且收敛速度显著变慢，证实推理链不完整比事实错误更有害。

核心 idea：训练一个专门的 Bridge 模型来检测 CoT 中的推理跳跃并自动插入缺失步骤，从而提升训练数据质量和下游模型推理能力。

方法详解¶

整体框架¶

输入一条可能不完整的推理链 \(C=(s_0, s_1, \ldots, s_n)\)，CoT-Bridge 同时输出：(1) 预测的跳跃位置集合 \(\hat{\mathcal{L}}\) 和 (2) 对应的缺失步骤序列 \(\hat{\mathcal{M}}\)，然后将生成的步骤插入原始推理链对应位置，得到补全后的推理链 \(C_{bridged}\)。整个流程分为三步：构造训练数据 → 训练 Bridge 模型 → 应用于已有数据集做增强。

关键设计¶

任务形式化 — Thought Leap 定义:
- 功能：定义完整性函数 \(V(s_i, s_{i+1})\) 判断相邻步骤间推理是否充分
- 核心思路：若存在 \(V(s_k, s_{k+1}) = \text{False}\)，说明 \(s_k\) 和 \(s_{k+1}\) 之间存在 Thought Leap，需要生成缺失步骤序列 \(S'_{miss}\) 使得补全后每对相邻步骤都满足完整性条件
- 设计动机：区别于以往研究关注事实准确性，本文聚焦推理"结构完整性"这一被忽视的维度
ScaleQM+ 数据集构造:
- 功能：从结构完整的 ScaleQuestMath 数据集中系统性删除中间步骤，构造"不完整→完整"的训练对
- 核心思路：对长度为 \(m\) 的推理链，短链（\(m \leq 10\)）删 1-2 步，长链（\(m > 10\)）删 1-3 步；始终保留最后一步（保留答案）；以 0.2 概率保留完整链（教模型识别无需补全的情况）
- 设计动机：通过"正向删除 + 反向补全"的方式，避免了人工标注的高成本，共得到 588k 训练样本
CoT-Bridge 模型:
- 功能：基于 Qwen2.5-Math-7B 微调，学习联合检测跳跃位置和生成补全步骤的映射 \(f: C \rightarrow (\hat{\mathcal{L}}, \hat{\mathcal{M}})\)
- 核心思路：与 CoT-Bridge-Random（给定位置只生成内容）形成对比，CoT-Bridge 需要同时学会"在哪补"和"补什么"
- 设计动机：实验证明准确的跳跃定位至关重要——随机位置插入步骤反而可能破坏推理连贯性

数据增强应用¶

将 CoT-Bridge 应用于 MetaMathQA 和 NuminaMath-CoT，根据各数据集的步骤分隔符（"\n" 或 "\n\n"）进行适配，生成增强版本 MetaMath-Bridge 和 NuminaMath-Bridge。

实验关键数据¶

主实验（Meta-Llama3.1-8B + NuminaMath, 6个benchmark平均）¶

方法	GSM8K	MATH500	GaoKao2023EN	AMC23	平均
Direct SFT	84.86	51.45	49.03	20.00	43.87
QwenBridger-72B	85.25	54.20	51.62	35.00	48.41
CoT-Bridge-Random	84.82	54.20	51.88	33.75	48.50
CoT-Bridge	85.97	56.80	54.42	35.63	49.74 (+5.87)

即插即用增强实验（Qwen2.5-Math-1.5B + Distill/Reject Sampling）¶

配置	GSM8K	MATH500	平均	说明
Distill - Direct SFT	81.86	68.15	55.23	蒸馏数据直接训练
Distill - CoT-Bridge	82.52	71.50	58.25 (+3.02)	蒸馏后再补全
Reject Sampling - Direct SFT	83.36	74.90	60.44	拒绝采样数据直接训练
Reject Sampling - CoT-Bridge	83.74	75.25	61.81 (+1.37)	采样后再补全

关键发现¶

跳跃定位精度至关重要：CoT-Bridge-Random 在多个 benchmark 上反而掉点（如 Qwen2.5-Math-1.5B + NuminaMath 上 GaoKao -1.56%，MathOdyssey -3.68%），而 CoT-Bridge 一致提升
竞赛级难题收益最大：AMC23 上 LLaMA 提升 +15.63%，说明越难的题越需要完整推理链
OOD 泛化能力提升：在 5 个域外逻辑推理数据集上，LLaMA 平均提升 +2.99%，同时 invalid 回复率降低
RL 冷启动增强：使用 Bridge 数据做 SFT 冷启动后接 GRPO，最终 RL 准确率 63.98% vs 60.88%（+3.1%）

亮点与洞察¶

问题定义新颖：区别于关注事实错误和答案准确性的前人工作，本文首次系统研究 CoT 的"结构完整性"问题，将 Thought Leap 形式化为可检测可修复的任务，这一视角具有启发性。
数据构造方法巧妙：通过"从完整数据中删步骤再恢复"来构造训练集，避免了标注成本，且天然保证训练数据的质量（因为 ground truth 来自原始完整链）。
即插即用设计实用：CoT-Bridge 可以无缝叠加在蒸馏、拒绝采样、RL 等流程之上，作为通用的数据质量增强模块，迁移到其他场景的门槛很低。

局限与展望¶

依赖 ScaleQuestMath 的"完整性"假设：将 ScaleQuestMath 视为近似理想的完整 CoT，但该数据集本身也可能存在 Thought Leap，这限制了 Bridge 模型学到的补全质量上界。
仅限数学领域：虽然在逻辑推理 OOD 任务上有提升，但是否能推广到代码生成、科学推理等更多领域未验证。
Bridge 模型规模固定 7B：未探索更大/更小 Bridge 模型的 scaling 效果，也未探索将 Bridge 能力蒸馏到更小模型。
补全质量缺乏细粒度评估：主要通过下游任务准确率间接评估补全质量，缺少对生成步骤的数学正确性和推理逻辑性的直接评估。

评分¶

新颖性: ⭐⭐⭐⭐ 首次形式化 Thought Leap 问题，视角独特但方法本身（删步骤再恢复）相对直觉
实验充分度: ⭐⭐⭐⭐⭐ 多模型多数据集多场景（蒸馏/RL/OOD）全面验证，消融充分
写作质量: ⭐⭐⭐⭐ 问题定义清晰，实验组织合理
价值: ⭐⭐⭐⭐ 即插即用的数据质量增强工具，对 CoT 数据集构建有实际指导意义