跳转至

Mind the Gap: Bridging Thought Leap for Improved Chain-of-Thought Tuning

会议: NeurIPS 2025
arXiv: 2505.14684
代码: 项目页面
领域: LLM推理
关键词: Chain-of-Thought, Thought Leap, 推理完整性, 数据增强, 数学推理

一句话总结

本文首次系统性地定义了 CoT 推理链中的"思维跳跃"(Thought Leap)现象,提出 CoT-Bridge 模型自动检测并补全推理链中被省略的中间步骤,在 NuminaMath 上最高提升 +5.87%,并可作为即插即用模块增强蒸馏和 RL 流程。

研究背景与动机

领域现状:LLM 通过 Chain-of-Thought 推理在数学任务上取得显著进步,CoT 数据集的质量直接决定模型性能上限。

现有痛点:现有 CoT 数据集(MetaMathQA、NuminaMath 等)普遍存在 Thought Leap 现象——专家在书写推理链时会因背景知识自动省略"显而易见"的中间步骤,导致推理链不完整。

核心矛盾:这些被省略的步骤对人类专家来说trivial,但对 LLM 学习来说却是致命的认知断裂——模型无法通过隐含知识弥合这些推理间隙,严重影响泛化能力。

本文目标 (a) 如何自动检测推理链中的跳跃位置? (b) 如何生成高质量的中间补全步骤? (c) 补全后的数据能否普遍提升下游模型性能?

切入角度:作者通过实验发现,在 MetaMathQA 数据集中人为引入不同程度的步骤省略后,模型准确率最多下降 27.83%,且收敛速度显著变慢,证实推理链不完整比事实错误更有害。

核心 idea:训练一个专门的 Bridge 模型来检测 CoT 中的推理跳跃并自动插入缺失步骤,从而提升训练数据质量和下游模型推理能力。

方法详解

整体框架

输入一条可能不完整的推理链 \(C=(s_0, s_1, \ldots, s_n)\),CoT-Bridge 同时输出:(1) 预测的跳跃位置集合 \(\hat{\mathcal{L}}\) 和 (2) 对应的缺失步骤序列 \(\hat{\mathcal{M}}\),然后将生成的步骤插入原始推理链对应位置,得到补全后的推理链 \(C_{bridged}\)。整个流程分为三步:构造训练数据 → 训练 Bridge 模型 → 应用于已有数据集做增强。

关键设计

  1. 任务形式化 — Thought Leap 定义:

    • 功能:定义完整性函数 \(V(s_i, s_{i+1})\) 判断相邻步骤间推理是否充分
    • 核心思路:若存在 \(V(s_k, s_{k+1}) = \text{False}\),说明 \(s_k\)\(s_{k+1}\) 之间存在 Thought Leap,需要生成缺失步骤序列 \(S'_{miss}\) 使得补全后每对相邻步骤都满足完整性条件
    • 设计动机:区别于以往研究关注事实准确性,本文聚焦推理"结构完整性"这一被忽视的维度
  2. ScaleQM+ 数据集构造:

    • 功能:从结构完整的 ScaleQuestMath 数据集中系统性删除中间步骤,构造"不完整→完整"的训练对
    • 核心思路:对长度为 \(m\) 的推理链,短链(\(m \leq 10\))删 1-2 步,长链(\(m > 10\))删 1-3 步;始终保留最后一步(保留答案);以 0.2 概率保留完整链(教模型识别无需补全的情况)
    • 设计动机:通过"正向删除 + 反向补全"的方式,避免了人工标注的高成本,共得到 588k 训练样本
  3. CoT-Bridge 模型:

    • 功能:基于 Qwen2.5-Math-7B 微调,学习联合检测跳跃位置和生成补全步骤的映射 \(f: C \rightarrow (\hat{\mathcal{L}}, \hat{\mathcal{M}})\)
    • 核心思路:与 CoT-Bridge-Random(给定位置只生成内容)形成对比,CoT-Bridge 需要同时学会"在哪补"和"补什么"
    • 设计动机:实验证明准确的跳跃定位至关重要——随机位置插入步骤反而可能破坏推理连贯性

数据增强应用

将 CoT-Bridge 应用于 MetaMathQA 和 NuminaMath-CoT,根据各数据集的步骤分隔符("\n" 或 "\n\n")进行适配,生成增强版本 MetaMath-Bridge 和 NuminaMath-Bridge。

实验关键数据

主实验(Meta-Llama3.1-8B + NuminaMath, 6个benchmark平均)

方法 GSM8K MATH500 GaoKao2023EN AMC23 平均
Direct SFT 84.86 51.45 49.03 20.00 43.87
QwenBridger-72B 85.25 54.20 51.62 35.00 48.41
CoT-Bridge-Random 84.82 54.20 51.88 33.75 48.50
CoT-Bridge 85.97 56.80 54.42 35.63 49.74 (+5.87)

即插即用增强实验(Qwen2.5-Math-1.5B + Distill/Reject Sampling)

配置 GSM8K MATH500 平均 说明
Distill - Direct SFT 81.86 68.15 55.23 蒸馏数据直接训练
Distill - CoT-Bridge 82.52 71.50 58.25 (+3.02) 蒸馏后再补全
Reject Sampling - Direct SFT 83.36 74.90 60.44 拒绝采样数据直接训练
Reject Sampling - CoT-Bridge 83.74 75.25 61.81 (+1.37) 采样后再补全

关键发现

  • 跳跃定位精度至关重要:CoT-Bridge-Random 在多个 benchmark 上反而掉点(如 Qwen2.5-Math-1.5B + NuminaMath 上 GaoKao -1.56%,MathOdyssey -3.68%),而 CoT-Bridge 一致提升
  • 竞赛级难题收益最大:AMC23 上 LLaMA 提升 +15.63%,说明越难的题越需要完整推理链
  • OOD 泛化能力提升:在 5 个域外逻辑推理数据集上,LLaMA 平均提升 +2.99%,同时 invalid 回复率降低
  • RL 冷启动增强:使用 Bridge 数据做 SFT 冷启动后接 GRPO,最终 RL 准确率 63.98% vs 60.88%(+3.1%)

亮点与洞察

  • 问题定义新颖:区别于关注事实错误和答案准确性的前人工作,本文首次系统研究 CoT 的"结构完整性"问题,将 Thought Leap 形式化为可检测可修复的任务,这一视角具有启发性。
  • 数据构造方法巧妙:通过"从完整数据中删步骤再恢复"来构造训练集,避免了标注成本,且天然保证训练数据的质量(因为 ground truth 来自原始完整链)。
  • 即插即用设计实用:CoT-Bridge 可以无缝叠加在蒸馏、拒绝采样、RL 等流程之上,作为通用的数据质量增强模块,迁移到其他场景的门槛很低。

局限与展望

  • 依赖 ScaleQuestMath 的"完整性"假设:将 ScaleQuestMath 视为近似理想的完整 CoT,但该数据集本身也可能存在 Thought Leap,这限制了 Bridge 模型学到的补全质量上界。
  • 仅限数学领域:虽然在逻辑推理 OOD 任务上有提升,但是否能推广到代码生成、科学推理等更多领域未验证。
  • Bridge 模型规模固定 7B:未探索更大/更小 Bridge 模型的 scaling 效果,也未探索将 Bridge 能力蒸馏到更小模型。
  • 补全质量缺乏细粒度评估:主要通过下游任务准确率间接评估补全质量,缺少对生成步骤的数学正确性和推理逻辑性的直接评估。

评分

  • 新颖性: ⭐⭐⭐⭐ 首次形式化 Thought Leap 问题,视角独特但方法本身(删步骤再恢复)相对直觉
  • 实验充分度: ⭐⭐⭐⭐⭐ 多模型多数据集多场景(蒸馏/RL/OOD)全面验证,消融充分
  • 写作质量: ⭐⭐⭐⭐ 问题定义清晰,实验组织合理
  • 价值: ⭐⭐⭐⭐ 即插即用的数据质量增强工具,对 CoT 数据集构建有实际指导意义