Reasoning Scaffolding: Distilling the Flow of Thought from LLMs¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=FcuJY1dK7s
代码: https://github.com/xywen97/ReasoningScaffolding
领域: LLM推理 / 知识蒸馏
关键词: 推理蒸馏, 语义信号, 思维流, 多任务学习, 小模型推理

一句话总结¶

本文提出 Reasoning Scaffolding，不再让小模型逐字克隆教师的文本 rationale，而是先把教师的长思维链抽象成一串离散、可解释的「语义信号」（如对比、补充、结论）当作脚手架，再用「预测下一个信号 + 在信号引导下生成下一步」的双任务目标训练学生模型，从而把推理的算法结构而非表面文字迁移给小模型，在 GSM8K、StrategyQA 等基准上准确率与逻辑一致性都显著超过现有蒸馏方法。

研究背景与动机¶

领域现状：把大模型（LLM）的推理能力蒸馏给小模型（SLM）的主流做法是 行为克隆（behavioral cloning）——用教师生成的 Chain-of-Thought（CoT）文本 rationale 去微调学生，让学生模仿教师的逐步推理文本。

现有痛点：这种「文本模仿」本质上是把推理当成一个文本生成任务，逼着小模型做死记硬背。它能学会教师的行文风格和流畅度，却学不到教师思维背后的算法结构。结果是学生模型很脆——遇到新问题时常常给出逻辑前后矛盾、甚至自相矛盾的「胡说八道」，看着像在推理，其实只是在模仿。

核心矛盾：教师的推理过程里，真正有价值的是论证如何流动（先对比、再补充、最后归纳这种逻辑骨架），而不是具体写了哪些词。但现有蒸馏的监督信号是 token 级文本，把「结构」和「内容」混在一起喂给学生，学生抓不住前者只学会了后者。

本文目标：把教师推理的结构蓝图（structural blueprint）单独抽出来、显式地教给学生，让小模型学会「怎么想」而不是「写什么」。

切入角度：作者观察到，教师的长思维链里有一些关键词——wait、but、ok、in addition——天然标记了推理的转折。比如 in addition 往往引出补充信息。这些词其实暴露了论证的逻辑功能，可以被归纳成有限几类语义信号。

核心 idea：用一串离散语义信号当「脚手架」，先让学生预判下一步该执行什么逻辑动作（预测信号），再让它在该信号约束下生成具体文本，把信号预测当作逻辑连贯性的强正则，逼学生内化连贯推理的计算模式。

方法详解¶

整体框架¶

Reasoning Scaffolding 把推理重新定义为一个结构化生成过程，整个 pipeline 分三段：先离线把教师的思维链拆成「步骤 + 语义信号」构建脚手架数据集；再用双分支多任务目标训练小模型，让它同时会「生成下一步」和「预测下一个信号」；最后在推理时由信号预测器逐步给出信号、引导 proposer 生成，并可选地按信号裁剪冗余步骤省 token。

整套方法围绕 7 类语义信号展开：Addition and Elaboration（补充与阐述）、Examples and Illustration（举例与说明）、Personal Opinion and Recall（主观判断与回忆）、Contrast and Concession（对比与让步）、Reasoning and Analysis（推理与分析）、Conclusion and Summary（结论与小结）、Response Generation（最终作答）。这 7 类既保证组内关键词语义内聚，又能覆盖绝大多数转折。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["教师 LRM<br/>(如 DeepSeek-R1)<br/>生成长思维链"] --> B["语义信号脚手架蒸馏<br/>分步 + 关键词/LLM 混合打标"]
    B --> C["双分支联合训练<br/>proposer 生成 + 信号预测头"]
    C -->|推理阶段| D["自适应信号引导推理<br/>置信度阈值 τ 把关"]
    D -->|可选| E["按信号裁剪冗余步骤<br/>只留 Conclusion 中间结果"]
    E --> F["最终答案"]

关键设计¶

1. 语义信号脚手架：把文本思维链抽象成离散逻辑骨架

针对「文本克隆抓不住结构」这一痛点，作者先用零样本提示查询一个大推理模型（LRM，如 DeepSeek-R1）拿到长思维链，然后做两件事把它抽象成脚手架。第一步是分步：用双换行 \n\n 等分隔符把思维链切成单独步骤 \(S_i = [A_1, \dots, A_N]\)。第二步是打信号标签，采用「关键词 + LLM」两阶段混合策略：先用关键词表（7 类语义信号对应的触发词）给每步打初始标签，再用强 LLM（如 GPT-4.1）做语义校验——一致就保留，不一致就纠正，没有关键词开头的步骤直接由 LLM 判定。

这样切分（结构）和打标（语义）解耦，既保证脚手架忠实跟随教师的思维流、不人为割裂或漏掉步骤，又兼顾效率。实测约 74% 的步骤以预定义关键词开头，这些步骤上关键词标签与 LLM 标签的一致率约 87%，剩下约 26% 无关键词的步骤交给 LLM oracle 兜底。最终产出两套训练数据：信号预测器用的 \(\{Q + [A_1, \dots, A_t],\ \text{Signal}\}\)，以及 proposer 用的 \(\{Q + [A_1, \dots, A_t],\ \text{Signal} + A_{t+1}\}\)。

2. 双分支联合训练：信号预测当正则，逼学生学会推理流

光有脚手架数据还不够，关键是怎么让学生同时学到「内容」和「结构」。作者在 SLM backbone 上挂两个分支做多任务训练。Branch 1（下一步生成） 在原 LM head 前加一个信号嵌入层（SEL），把当前步的语义信号编码成 embedding，与 backbone 最后一层隐状态做简单相加后再过 LM head，让同一步的所有 token 共享同一个信号约束，损失是带信号条件的下一 token 预测：

\[\mathcal{L}^{(t)} = -\frac{1}{N_t}\sum_{i=1}^{N_t} \log P_\theta\!\left(A_{t,i} \mid A_{<t}, A_{t,<i}, s_t\right)\]

Branch 2（信号预测） 加一个信号预测头，逼 backbone 显式预测当前步的语义信号，提升模型对信号线索的敏感度、增强每步与其信号的一致性：

\[\mathcal{L}^{(t)}_{signal} = -\frac{1}{N_t}\sum_{i=1}^{N_t}\sum_{j=1}^{C} s_{t,i,j} \log P_\theta\!\left(\hat{s}_{t,i,j} \mid A_{<t}\right)\]

其中 \(C\) 是信号类别数。总目标用 \(\beta\) 加权：\(\mathcal{L}^{(t)} = (1-\beta)\mathcal{L}^{(t)}_{token} + \beta\mathcal{L}^{(t)}_{signal}\)。信号预测这一支起的是强正则作用——它强迫学生在生成内容前先想清楚「这一步在逻辑上要干什么」，从而把连贯推理的计算模式内化进去，而不是退化成单一的文本模仿。训练好的 backbone 也为推理期的信号预测器提供了强初始化。

3. 自适应信号引导推理：用置信度阈值过滤不可靠信号

训练好后，推理时没有 golden 信号可用，必须由信号预测器现场逐步给出。问题是预测信号未必可靠，错误信号会带歪整条推理。作者用一个置信度自适应策略把关：给定问题和当前推理轨迹，预测器先算下一步信号的置信度

\[\text{conf} = \exp\!\left(\frac{1}{L_t}\sum_{l=1}^{L_t}\log P_\phi\!\left(s_{t,l} \mid A_{<t}, s_{t,<l}\right)\right)\]

其中 \(L_t\) 是第 \(t\) 步信号的长度。置信度超过阈值 \(\tau\) 的信号才用来引导下一步；低于 \(\tau\) 则认为不可靠，直接终止推理并用 Response Generation 信号催模型收尾作答，避免在错误信号上越走越偏。实验里 \(\tau\) 取 0.96（信号保留比例与预测准确率曲线在 0.95–0.96 附近交叉，取此值平衡两者）。

此外，得益于信号的可解释性，作者还给出一个可选的二次优化——token 裁剪：把每个阶段里 Conclusion and Summary 之前的中间推理步骤（非关键步）剪掉，只保留作为中间结果的结论步，迭代到最终答案，从而在保住关键信息的前提下大幅压缩 token。消融里「Summaries Only」策略性能几乎不掉，印证了「中间结论步承载了最关键的推理信息」。

实验关键数据¶

主实验¶

在 StrategyQA、CommonsenseQA、TruthfulQA、GSM8K、MATH-500 五个基准上用 Pass@1 评测，base 模型覆盖 Qwen2.5-0.5B/7B/14B 与 Llama3.1-8B。相比原始 base 模型平均提升约 14%，相比 CoT SFT / Long-Thinking SFT 平均提升约 8%。

配置（Qwen2.5-14B）	StrategyQA	CSQA	TruthfulQA	GSM8K	MATH-500
Original	0.755	0.785	0.750	0.921	0.764
CoT SFT	0.760	0.810	0.831	0.928	0.882
Long Thinking SFT	0.768	0.845	0.812	0.931	0.901
Long Thinking Distill	0.811	0.805	0.763	0.936	0.904
Ours (Teacher=DS-R1)	0.858	0.887	0.917	0.942	0.928

对小模型增益尤其明显：Qwen2.5-0.5B 在 TruthfulQA 上从原始约 27%、CoT SFT 的 68% 一跃到 86% 以上。

消融实验¶

信号策略（14B）	StrategyQA	CSQA	TruthfulQA	GSM8K	MATH-500	说明
Original	0.755	0.785	0.750	0.921	0.764	基线
w/ Golden Signals	0.858	0.887	0.917	0.942	0.928	上界，gold 信号
w/ Signal Predictor	0.843	0.869	0.885	0.933	0.918	实际推理设置
w/ Random Signals	0.776	0.827	0.828	0.929	0.894	随机信号
Summaries Only	0.855	0.869	0.897	0.941	0.916	只留结论步

信号预测器自身的下一信号预测准确率超 75%（14B 上超 83%），叠加自适应策略后升到 85% 以上（Table 2）。

关键发现¶

信号质量直接决定推理表现：golden 信号最高，预测器信号略降但仍远超原始模型，随机信号即便「胡乱搭脚手架」也好于普通微调——说明「把生成结构化成离散步骤」本身就是有用的归纳偏置，能阻止模型退回整段文本模仿；而正确信号带来显著额外增益，证明学对推理流才是上限来源。
中间结论步是信息核心：「Summaries Only」几乎不掉点，说明 Conclusion and Summary 步承载了推理最关键的信息，这也是 token 裁剪能成立的依据。
token 代价：本方法 All Signals 的轨迹长度与从大模型蒸馏的 long-thinking 相当（如 GSM8K 1659 vs 771–5921 不等），裁剪后可大幅缩短（GSM8K 降到 845），但相比纯 CoT 仍偏长——是「保真度优先于 token 效率」的权衡。

亮点与洞察¶

把「结构」从「内容」里剥离出来单独蒸馏：这是最核心的「啊哈」点。以往蒸馏把逻辑骨架和文本混在 token 监督里，本文用 7 类离散语义信号显式表达逻辑流，让学生先学骨架再填肉。
信号预测当正则项：双任务里「预测下一信号」并不直接产出答案，却通过逼模型预判逻辑功能，把连贯推理的模式压进 backbone——一个轻量分支换来逻辑鲁棒性，设计很巧。
可解释性顺带换来 token 效率：因为信号有明确语义，可以精准定位「结论步」并裁掉中间冗余，把可解释性变成实际的推理加速手段。
随机信号也有效这一发现很有启发：结构化生成本身就是有价值的 inductive bias，可迁移到其他需要「分步而非一口气生成」的任务。

局限与展望¶

作者承认本方法生成的推理轨迹比标准 CoT 更长，是保真度换 token 效率的权衡；虽有裁剪策略缓解，整体仍偏冗长。
7 类语义信号由人工归纳 + 手动 review 确定，类别粒度是否对所有领域（如代码、形式化证明）都够用、是否会漏掉某些逻辑转折，文中未充分验证。
信号打标依赖强 LLM（GPT-4.1）做语义校验，构建脚手架数据集本身有不小的 LLM 调用成本；约 26% 无关键词步骤完全靠 LLM 兜底，标签质量受 oracle 影响。
自适应阈值 \(\tau=0.96\) 是全局固定值，跨基准/跨任务是否需要重新调，以及低置信度直接收尾是否会过早截断难题推理，值得进一步分析。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 「蒸馏结构而非文本」+ 语义信号脚手架 + 信号预测正则，视角清晰且原创。
实验充分度: ⭐⭐⭐⭐ 覆盖 4 个模型规模、5 个基准、多组消融（信号质量/阈值/token），较扎实；但教师与基准范围仍偏 QA/数学。
写作质量: ⭐⭐⭐⭐ 动机—方法—实验逻辑顺畅，图 1–4 的案例直观。
价值: ⭐⭐⭐⭐⭐ 给小模型「学会推理而非模仿」提供了一条可解释、可复现的路径，迁移潜力大。