CoT Vectors: Transferring and Probing the Reasoning Mechanisms of LLMs¶
会议: ICLR2026
OpenReview: https://openreview.net/forum?id=L1FUfBCL0c
代码: 待确认(原文称源码将开源)
领域: 可解释性 / LLM 推理机制
关键词: Chain-of-Thought, Task Vector, 激活干预, 推理机制探测, 参数高效
一句话总结¶
把一段 Chain-of-Thought(CoT)推理过程压缩成一个可直接加到隐藏状态上的「CoT 向量」,既能在几乎零开销下提升 LLM 多步推理(媲美 LoRA 但可训练参数少 3 个数量级),又能当成探针揭示出 LLM 推理被组织成「感知—推理—表达」三阶段的内部机制。
研究背景与动机¶
领域现状:让 LLM 做好多步推理,目前主流就两条路——一是 In-Context Learning(ICL),在 prompt 里塞几条 few-shot CoT 示例;二是用带 CoT 标注的数据做微调(SFT / RLHF / LoRA)。两者都在「外部」想办法把推理能力喂给模型。
现有痛点:ICL 要拉长 prompt、拖慢推理;微调则要大量高质量推理轨迹和算力,而且对那些本就有 CoT 能力的模型往往收益很有限。换句话说,「让模型学会一种解题套路」这件事,现在的代价高得和收益不成正比。
核心矛盾:CoT 的本质是一种任务级、可复用的「解题心态」,但现有手段要么把它绑在冗长的 prompt 里(每次都重新喂),要么把它摊进千万级参数的权重更新里(笨重且不透明)。有没有一种既紧凑、又可复用、又便宜的载体来承载这种推理知识?
切入角度:作者借鉴 Task Vector 范式——分类等简单任务的知识可以蒸馏成一个紧凑向量(取微调前后激活或参数之差),加到前向过程里就能改变模型行为,无需改权重。但 Task Vector 此前只在简单适配场景验证过,能不能撑起复杂的多步推理是未知数。作者先做了一步数学推导,发现 CoT 对注意力输出的影响可以形式化为一个一致的加性偏移,这就给「把 CoT 也做成向量」提供了理论依据。
核心 idea:提出 CoT Vector——把一组 (Question, CoT, Answer) 三元组里蕴含的推理知识压成一个向量,推理时直接注入某一层的隐藏状态来引导模型「按这个套路想」。并进一步发现直接提取的向量在层间极不稳定(U 形曲线),于是用师生框架学一个更稳的可学习版本;最后反过来把这个向量当探针,剖析 LLM 推理的内部组织方式。
方法详解¶
整体框架¶
整篇工作其实在回答两个问题:怎么把 CoT 装进一个向量,以及这个向量能告诉我们 LLM 内部发生了什么。方法上分三步走:先从理论上把「CoT 的作用 = 注意力输出上的一个加性偏移」推导出来(这是合法性证明);再给出两种拿到这个偏移向量的办法——非参数的「提取式」和参数化的「可学习式」;最后规定推理时怎么把向量注入每一步前向传播。提取式简单但暴露了层间不稳定性,反而成了探测推理机制的入口;可学习式则用师生蒸馏把这种不稳定性抹平。
%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
A["支持集<br/>(Q, CoT, A) 三元组"] --> B["CoT 偏移形式化<br/>CoT 作用 = 注意力加性偏移"]
B --> C["提取式 CoT 向量<br/>有/无 CoT 的激活差求平均"]
B --> D["可学习 CoT 向量<br/>师生框架梯度优化"]
C -->|层间 U 形不稳定| E["注入第 l 层每步前向<br/>α + μ·v_CoT"]
D -->|稳定,首层即最优| E
E --> F["引导测试问题推理<br/>+当探针剖析三阶段机制"]
关键设计¶
1. CoT 偏移的形式化:把「插一段推理」证明成激活上的一次加性平移
这一步是整个方法的合法性地基,针对的痛点是「凭什么相信 CoT 这种离散的文字推理能被一个连续向量替代」。作者借用 He et al. 关于前缀对注意力输出影响的视角,把 CoT 序列看成插在问题 \(Q\) 与答案 \(A\) 之间的一段特殊前缀。对每个答案 token \(a\),带 CoT 和不带 CoT 的单头自注意力可以写成一个分解式:
也就是说,带 CoT 的注意力输出等于「原本不带 CoT 的输出」再加上一个由标量系数 \(\mu\) 调制的额外项。作者把这个额外项命名为 CoT Shift,对应向量记作 \(\vec{v}_{\text{CoT}}\),于是有简洁形式 \(\text{SA}(\cdot)=\text{SA}_{\text{noCoT}}(\cdot)+\mu\cdot\vec{v}_{\text{CoT}}\)。这条等式同时给出了两件事:一是 CoT 的效果确实可以被一个向量捕捉,二是推理时只要「反过来把这个向量加回去」就能复现 CoT 的引导效果。作者进一步假设,同类任务里各样本的 CoT 向量落在一个连续语义空间中,其质心就是该任务的任务级(task-general)CoT 向量,编码了这类问题共享的解题策略。
2. 提取式 CoT 向量:非参数地取激活差,简单但暴露层间 U 形不稳定
最直接的拿向量方式就是照搬 NLP 里 Task Vector 的做法:对支持集里成对的 \((Q,A)\) 和三元组 \((Q,\text{CoT},A)\),在第 \(l\) 层记录答案 token 在「有 CoT」与「无 CoT」两种输入下的隐藏状态之差,对所有答案 token 求平均得到单样本向量 \(\vec{v}^{(l)}_{\text{CoT}}=\frac{1}{|A|}\sum_{a}(\alpha^{(l)}_{\text{CoT}}(a)-\alpha^{(l)}_{\text{Non-CoT}}(a))\),再对 \(N\) 个支持样本取平均得到任务级向量 \(\vec{v}_E=\frac{1}{N}\sum_i\vec{v}_{\text{CoT},i}\)。它确实有效(两个模型上平均比 baseline 高 2.4 和 1.1 分),但作者发现它在不同层注入时性能剧烈抖动,呈现锯齿状 U 形曲线:注入浅层和深层有增益,注入中间层几乎没用甚至掉点。这一点恰恰和以往在分类等简单任务上「中间层干预最有效」的结论相反,反而成了揭示 LLM 推理内部结构的关键线索(见下文三阶段机制)。
3. 可学习 CoT 向量:师生框架蒸馏一个稳健、首层即最优的推理信号
提取式本质是个「描述性统计量」,被动记录平均激活差,因此在缺乏主导方向的中间层会失效,且保留了样本特异的噪声。为了拿到更稳的向量,作者改用参数化学习:把 \(\vec{v}_L\) 初始化成可学习参数,加到某一层隐藏状态上,在支持集上用梯度优化。训练采用师生框架——教师路径喂完整三元组 \((Q,\text{CoT},A)\) 且模型参数全程冻结,提供监督信号;学生路径只喂 \((Q,A)\),靠注入的 \(\vec{v}_L\) 来补偿缺失的 CoT。损失由两项构成:答案 token 上的交叉熵预测损失 \(L_{\text{CE}}\),和教师/学生在答案 token 隐藏状态上的 KL 对齐损失 \(L_{\text{Align}}\),合成 \(L=L_{\text{Align}}+\lambda\cdot L_{\text{CE}}\)(实验取 \(\lambda=0.5\))。整个过程只更新 \(\vec{v}_L\),原模型参数全冻。因为是「主动学习推理知识」而非「被动平均激活」,可学习向量在隐藏空间里做出更有方向性、更激进的平移,从而摆脱单层表示的局限、避开样本噪声。结果是层间曲线从锯齿 U 形变成「首层达峰、后续保持平台」,几乎所有层都稳定优于 baseline——实践上只要无脑注入第一层就接近最优,对部署极友好。
4. 推理时的注入:每步前向加一个向量,几乎零开销
拿到任务级向量后,测试时对新问题在第 \(l\) 层、每一步自回归前向都执行 \(\tilde{\alpha}^{(l)}=\alpha^{(l)}+\mu^{(l)}\cdot\vec{v}^{(l)}_{\text{CoT}}\)。对提取式向量,\(\mu\) 是显式设定的常数缩放(实验固定为 1.0);对可学习向量,\(\mu\) 已在端到端训练中被吸收进向量本身,不再单独维护。这种注入不增加输入上下文长度,运行时代价仅为一次向量加法,因此基本不带来额外开销——这正是相比 ICL(拉长 prompt)和微调(改权重)的核心优势。
实验关键数据¶
主实验¶
两个模型(Qwen2.5-Math-7B、LLaMA-3.1-8B-Instruct)× 六个基准(GSM8K、MATH-Easy/Hard、MMLU-Pro、CommonsenseQA、StrategyQA)。CoT 向量结果取层间评估选出的最佳注入层。
| 模型 | 方法 | 可训练参数 | GSM8K | MATH-H | CSQA | SQA | 平均 |
|---|---|---|---|---|---|---|---|
| Qwen2.5-Math-7B | Baseline (zero-shot CoT) | — | 74.6 | 47.9 | 53.8 | 23.7 | 50.5 |
| Qwen2.5-Math-7B | Extracted | — | 78.2 | 49.7 | 57.5 | 29.1 | 53.6 |
| Qwen2.5-Math-7B | Learnable | 3.6K (×1.0) | 83.5 | 50.9 | 58.2 | 31.2 | 55.1 |
| Qwen2.5-Math-7B | LoRA | 10.0M (×2777.8) | 79.0 | 48.2 | 58.0 | 31.2 | 53.4 |
| LLaMA-3.1-8B-Instruct | Baseline | — | 77.4 | 34.6 | 72.7 | 60.8 | 58.7 |
| LLaMA-3.1-8B-Instruct | Learnable | 4.2K (×1.0) | 78.2 | 36.4 | 73.7 | 65.0 | 60.6 |
| LLaMA-3.1-8B-Instruct | LoRA | 13.6M (×3238.0) | 78.6 | 36.3 | 73.6 | 64.8 | 60.4 |
可学习 CoT 向量在 Qwen 上平均 55.1 分(超 baseline 4.6 分),用 3.6K 参数就反超了用 1000 万参数的 LoRA;LLaMA 上同样以约 4K 参数微弱胜过 13.6M 的 LoRA。作者解释:指令微调模型本就有强 CoT 先验,留给 LoRA 改进的空间不大,而 CoT 向量是「外加引导信号」,不动模型既有功能结构反而更高效。
跨层迁移与训练规模消融¶
| 实验 | 配置 | 结果 | 说明 |
|---|---|---|---|
| 跨层迁移 (Qwen-GSM8K) | 浅层向量 → 中间层 | 75.3 (↑9.0) | 浅层向量注入中层反而涨 |
| 跨层迁移 (Qwen-GSM8K) | 中层向量 → 浅层 | 63.8 (↓14.4) | 中层向量注入浅层大幅掉点 |
| 跨数据迁移 | MMLU-Pro → MATH | 47.9 → 48.5 | 跨域仍有增益,疑似 meta-reasoning |
| 跨模型迁移 | Qwen-Math-Instruct → Qwen-Math | 74.6 → 77.5 | 向量可在同系列模型间复用 |
| 支持集规模 (Qwen-GSM8K) | 仅 100 样本 | 78.2 (LoRA 仅 76.0) | 小数据下数据效率显著优于 LoRA |
关键发现¶
- 三阶段推理机制:提取式向量的 U 形不稳定不是随机的。通过 PCA 信息密度分析与 t-SNE 可视化,作者发现中间层需要远多的主成分才能解释方差、且无主导方向,说明它承载着高维、样本特异的核心推理;浅层做感知/语义编码、深层做表达,两者表示更线性统一。由此提出 LLM 推理被组织成「感知—推理—表达」三阶段。这也解释了为什么提取式向量在中层失效:中层激活缺乏一致的任务级方向,压不出紧凑可复用的向量。
- 失败不在位置而在表示:把中层向量注入浅层掉 14.4 分,把浅层向量注入中层却涨 9.0 分——证明中层注入失败源于中层表示本身样本特异、不可泛化,而非「中层这个位置」不好。
- 模型差异源于潜空间结构:Qwen 比 LLaMA 收益更大(平均涨 4 分 vs 1.5 分),因为 Qwen 经过更聚焦标准化的微调,潜空间三阶段分化更清晰、信息密度更低、主方向更明确,更利于提取/优化出高质量任务级信号。
- 可学习向量也有翻车风险:注入中/深层易过拟合,会过度操纵潜空间、塌缩多样推理路径导致准确率崩到 23.7;用早停或降学习率得到「轻微欠拟合」的向量反而稳。所以浅层才是可学习向量的最佳注入点。
亮点与洞察¶
- 「方法即探针」的双重价值:CoT 向量既是提升推理的工具,又是剖析机制的显微镜。提取式向量的 U 形不稳定本来是个缺陷,却被反向利用,钓出了「感知—推理—表达」三阶段这一可解释性发现——这种「把 bug 当 feature 来做科学」的思路很值得借鉴。
- 加性偏移的理论锚点:先从注意力分解推出「CoT = 加性偏移」,再据此设计提取与注入,让整个方法不是拍脑袋的 hack,而是有形式化依据。这个 \(\text{SA}=\text{SA}_{\text{noCoT}}+\mu\vec{v}_{\text{CoT}}\) 的视角可迁移到其他「前缀/指令也是向量」的干预研究。
- 极致的参数效率:用 3–4K 参数(比 LoRA 少近 3000 倍)就打平甚至反超 LoRA,且推理只是一次向量加法、不拉长上下文。对「已有强 CoT 先验、微调收益递减」的现代指令模型,这是一条更划算的增强路径。
- 首层即最优的工程友好性:可学习向量在首层达峰且全层平台稳定,意味着部署时不用做昂贵的逐层搜索,无脑注入第一层即可——把「最佳层选择」这个提取式的老大难直接消解掉。
局限与展望¶
- 作者承认:可学习向量在中/深层注入易过拟合塌缩,需要早停/降学习率这类「调教」手段才稳;提取式向量的最佳注入层随任务/模型漂移,在没有 ground truth 的真实部署里几乎不可用(这也是引入可学习版本的动机)。
- 任务同质性假设:方法建立在「同类任务的 CoT 向量落在一个连续语义空间、有有意义质心」这一假设上。对内部异质、解题套路差异极大的任务集合,单个任务级向量是否还成立存疑。
- 跨域增益偏弱:跨域迁移(MMLU-Pro → MATH 仅 47.9→48.5)远小于同域增益,所谓「meta-reasoning 能力」更多是定性推测,缺乏更强证据。
- 评测规模:仅在 7B/8B 两个开源模型上验证,更大模型、推理型模型(如带长思维链的 o1 类)上三阶段结构与向量是否依旧成立,值得进一步检验。
相关工作与启发¶
- vs Task Vector(Ilharco et al. / Todd / Hendel): 他们把简单任务知识压成激活差或权重差向量,但只在分类、ICL 等简单适配上验证,且经验上「中层干预最有效」。本文把范式推到复杂多步推理,恰恰发现推理任务中层失效、浅/深层有效,颠覆了原有直觉,并补上了可学习的优化机制。
- vs Implicit/Latent CoT(Coconut、Geiping 等): 他们把显式推理步骤压进隐空间,但往往要改架构或做密集的参数后训练,代价高收益有限。本文不动模型架构,用一个外挂、即插即用的向量承载推理,灵活且省。
- vs LoRA 等 PEFT: LoRA 改注意力投影矩阵、需千万级可训练参数;本文只学一个 3–4K 维向量、原模型全冻,参数效率高 3 个数量级,且在小支持集(100 样本)下数据效率明显更好。
- vs 此前 CoT steering 探索(Azizi / Tang / Zhang & Viteri): 那些工作要么压缩 CoT 链、要么刺激更长推理,聚焦「控制生成」而非「捕捉任务级推理套路」,且分析停留在表层。本文用可学习机制主动优化向量,并配上信息密度/潜空间结构的系统分析,把探索推进到机制层面。
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 把 Task Vector 推到多步推理,并以「方法即探针」钓出三阶段机制,视角新颖
- 实验充分度: ⭐⭐⭐⭐ 两模型六基准 + 跨层/跨域/跨模型迁移 + 规模消融较全面,但仅限 7–8B 规模
- 写作质量: ⭐⭐⭐⭐ 理论—方法—机制分析串联清晰,公式与可视化支撑到位
- 价值: ⭐⭐⭐⭐⭐ 既给出极省的推理增强手段,又为 LLM 推理可解释性提供新探针,工具与洞察兼得