CoT Vectors: Transferring and Probing the Reasoning Mechanisms of LLMs¶

会议: ICLR2026
OpenReview: https://openreview.net/forum?id=L1FUfBCL0c
代码: 待确认（原文称源码将开源）
领域: 可解释性 / LLM 推理机制
关键词: Chain-of-Thought, Task Vector, 激活干预, 推理机制探测, 参数高效

一句话总结¶

把一段 Chain-of-Thought（CoT）推理过程压缩成一个可直接加到隐藏状态上的「CoT 向量」，既能在几乎零开销下提升 LLM 多步推理（媲美 LoRA 但可训练参数少 3 个数量级），又能当成探针揭示出 LLM 推理被组织成「感知—推理—表达」三阶段的内部机制。

研究背景与动机¶

领域现状：让 LLM 做好多步推理，目前主流就两条路——一是 In-Context Learning（ICL），在 prompt 里塞几条 few-shot CoT 示例；二是用带 CoT 标注的数据做微调（SFT / RLHF / LoRA）。两者都在「外部」想办法把推理能力喂给模型。

现有痛点：ICL 要拉长 prompt、拖慢推理；微调则要大量高质量推理轨迹和算力，而且对那些本就有 CoT 能力的模型往往收益很有限。换句话说，「让模型学会一种解题套路」这件事，现在的代价高得和收益不成正比。

核心矛盾：CoT 的本质是一种任务级、可复用的「解题心态」，但现有手段要么把它绑在冗长的 prompt 里（每次都重新喂），要么把它摊进千万级参数的权重更新里（笨重且不透明）。有没有一种既紧凑、又可复用、又便宜的载体来承载这种推理知识？

切入角度：作者借鉴 Task Vector 范式——分类等简单任务的知识可以蒸馏成一个紧凑向量（取微调前后激活或参数之差），加到前向过程里就能改变模型行为，无需改权重。但 Task Vector 此前只在简单适配场景验证过，能不能撑起复杂的多步推理是未知数。作者先做了一步数学推导，发现 CoT 对注意力输出的影响可以形式化为一个一致的加性偏移，这就给「把 CoT 也做成向量」提供了理论依据。

核心 idea：提出 CoT Vector——把一组 (Question, CoT, Answer) 三元组里蕴含的推理知识压成一个向量，推理时直接注入某一层的隐藏状态来引导模型「按这个套路想」。并进一步发现直接提取的向量在层间极不稳定（U 形曲线），于是用师生框架学一个更稳的可学习版本；最后反过来把这个向量当探针，剖析 LLM 推理的内部组织方式。

方法详解¶

整体框架¶

整篇工作其实在回答两个问题：怎么把 CoT 装进一个向量，以及这个向量能告诉我们 LLM 内部发生了什么。方法上分三步走：先从理论上把「CoT 的作用 = 注意力输出上的一个加性偏移」推导出来（这是合法性证明）；再给出两种拿到这个偏移向量的办法——非参数的「提取式」和参数化的「可学习式」；最后规定推理时怎么把向量注入每一步前向传播。提取式简单但暴露了层间不稳定性，反而成了探测推理机制的入口；可学习式则用师生蒸馏把这种不稳定性抹平。

%%{init: {'flowchart': {'rankSpacing': 24, 'nodeSpacing': 28, 'padding': 6, 'wrappingWidth': 400}}}%%
flowchart TD
    A["支持集<br/>(Q, CoT, A) 三元组"] --> B["CoT 偏移形式化<br/>CoT 作用 = 注意力加性偏移"]
    B --> C["提取式 CoT 向量<br/>有/无 CoT 的激活差求平均"]
    B --> D["可学习 CoT 向量<br/>师生框架梯度优化"]
    C -->|层间 U 形不稳定| E["注入第 l 层每步前向<br/>α + μ·v_CoT"]
    D -->|稳定，首层即最优| E
    E --> F["引导测试问题推理<br/>＋当探针剖析三阶段机制"]

关键设计¶

1. CoT 偏移的形式化：把「插一段推理」证明成激活上的一次加性平移

这一步是整个方法的合法性地基，针对的痛点是「凭什么相信 CoT 这种离散的文字推理能被一个连续向量替代」。作者借用 He et al. 关于前缀对注意力输出影响的视角，把 CoT 序列看成插在问题 \(Q\) 与答案 \(A\) 之间的一段特殊前缀。对每个答案 token \(a\)，带 CoT 和不带 CoT 的单头自注意力可以写成一个分解式：

\[\text{SA}(a,[K_Q,K_C,K_A],[V_Q,V_C,V_A]) = \underbrace{\text{SA}(a,[K_Q,K_A],[V_Q,V_A])}_{\text{标准注意力}} + \underbrace{\mu\cdot(\text{SA}(a,[K_C],[V_C]) - \text{SA}(a,[K_Q,K_A],[V_Q,V_A]))}_{\text{CoT 偏移}}\]

也就是说，带 CoT 的注意力输出等于「原本不带 CoT 的输出」再加上一个由标量系数 \(\mu\) 调制的额外项。作者把这个额外项命名为 CoT Shift，对应向量记作 \(\vec{v}_{\text{CoT}}\)，于是有简洁形式 \(\text{SA}(\cdot)=\text{SA}_{\text{noCoT}}(\cdot)+\mu\cdot\vec{v}_{\text{CoT}}\)。这条等式同时给出了两件事：一是 CoT 的效果确实可以被一个向量捕捉，二是推理时只要「反过来把这个向量加回去」就能复现 CoT 的引导效果。作者进一步假设，同类任务里各样本的 CoT 向量落在一个连续语义空间中，其质心就是该任务的任务级（task-general）CoT 向量，编码了这类问题共享的解题策略。

2. 提取式 CoT 向量：非参数地取激活差，简单但暴露层间 U 形不稳定

最直接的拿向量方式就是照搬 NLP 里 Task Vector 的做法：对支持集里成对的 \((Q,A)\) 和三元组 \((Q,\text{CoT},A)\)，在第 \(l\) 层记录答案 token 在「有 CoT」与「无 CoT」两种输入下的隐藏状态之差，对所有答案 token 求平均得到单样本向量 \(\vec{v}^{(l)}_{\text{CoT}}=\frac{1}{|A|}\sum_{a}(\alpha^{(l)}_{\text{CoT}}(a)-\alpha^{(l)}_{\text{Non-CoT}}(a))\)，再对 \(N\) 个支持样本取平均得到任务级向量 \(\vec{v}_E=\frac{1}{N}\sum_i\vec{v}_{\text{CoT},i}\)。它确实有效（两个模型上平均比 baseline 高 2.4 和 1.1 分），但作者发现它在不同层注入时性能剧烈抖动，呈现锯齿状 U 形曲线：注入浅层和深层有增益，注入中间层几乎没用甚至掉点。这一点恰恰和以往在分类等简单任务上「中间层干预最有效」的结论相反，反而成了揭示 LLM 推理内部结构的关键线索（见下文三阶段机制）。

3. 可学习 CoT 向量：师生框架蒸馏一个稳健、首层即最优的推理信号

提取式本质是个「描述性统计量」，被动记录平均激活差，因此在缺乏主导方向的中间层会失效，且保留了样本特异的噪声。为了拿到更稳的向量，作者改用参数化学习：把 \(\vec{v}_L\) 初始化成可学习参数，加到某一层隐藏状态上，在支持集上用梯度优化。训练采用师生框架——教师路径喂完整三元组 \((Q,\text{CoT},A)\) 且模型参数全程冻结，提供监督信号；学生路径只喂 \((Q,A)\)，靠注入的 \(\vec{v}_L\) 来补偿缺失的 CoT。损失由两项构成：答案 token 上的交叉熵预测损失 \(L_{\text{CE}}\)，和教师/学生在答案 token 隐藏状态上的 KL 对齐损失 \(L_{\text{Align}}\)，合成 \(L=L_{\text{Align}}+\lambda\cdot L_{\text{CE}}\)（实验取 \(\lambda=0.5\)）。整个过程只更新 \(\vec{v}_L\)，原模型参数全冻。因为是「主动学习推理知识」而非「被动平均激活」，可学习向量在隐藏空间里做出更有方向性、更激进的平移，从而摆脱单层表示的局限、避开样本噪声。结果是层间曲线从锯齿 U 形变成「首层达峰、后续保持平台」，几乎所有层都稳定优于 baseline——实践上只要无脑注入第一层就接近最优，对部署极友好。

4. 推理时的注入：每步前向加一个向量，几乎零开销

拿到任务级向量后，测试时对新问题在第 \(l\) 层、每一步自回归前向都执行 \(\tilde{\alpha}^{(l)}=\alpha^{(l)}+\mu^{(l)}\cdot\vec{v}^{(l)}_{\text{CoT}}\)。对提取式向量，\(\mu\) 是显式设定的常数缩放（实验固定为 1.0）；对可学习向量，\(\mu\) 已在端到端训练中被吸收进向量本身，不再单独维护。这种注入不增加输入上下文长度，运行时代价仅为一次向量加法，因此基本不带来额外开销——这正是相比 ICL（拉长 prompt）和微调（改权重）的核心优势。

实验关键数据¶

主实验¶

两个模型（Qwen2.5-Math-7B、LLaMA-3.1-8B-Instruct）× 六个基准（GSM8K、MATH-Easy/Hard、MMLU-Pro、CommonsenseQA、StrategyQA）。CoT 向量结果取层间评估选出的最佳注入层。

模型	方法	可训练参数	GSM8K	MATH-H	CSQA	SQA	平均
Qwen2.5-Math-7B	Baseline (zero-shot CoT)	—	74.6	47.9	53.8	23.7	50.5
Qwen2.5-Math-7B	Extracted	—	78.2	49.7	57.5	29.1	53.6
Qwen2.5-Math-7B	Learnable	3.6K (×1.0)	83.5	50.9	58.2	31.2	55.1
Qwen2.5-Math-7B	LoRA	10.0M (×2777.8)	79.0	48.2	58.0	31.2	53.4
LLaMA-3.1-8B-Instruct	Baseline	—	77.4	34.6	72.7	60.8	58.7
LLaMA-3.1-8B-Instruct	Learnable	4.2K (×1.0)	78.2	36.4	73.7	65.0	60.6
LLaMA-3.1-8B-Instruct	LoRA	13.6M (×3238.0)	78.6	36.3	73.6	64.8	60.4

可学习 CoT 向量在 Qwen 上平均 55.1 分（超 baseline 4.6 分），用 3.6K 参数就反超了用 1000 万参数的 LoRA；LLaMA 上同样以约 4K 参数微弱胜过 13.6M 的 LoRA。作者解释：指令微调模型本就有强 CoT 先验，留给 LoRA 改进的空间不大，而 CoT 向量是「外加引导信号」，不动模型既有功能结构反而更高效。

跨层迁移与训练规模消融¶

实验	配置	结果	说明
跨层迁移 (Qwen-GSM8K)	浅层向量 → 中间层	75.3 (↑9.0)	浅层向量注入中层反而涨
跨层迁移 (Qwen-GSM8K)	中层向量 → 浅层	63.8 (↓14.4)	中层向量注入浅层大幅掉点
跨数据迁移	MMLU-Pro → MATH	47.9 → 48.5	跨域仍有增益，疑似 meta-reasoning
跨模型迁移	Qwen-Math-Instruct → Qwen-Math	74.6 → 77.5	向量可在同系列模型间复用
支持集规模 (Qwen-GSM8K)	仅 100 样本	78.2 (LoRA 仅 76.0)	小数据下数据效率显著优于 LoRA

关键发现¶

三阶段推理机制：提取式向量的 U 形不稳定不是随机的。通过 PCA 信息密度分析与 t-SNE 可视化，作者发现中间层需要远多的主成分才能解释方差、且无主导方向，说明它承载着高维、样本特异的核心推理；浅层做感知/语义编码、深层做表达，两者表示更线性统一。由此提出 LLM 推理被组织成「感知—推理—表达」三阶段。这也解释了为什么提取式向量在中层失效：中层激活缺乏一致的任务级方向，压不出紧凑可复用的向量。
失败不在位置而在表示：把中层向量注入浅层掉 14.4 分，把浅层向量注入中层却涨 9.0 分——证明中层注入失败源于中层表示本身样本特异、不可泛化，而非「中层这个位置」不好。
模型差异源于潜空间结构：Qwen 比 LLaMA 收益更大（平均涨 4 分 vs 1.5 分），因为 Qwen 经过更聚焦标准化的微调，潜空间三阶段分化更清晰、信息密度更低、主方向更明确，更利于提取/优化出高质量任务级信号。
可学习向量也有翻车风险：注入中/深层易过拟合，会过度操纵潜空间、塌缩多样推理路径导致准确率崩到 23.7；用早停或降学习率得到「轻微欠拟合」的向量反而稳。所以浅层才是可学习向量的最佳注入点。

亮点与洞察¶

「方法即探针」的双重价值：CoT 向量既是提升推理的工具，又是剖析机制的显微镜。提取式向量的 U 形不稳定本来是个缺陷，却被反向利用，钓出了「感知—推理—表达」三阶段这一可解释性发现——这种「把 bug 当 feature 来做科学」的思路很值得借鉴。
加性偏移的理论锚点：先从注意力分解推出「CoT = 加性偏移」，再据此设计提取与注入，让整个方法不是拍脑袋的 hack，而是有形式化依据。这个 \(\text{SA}=\text{SA}_{\text{noCoT}}+\mu\vec{v}_{\text{CoT}}\) 的视角可迁移到其他「前缀/指令也是向量」的干预研究。
极致的参数效率：用 3–4K 参数（比 LoRA 少近 3000 倍）就打平甚至反超 LoRA，且推理只是一次向量加法、不拉长上下文。对「已有强 CoT 先验、微调收益递减」的现代指令模型，这是一条更划算的增强路径。
首层即最优的工程友好性：可学习向量在首层达峰且全层平台稳定，意味着部署时不用做昂贵的逐层搜索，无脑注入第一层即可——把「最佳层选择」这个提取式的老大难直接消解掉。

局限与展望¶

作者承认：可学习向量在中/深层注入易过拟合塌缩，需要早停/降学习率这类「调教」手段才稳；提取式向量的最佳注入层随任务/模型漂移，在没有 ground truth 的真实部署里几乎不可用（这也是引入可学习版本的动机）。
任务同质性假设：方法建立在「同类任务的 CoT 向量落在一个连续语义空间、有有意义质心」这一假设上。对内部异质、解题套路差异极大的任务集合，单个任务级向量是否还成立存疑。
跨域增益偏弱：跨域迁移（MMLU-Pro → MATH 仅 47.9→48.5）远小于同域增益，所谓「meta-reasoning 能力」更多是定性推测，缺乏更强证据。
评测规模：仅在 7B/8B 两个开源模型上验证，更大模型、推理型模型（如带长思维链的 o1 类）上三阶段结构与向量是否依旧成立，值得进一步检验。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 把 Task Vector 推到多步推理，并以「方法即探针」钓出三阶段机制，视角新颖
实验充分度: ⭐⭐⭐⭐ 两模型六基准 + 跨层/跨域/跨模型迁移 + 规模消融较全面，但仅限 7–8B 规模
写作质量: ⭐⭐⭐⭐ 理论—方法—机制分析串联清晰，公式与可视化支撑到位
价值: ⭐⭐⭐⭐⭐ 既给出极省的推理增强手段，又为 LLM 推理可解释性提供新探针，工具与洞察兼得