Reasoning by Superposition: A Theoretical Perspective on Chain of Continuous Thought¶

会议: NeurIPS 2025
arXiv: 2505.12514
代码: GitHub
领域: LLM推理
关键词: 连续思维链, 叠加态推理, 图可达性, Transformer表达力, Coconut

一句话总结¶

本文从理论上证明了连续思维链（Coconut）在有向图可达性问题上的表达优势：两层Transformer使用D步连续思维即可解决直径为D的图可达性问题，而离散CoT需要O(n²)步，其核心机制是连续思维向量以"叠加态"同时编码多条搜索前沿，实现隐式并行BFS。

研究背景与动机¶

离散CoT的局限：标准链式思维（CoT）通过生成离散文本token来辅助推理，但在图推理等任务中表现不佳。每一步离散CoT必须将叠加态"坍缩"为单一路径，导致搜索退化为贪心搜索或需要大量回溯的DFS
连续CoT（Coconut）的经验优势：Hao et al. (2024) 提出的Coconut在合成任务（如有向图可达性）上显著优于离散CoT，初步观察到连续思维可能同时存储多条候选搜索路径，但缺乏理论解释
理论空白：现有关于CoT提升Transformer表达力的理论工作主要集中在离散CoT，对连续CoT为何更强缺乏深入理解
核心洞察：类比量子力学中的叠加态概念——连续思维向量是"叠加态"（superposition state），可同时编码多条搜索前沿；而离散token是"坍缩态"（collapsed state），必须选择单一路径

方法详解¶

整体框架¶

问题设定：有向图可达性问题——给定有向图G=(V,E)、起点r和两个候选终点c₁/c₂，判断哪个可达
输入结构：BOS + 边序列（每条边由源节点s、目标节点t、特殊标记\<e>表示）+ 问题标记\<Q> + 两个候选节点 + 推理标记\<R> + 根节点
连续思维生成：跳过采样步骤，直接将Transformer输出作为下一步输入嵌入，即 $\mathbf{h}_{t+1} = \mathsf{TF}_\theta(\mathbf{h}_{[t]})$

关键设计¶

1. 注意力选择器（Attention Chooser）¶

构建的基本模块，能根据当前位置的token选择特定的相对位置进行注意
利用正弦位置编码的旋转矩阵性质，使得特定token类型总是关注固定相对偏移处的位置
适用于标准位置编码（正弦/RoPE），无需为特定问题或输入长度定制

2. 叠加态维护（核心引理）¶

关键引理（Lemma 2）：第c步连续思维是所有从r出发c步内可达节点的归一化叠加： $$[\mathbf{t}_c] = \frac{1}{\sqrt{|\mathcal{V}_c|}} \sum_{v \in \mathcal{V}_c} \mathbf{u}_v$$
两层Transformer的构造：
- 第一层注意力（5个注意力头）：将每条边的源节点和目标节点信息拷贝到对应的边标记\<e>位置。具体地，h₀/h₁关注\<e>前2/1个位置，h₂/h₃关注\<R>前2/1个位置，h₄关注\<A>前1个位置
- 第二层注意力（1个注意力头）：当前思维[tc]通过与边标记\<e>的源节点计算注意力，找到所有源节点在V_c中的边，并将目标节点加入——这正是BFS的一步扩展
- MLP层作为滤波器：过滤噪声token（权重低于阈值ε的），并均衡化剩余节点的权重，配合LayerNorm恢复归一化叠加态

3. 最终预测（"测量"叠加态）¶

在生成C步连续思维后，添加答案标记\<A>
\<A>利用c₁和c₂的嵌入去"测量"叠加态[tC]中的信号强度
预测信号更大的候选节点作为输出——类比量子力学中的测量过程

损失函数 / 训练策略¶

采用多阶段课程学习：阶段i训练模型在i步连续思维后预测CoT解中第i个节点
每个阶段训练25个epoch，共300个epoch
以0.1概率混合前一阶段的数据，稳定训练

实验关键数据¶

主实验¶

方法	层数	注意力头数	ProsQA准确率
Coconut	2	8	~100%
CoT	2	8	~75%
No CoT	2	8	~75%
CoT*	12	12	~83%

关键结论：2层Transformer+Coconut达到近乎完美的准确率，显著优于12层+CoT的配置。

消融实验：Layer 2注意力分数分析¶

推理步骤	Not Reachable	Reachable	Frontier	Optimal
Step 1	0.04±0.07	2.12±1.07	2.12±1.07	2.54±1.03
Step 2	0.03±0.09	0.71±0.92	1.00±0.96	1.72±1.13
Step 3	0.08±0.17	0.38±0.72	0.67±0.87	1.67±1.20
Step 4	0.12±0.20	0.29±0.66	0.61±0.95	2.23±1.35

模型确实将注意力集中在可达边上，且存在对前沿边和最优边的额外偏好。

关键发现¶

叠加态自发涌现：仅用最优路径监督训练，连续思维自动学会编码多条搜索前沿的叠加态，无需显式多路径监督
表示验证：连续思维[ti]与可达节点嵌入的内积显著大于不可达节点，且前沿节点>其他可达节点>不可达节点
Coconut-BFS对比：用均匀随机前沿节点替代最优路径做监督，同样达到近乎完美准确率，两种监督方式收敛到相似的探索策略

亮点与洞察¶

类比量子力学：将连续思维比作量子叠加态、离散token比作坍缩态，这一类比既直观又深刻地揭示了连续CoT的本质优势
O(D) vs O(n²)的理论分离：首次证明连续CoT在图可达性上的步数复杂度远优于离散CoT
实用位置编码：构造适用于标准正弦和RoPE位置编码，不需要为特定问题定制位置编码，增强了理论的实际相关性
Theory-Practice对齐：理论构造中的注意力模式（第一层拷贝、第二层扩展）在训练模型中被实际学到
仅需线性嵌入维度：理论构造只需O(|Voc|)维嵌入，优于并行工作中的指数维度要求

局限与展望¶

尚未证明离散CoT步数的下界，即CoT和Coconut之间的严格表达力分离仍然开放
仅研究了图可达性这一特定问题，更一般推理任务的理论分析待扩展
叠加态探索行为如何仅从确定性搜索轨迹中通过训练涌现，缺乏理论解释
实验使用从头训练的小GPT-2模型，对大规模预训练LLM的适用性未验证

评分¶

理论深度: ⭐⭐⭐⭐⭐
实验充分度: ⭐⭐⭐⭐
实用性: ⭐⭐⭐
创新性: ⭐⭐⭐⭐⭐
总体推荐: 9/10