Reasoning by Superposition: A Theoretical Perspective on Chain of Continuous Thought¶
会议: NeurIPS 2025
arXiv: 2505.12514
代码: GitHub
领域: LLM推理
关键词: 连续思维链, 叠加态推理, 图可达性, Transformer表达力, Coconut
一句话总结¶
本文从理论上证明了连续思维链(Coconut)在有向图可达性问题上的表达优势:两层Transformer使用D步连续思维即可解决直径为D的图可达性问题,而离散CoT需要O(n²)步,其核心机制是连续思维向量以"叠加态"同时编码多条搜索前沿,实现隐式并行BFS。
研究背景与动机¶
- 离散CoT的局限:标准链式思维(CoT)通过生成离散文本token来辅助推理,但在图推理等任务中表现不佳。每一步离散CoT必须将叠加态"坍缩"为单一路径,导致搜索退化为贪心搜索或需要大量回溯的DFS
- 连续CoT(Coconut)的经验优势:Hao et al. (2024) 提出的Coconut在合成任务(如有向图可达性)上显著优于离散CoT,初步观察到连续思维可能同时存储多条候选搜索路径,但缺乏理论解释
- 理论空白:现有关于CoT提升Transformer表达力的理论工作主要集中在离散CoT,对连续CoT为何更强缺乏深入理解
- 核心洞察:类比量子力学中的叠加态概念——连续思维向量是"叠加态"(superposition state),可同时编码多条搜索前沿;而离散token是"坍缩态"(collapsed state),必须选择单一路径
方法详解¶
整体框架¶
- 问题设定:有向图可达性问题——给定有向图G=(V,E)、起点r和两个候选终点c₁/c₂,判断哪个可达
- 输入结构:BOS + 边序列(每条边由源节点s、目标节点t、特殊标记\<e>表示)+ 问题标记\<Q> + 两个候选节点 + 推理标记\<R> + 根节点
- 连续思维生成:跳过采样步骤,直接将Transformer输出作为下一步输入嵌入,即 \(\mathbf{h}_{t+1} = \mathsf{TF}_\theta(\mathbf{h}_{[t]})\)
关键设计¶
1. 注意力选择器(Attention Chooser)¶
- 构建的基本模块,能根据当前位置的token选择特定的相对位置进行注意
- 利用正弦位置编码的旋转矩阵性质,使得特定token类型总是关注固定相对偏移处的位置
- 适用于标准位置编码(正弦/RoPE),无需为特定问题或输入长度定制
2. 叠加态维护(核心引理)¶
- 关键引理(Lemma 2):第c步连续思维是所有从r出发c步内可达节点的归一化叠加: $\([\mathbf{t}_c] = \frac{1}{\sqrt{|\mathcal{V}_c|}} \sum_{v \in \mathcal{V}_c} \mathbf{u}_v\)$
- 两层Transformer的构造:
- 第一层注意力(5个注意力头):将每条边的源节点和目标节点信息拷贝到对应的边标记\<e>位置。具体地,h₀/h₁关注\<e>前2/1个位置,h₂/h₃关注\<R>前2/1个位置,h₄关注\<A>前1个位置
- 第二层注意力(1个注意力头):当前思维[tc]通过与边标记\<e>的源节点计算注意力,找到所有源节点在V_c中的边,并将目标节点加入——这正是BFS的一步扩展
- MLP层作为滤波器:过滤噪声token(权重低于阈值ε的),并均衡化剩余节点的权重,配合LayerNorm恢复归一化叠加态
3. 最终预测("测量"叠加态)¶
- 在生成C步连续思维后,添加答案标记\<A>
- \<A>利用c₁和c₂的嵌入去"测量"叠加态[tC]中的信号强度
- 预测信号更大的候选节点作为输出——类比量子力学中的测量过程
损失函数 / 训练策略¶
- 采用多阶段课程学习:阶段i训练模型在i步连续思维后预测CoT解中第i个节点
- 每个阶段训练25个epoch,共300个epoch
- 以0.1概率混合前一阶段的数据,稳定训练
实验关键数据¶
主实验¶
| 方法 | 层数 | 注意力头数 | ProsQA准确率 |
|---|---|---|---|
| Coconut | 2 | 8 | ~100% |
| CoT | 2 | 8 | ~75% |
| No CoT | 2 | 8 | ~75% |
| CoT* | 12 | 12 | ~83% |
关键结论:2层Transformer+Coconut达到近乎完美的准确率,显著优于12层+CoT的配置。
消融实验:Layer 2注意力分数分析¶
| 推理步骤 | Not Reachable | Reachable | Frontier | Optimal |
|---|---|---|---|---|
| Step 1 | 0.04±0.07 | 2.12±1.07 | 2.12±1.07 | 2.54±1.03 |
| Step 2 | 0.03±0.09 | 0.71±0.92 | 1.00±0.96 | 1.72±1.13 |
| Step 3 | 0.08±0.17 | 0.38±0.72 | 0.67±0.87 | 1.67±1.20 |
| Step 4 | 0.12±0.20 | 0.29±0.66 | 0.61±0.95 | 2.23±1.35 |
模型确实将注意力集中在可达边上,且存在对前沿边和最优边的额外偏好。
关键发现¶
- 叠加态自发涌现:仅用最优路径监督训练,连续思维自动学会编码多条搜索前沿的叠加态,无需显式多路径监督
- 表示验证:连续思维[ti]与可达节点嵌入的内积显著大于不可达节点,且前沿节点>其他可达节点>不可达节点
- Coconut-BFS对比:用均匀随机前沿节点替代最优路径做监督,同样达到近乎完美准确率,两种监督方式收敛到相似的探索策略
亮点与洞察¶
- 类比量子力学:将连续思维比作量子叠加态、离散token比作坍缩态,这一类比既直观又深刻地揭示了连续CoT的本质优势
- O(D) vs O(n²)的理论分离:首次证明连续CoT在图可达性上的步数复杂度远优于离散CoT
- 实用位置编码:构造适用于标准正弦和RoPE位置编码,不需要为特定问题定制位置编码,增强了理论的实际相关性
- Theory-Practice对齐:理论构造中的注意力模式(第一层拷贝、第二层扩展)在训练模型中被实际学到
- 仅需线性嵌入维度:理论构造只需O(|Voc|)维嵌入,优于并行工作中的指数维度要求
局限与展望¶
- 尚未证明离散CoT步数的下界,即CoT和Coconut之间的严格表达力分离仍然开放
- 仅研究了图可达性这一特定问题,更一般推理任务的理论分析待扩展
- 叠加态探索行为如何仅从确定性搜索轨迹中通过训练涌现,缺乏理论解释
- 实验使用从头训练的小GPT-2模型,对大规模预训练LLM的适用性未验证
相关工作与启发¶
- Coconut (Hao et al., 2024):本文的理论基础来源,提出了连续思维链的训练方法
- Merrill & Sabharwal (2023):证明常数深度Transformer+离散CoT需O(n²)步解决图可达性,本文大幅改进了这一结果
- Gozeten et al. (2025):同期工作研究一层Transformer+连续CoT在最小非负和问题上的叠加机制,但需要指数维嵌入
- 启发:连续表示空间的"并行计算"能力可能是解锁LLM复杂推理的关键方向
评分¶
- 理论深度: ⭐⭐⭐⭐⭐
- 实验充分度: ⭐⭐⭐⭐
- 实用性: ⭐⭐⭐
- 创新性: ⭐⭐⭐⭐⭐
- 总体推荐: 9/10