跳转至

Reasoning by Superposition: A Theoretical Perspective on Chain of Continuous Thought

会议: NeurIPS 2025
arXiv: 2505.12514
代码: GitHub
领域: LLM推理
关键词: 连续思维链, 叠加态推理, 图可达性, Transformer表达力, Coconut

一句话总结

本文从理论上证明了连续思维链(Coconut)在有向图可达性问题上的表达优势:两层Transformer使用D步连续思维即可解决直径为D的图可达性问题,而离散CoT需要O(n²)步,其核心机制是连续思维向量以"叠加态"同时编码多条搜索前沿,实现隐式并行BFS。

研究背景与动机

  • 离散CoT的局限:标准链式思维(CoT)通过生成离散文本token来辅助推理,但在图推理等任务中表现不佳。每一步离散CoT必须将叠加态"坍缩"为单一路径,导致搜索退化为贪心搜索或需要大量回溯的DFS
  • 连续CoT(Coconut)的经验优势:Hao et al. (2024) 提出的Coconut在合成任务(如有向图可达性)上显著优于离散CoT,初步观察到连续思维可能同时存储多条候选搜索路径,但缺乏理论解释
  • 理论空白:现有关于CoT提升Transformer表达力的理论工作主要集中在离散CoT,对连续CoT为何更强缺乏深入理解
  • 核心洞察:类比量子力学中的叠加态概念——连续思维向量是"叠加态"(superposition state),可同时编码多条搜索前沿;而离散token是"坍缩态"(collapsed state),必须选择单一路径

方法详解

整体框架

  • 问题设定:有向图可达性问题——给定有向图G=(V,E)、起点r和两个候选终点c₁/c₂,判断哪个可达
  • 输入结构:BOS + 边序列(每条边由源节点s、目标节点t、特殊标记\<e>表示)+ 问题标记\<Q> + 两个候选节点 + 推理标记\<R> + 根节点
  • 连续思维生成:跳过采样步骤,直接将Transformer输出作为下一步输入嵌入,即 \(\mathbf{h}_{t+1} = \mathsf{TF}_\theta(\mathbf{h}_{[t]})\)

关键设计

1. 注意力选择器(Attention Chooser)

  • 构建的基本模块,能根据当前位置的token选择特定的相对位置进行注意
  • 利用正弦位置编码的旋转矩阵性质,使得特定token类型总是关注固定相对偏移处的位置
  • 适用于标准位置编码(正弦/RoPE),无需为特定问题或输入长度定制

2. 叠加态维护(核心引理)

  • 关键引理(Lemma 2):第c步连续思维是所有从r出发c步内可达节点的归一化叠加: $\([\mathbf{t}_c] = \frac{1}{\sqrt{|\mathcal{V}_c|}} \sum_{v \in \mathcal{V}_c} \mathbf{u}_v\)$
  • 两层Transformer的构造
    • 第一层注意力(5个注意力头):将每条边的源节点和目标节点信息拷贝到对应的边标记\<e>位置。具体地,h₀/h₁关注\<e>前2/1个位置,h₂/h₃关注\<R>前2/1个位置,h₄关注\<A>前1个位置
    • 第二层注意力(1个注意力头):当前思维[tc]通过与边标记\<e>的源节点计算注意力,找到所有源节点在V_c中的边,并将目标节点加入——这正是BFS的一步扩展
    • MLP层作为滤波器:过滤噪声token(权重低于阈值ε的),并均衡化剩余节点的权重,配合LayerNorm恢复归一化叠加态

3. 最终预测("测量"叠加态)

  • 在生成C步连续思维后,添加答案标记\<A>
  • \<A>利用c₁和c₂的嵌入去"测量"叠加态[tC]中的信号强度
  • 预测信号更大的候选节点作为输出——类比量子力学中的测量过程

损失函数 / 训练策略

  • 采用多阶段课程学习:阶段i训练模型在i步连续思维后预测CoT解中第i个节点
  • 每个阶段训练25个epoch,共300个epoch
  • 以0.1概率混合前一阶段的数据,稳定训练

实验关键数据

主实验

方法 层数 注意力头数 ProsQA准确率
Coconut 2 8 ~100%
CoT 2 8 ~75%
No CoT 2 8 ~75%
CoT* 12 12 ~83%

关键结论:2层Transformer+Coconut达到近乎完美的准确率,显著优于12层+CoT的配置。

消融实验:Layer 2注意力分数分析

推理步骤 Not Reachable Reachable Frontier Optimal
Step 1 0.04±0.07 2.12±1.07 2.12±1.07 2.54±1.03
Step 2 0.03±0.09 0.71±0.92 1.00±0.96 1.72±1.13
Step 3 0.08±0.17 0.38±0.72 0.67±0.87 1.67±1.20
Step 4 0.12±0.20 0.29±0.66 0.61±0.95 2.23±1.35

模型确实将注意力集中在可达边上,且存在对前沿边和最优边的额外偏好。

关键发现

  1. 叠加态自发涌现:仅用最优路径监督训练,连续思维自动学会编码多条搜索前沿的叠加态,无需显式多路径监督
  2. 表示验证:连续思维[ti]与可达节点嵌入的内积显著大于不可达节点,且前沿节点>其他可达节点>不可达节点
  3. Coconut-BFS对比:用均匀随机前沿节点替代最优路径做监督,同样达到近乎完美准确率,两种监督方式收敛到相似的探索策略

亮点与洞察

  1. 类比量子力学:将连续思维比作量子叠加态、离散token比作坍缩态,这一类比既直观又深刻地揭示了连续CoT的本质优势
  2. O(D) vs O(n²)的理论分离:首次证明连续CoT在图可达性上的步数复杂度远优于离散CoT
  3. 实用位置编码:构造适用于标准正弦和RoPE位置编码,不需要为特定问题定制位置编码,增强了理论的实际相关性
  4. Theory-Practice对齐:理论构造中的注意力模式(第一层拷贝、第二层扩展)在训练模型中被实际学到
  5. 仅需线性嵌入维度:理论构造只需O(|Voc|)维嵌入,优于并行工作中的指数维度要求

局限与展望

  1. 尚未证明离散CoT步数的下界,即CoT和Coconut之间的严格表达力分离仍然开放
  2. 仅研究了图可达性这一特定问题,更一般推理任务的理论分析待扩展
  3. 叠加态探索行为如何仅从确定性搜索轨迹中通过训练涌现,缺乏理论解释
  4. 实验使用从头训练的小GPT-2模型,对大规模预训练LLM的适用性未验证

相关工作与启发

  • Coconut (Hao et al., 2024):本文的理论基础来源,提出了连续思维链的训练方法
  • Merrill & Sabharwal (2023):证明常数深度Transformer+离散CoT需O(n²)步解决图可达性,本文大幅改进了这一结果
  • Gozeten et al. (2025):同期工作研究一层Transformer+连续CoT在最小非负和问题上的叠加机制,但需要指数维嵌入
  • 启发:连续表示空间的"并行计算"能力可能是解锁LLM复杂推理的关键方向

评分

  • 理论深度: ⭐⭐⭐⭐⭐
  • 实验充分度: ⭐⭐⭐⭐
  • 实用性: ⭐⭐⭐
  • 创新性: ⭐⭐⭐⭐⭐
  • 总体推荐: 9/10