跳转至

Emergence of Superposition: Unveiling the Training Dynamics of Chain of Continuous Thought

会议: ICLR 2026
arXiv: 2509.23365
代码: 无
领域: 视频理解 / LLM 推理理论
关键词: Continuous CoT, 叠加态, 训练动力学, Transformer 理论, 图可达性

一句话总结

从理论上分析了两层 Transformer 在有向图可达性问题上使用连续 Chain-of-Thought(Coconut)训练时的训练动力学,揭示了"叠加态"(superposition)机制如何自然涌现:index-matching logit 先增长后有界,从而在探索与利用之间取得平衡。

研究背景与动机

连续 CoT 的经验优势:Coconut(Hao et al., 2024)通过将推理轨迹保持在连续潜空间而非离散 token 空间,在多任务上展现了理论和实验优势

叠加态机制的构造性证明:先前工作(Zhu et al., 2025)证明了两层 Transformer + 连续 CoT 可通过"叠加态"高效求解图可达性问题,即模型在不确定时同时保持多条推理轨迹

核心空白:构造性证明只展示了存在这样的参数,但未解释基于梯度的训练方法是否能自然学到叠加态机制

与离散 CoT 的对比:离散 CoT 每步只能选择一条路径(需要全局规划或回溯),而连续 CoT 可以并行保持多条路径(仅需局部搜索能力)

理论贡献定位:回答"梯度下降是否自然导致叠加态构造"这一开放问题

方法详解

整体框架

理论分析分为两个训练阶段:(1) 思维生成阶段——模型自回归地扩展连续思维,训练如何将可达节点集扩展一步;(2) 预测阶段——模型利用生成的连续思维输出最终答案。分析对象是简化的两层 Transformer 在有向图可达性问题上的梯度流动力学。

关键设计

1. Index-matching logit 的定义与分析

  • 功能:定义 index-matching logit μ 来量化模型的局部搜索能力强度
  • 核心思路:μ 控制注意力机制中"当前已探索节点"对"边的源节点"的匹配强度。通过分析梯度流 \(\dot{\mu}(t) = \frac{\alpha}{n\sqrt{K}}(d_{p_{c+1}} - F(\mu(t)))\) 证明 μ 在 Coconut 损失下收敛到有限值
  • 设计动机:μ 太小则模型缺乏局部搜索能力(随机猜测),μ 太大则模型过度自信、仅依赖局部特征(如节点入度)丢弃正确路径

2. 有界 logit 导致叠加态涌现(Theorem 1)

  • 功能:证明 Coconut 损失下的 attention logit 有界,而 Coconut-BFS 损失下的 logit 至少以对数速率发散
  • 核心思路:在 Coconut 训练中,只要目标节点入度 \(d_\star < d_{max}\),μ(t) → μ* < ∞;而在 Coconut-BFS 中 μ(t) → ∞
  • 设计动机:有界 logit 产生平滑的概率分布,使模型在不确定时对多条路径赋予相近权重(叠加态);无界 logit 产生接近 one-hot 的分布,过度承诺于单条路径

3. 一步前沿扩展(Theorem 2)

  • 功能:证明当 μ > 0 时,连续思维实现从 \(\mathcal{N}_c\)\(\mathcal{N}_{c+1}\) 的一步扩展
  • 核心思路:下一步思维的 token 投影 \(\mathbf{U}^\top [t_{c+1}]\) 仅在一步扩展集 \(\mathcal{N}_{c+1}\) 上有正质量,系数 \(\beta_v\) 由 carryover(已在集合中的节点)和 one-hop expansion(新扩展的节点)两项组成
  • 设计动机:验证训练得到的有界正 μ 确实能实现 BFS 风格的并行搜索

4. 预测阶段分析(Theorem 3)

  • 功能:证明模型能利用生成的叠加态连续思维正确预测可达节点
  • 核心思路:只有可达候选节点 c★ 同时具有正的 residual carryover 和 candidate lift,梯度流使 \((\mu_A(t), \mu_R(t))\) 的比值收敛到确保 c★ 获得最大 logit 的方向
  • 设计动机:完成完整的端到端理论链——训练自然产生叠加态,叠加态支持正确预测

损失函数 / 训练策略

  • Coconut 损失(实际使用):\(\ell^{coco} = -\log \frac{\exp(\xi_{p_{c+1}})}{\sum_v \exp(\xi_v)}\),对单一示范路径上的下一节点做交叉熵
  • Coconut-BFS 损失(对比):\(\ell^{BFS} = -\log \frac{\sum_{v \in \mathcal{N}_{c+1}} \exp(\xi_v)}{\sum_v \exp(\xi_v)}\),对所有可达节点做多标签交叉熵
  • 使用排列平均数据集损失保证顶点对称性
  • 实验使用课程学习(curriculum learning):阶段 c+1 先无监督生成 c 步连续思维,再训练第 c+1 步

实验关键数据

主实验

设置 模型 测试精度
GPT-2 style, 2层, d=768 Coconut 训练 96.2%
训练策略 阶段1: 150 epochs, 后续各25 epochs 共350 epochs
阶段混合概率 0.1(防止遗忘前阶段能力) -

图可达性问题数据集来自 ProsQA(Hao et al., 2024)的子集,额外使用了随机顶点排列。

消融实验

训练阶段 现象 理论预测
Stage 1 (c=1) logit 差值稳步增长,约125 epochs饱和在~60 Theorem 1: μ 有界 ✓
Stage 2 (c=2) 极少epochs即建立正μ 叠加态机制复用 ✓
Stage 3-4 (c=3,4) 未显式训练但自动泛化 长度泛化 ✓

关键发现

  1. Coconut 损失自然产生有界 logit:即使训练数据只提供单一示范路径,叠加态仍能涌现——这回答了 Zhu et al. (2025) 提出的开放问题
  2. 有界 logit 是叠加态涌现的关键机制:平衡了探索(保持多条可能路径)与利用(利用局部图结构识别相关路径)
  3. 长度泛化:一旦叠加态在早期阶段涌现,后续阶段能快速复用,即使从未在更长序列上训练
  4. 与离散 CoT 理论的对比:离散设置中 logit 通常对数增长且无界(Tian et al., 2023a; Nichani et al., 2024a),连续设置的有界行为是本质差异

亮点与洞察

  • 填补了构造性证明与训练动力学之间的空白:之前只知道叠加态"可以存在",现在知道"会自动出现"
  • 反直觉发现:即使训练数据只展示单条路径(单示范),模型仍学会同时追踪多条路径——这是连续潜空间的独特优势
  • exploration-exploitation 的新视角:将注意力 logit 的有界性与推理中的探索-利用权衡直接联系,为理解 LLM 内部推理机制提供了新工具
  • 理论与实验高度一致:logit 增长后饱和的实验曲线完美验证了理论预测

局限与展望

  1. 分析限于两层 Transformer + 线性注意力的简化设置,与实际深层 softmax 注意力的 Transformer 有差距
  2. 仅考虑有向图可达性问题,对更一般推理任务的推广需要额外工作
  3. 假设第一层的 copy 机制已经建立(引用已有工作),未分析其学习过程
  4. 排列对称性假设在实际 LLM 训练中未必严格成立
  5. 实验规模有限(2层Transformer,简单图结构),需要在更大模型和更复杂任务上验证

相关工作与启发

  • Zhu et al. (2025):本文的直接前驱,提供了连续 CoT 求解图可达性的构造性证明——本文补充了训练动力学分析
  • Hao et al. (2024) Coconut:提出了连续 CoT 的概念和课程学习方法——本文解释了其成功的理论基础
  • Nichani et al. (2024a):分析了 induction head 的训练动力学,但在离散设置中 logit 发散——与本文的有界结果形成对比
  • 对 latent-space reasoning(pause token、filler token、planning token)方向有理论指导意义:连续空间的"探索-利用平衡"可能是这些方法成功的共同机制

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 首次从训练动力学角度解释连续 CoT 中叠加态的涌现机制
  • 实验充分度: ⭐⭐⭐ 实验规模有限,主要作为理论验证,缺少大规模模型和真实推理任务
  • 写作质量: ⭐⭐⭐⭐ 数学推导清晰,图示直观,但前置知识要求较高
  • 价值: ⭐⭐⭐⭐ 为理解连续 CoT 工作原理提供了坚实理论基础,对 latent reasoning 方向有广泛启发