Emergence of Superposition: Unveiling the Training Dynamics of Chain of Continuous Thought¶

会议: ICLR 2026
arXiv: 2509.23365
代码: 无
领域: 视频理解 / LLM 推理理论
关键词: Continuous CoT, 叠加态, 训练动力学, Transformer 理论, 图可达性

一句话总结¶

从理论上分析了两层 Transformer 在有向图可达性问题上使用连续 Chain-of-Thought（Coconut）训练时的训练动力学，揭示了"叠加态"（superposition）机制如何自然涌现：index-matching logit 先增长后有界，从而在探索与利用之间取得平衡。

研究背景与动机¶

连续 CoT 的经验优势：Coconut（Hao et al., 2024）通过将推理轨迹保持在连续潜空间而非离散 token 空间，在多任务上展现了理论和实验优势

叠加态机制的构造性证明：先前工作（Zhu et al., 2025）证明了两层 Transformer + 连续 CoT 可通过"叠加态"高效求解图可达性问题，即模型在不确定时同时保持多条推理轨迹

核心空白：构造性证明只展示了存在这样的参数，但未解释基于梯度的训练方法是否能自然学到叠加态机制

与离散 CoT 的对比：离散 CoT 每步只能选择一条路径（需要全局规划或回溯），而连续 CoT 可以并行保持多条路径（仅需局部搜索能力）

理论贡献定位：回答"梯度下降是否自然导致叠加态构造"这一开放问题

方法详解¶

整体框架¶

理论分析分为两个训练阶段：(1) 思维生成阶段——模型自回归地扩展连续思维，训练如何将可达节点集扩展一步；(2) 预测阶段——模型利用生成的连续思维输出最终答案。分析对象是简化的两层 Transformer 在有向图可达性问题上的梯度流动力学。

关键设计¶

1. Index-matching logit 的定义与分析

功能：定义 index-matching logit μ 来量化模型的局部搜索能力强度
核心思路：μ 控制注意力机制中"当前已探索节点"对"边的源节点"的匹配强度。通过分析梯度流 \(\dot{\mu}(t) = \frac{\alpha}{n\sqrt{K}}(d_{p_{c+1}} - F(\mu(t)))\) 证明 μ 在 Coconut 损失下收敛到有限值
设计动机：μ 太小则模型缺乏局部搜索能力（随机猜测），μ 太大则模型过度自信、仅依赖局部特征（如节点入度）丢弃正确路径

2. 有界 logit 导致叠加态涌现（Theorem 1）

功能：证明 Coconut 损失下的 attention logit 有界，而 Coconut-BFS 损失下的 logit 至少以对数速率发散
核心思路：在 Coconut 训练中，只要目标节点入度 \(d_\star < d_{max}\)，μ(t) → μ* < ∞；而在 Coconut-BFS 中 μ(t) → ∞
设计动机：有界 logit 产生平滑的概率分布，使模型在不确定时对多条路径赋予相近权重（叠加态）；无界 logit 产生接近 one-hot 的分布，过度承诺于单条路径

3. 一步前沿扩展（Theorem 2）

功能：证明当 μ > 0 时，连续思维实现从 \(\mathcal{N}_c\) 到 \(\mathcal{N}_{c+1}\) 的一步扩展
核心思路：下一步思维的 token 投影 \(\mathbf{U}^\top [t_{c+1}]\) 仅在一步扩展集 \(\mathcal{N}_{c+1}\) 上有正质量，系数 \(\beta_v\) 由 carryover（已在集合中的节点）和 one-hop expansion（新扩展的节点）两项组成
设计动机：验证训练得到的有界正 μ 确实能实现 BFS 风格的并行搜索

4. 预测阶段分析（Theorem 3）

功能：证明模型能利用生成的叠加态连续思维正确预测可达节点
核心思路：只有可达候选节点 c★ 同时具有正的 residual carryover 和 candidate lift，梯度流使 \((\mu_A(t), \mu_R(t))\) 的比值收敛到确保 c★ 获得最大 logit 的方向
设计动机：完成完整的端到端理论链——训练自然产生叠加态，叠加态支持正确预测

损失函数 / 训练策略¶

Coconut 损失（实际使用）：\(\ell^{coco} = -\log \frac{\exp(\xi_{p_{c+1}})}{\sum_v \exp(\xi_v)}\)，对单一示范路径上的下一节点做交叉熵
Coconut-BFS 损失（对比）：\(\ell^{BFS} = -\log \frac{\sum_{v \in \mathcal{N}_{c+1}} \exp(\xi_v)}{\sum_v \exp(\xi_v)}\)，对所有可达节点做多标签交叉熵
使用排列平均数据集损失保证顶点对称性
实验使用课程学习（curriculum learning）：阶段 c+1 先无监督生成 c 步连续思维，再训练第 c+1 步

实验关键数据¶

主实验¶

设置	模型	测试精度
GPT-2 style, 2层, d=768	Coconut 训练	96.2%
训练策略	阶段1: 150 epochs, 后续各25 epochs	共350 epochs
阶段混合概率	0.1（防止遗忘前阶段能力）	-

图可达性问题数据集来自 ProsQA（Hao et al., 2024）的子集，额外使用了随机顶点排列。

消融实验¶

训练阶段	现象	理论预测
Stage 1 (c=1)	logit 差值稳步增长，约125 epochs饱和在~60	Theorem 1: μ 有界 ✓
Stage 2 (c=2)	极少epochs即建立正μ	叠加态机制复用 ✓
Stage 3-4 (c=3,4)	未显式训练但自动泛化	长度泛化 ✓

关键发现¶

Coconut 损失自然产生有界 logit：即使训练数据只提供单一示范路径，叠加态仍能涌现——这回答了 Zhu et al. (2025) 提出的开放问题
有界 logit 是叠加态涌现的关键机制：平衡了探索（保持多条可能路径）与利用（利用局部图结构识别相关路径）
长度泛化：一旦叠加态在早期阶段涌现，后续阶段能快速复用，即使从未在更长序列上训练
与离散 CoT 理论的对比：离散设置中 logit 通常对数增长且无界（Tian et al., 2023a; Nichani et al., 2024a），连续设置的有界行为是本质差异

亮点与洞察¶

填补了构造性证明与训练动力学之间的空白：之前只知道叠加态"可以存在"，现在知道"会自动出现"
反直觉发现：即使训练数据只展示单条路径（单示范），模型仍学会同时追踪多条路径——这是连续潜空间的独特优势
exploration-exploitation 的新视角：将注意力 logit 的有界性与推理中的探索-利用权衡直接联系，为理解 LLM 内部推理机制提供了新工具
理论与实验高度一致：logit 增长后饱和的实验曲线完美验证了理论预测

局限与展望¶

分析限于两层 Transformer + 线性注意力的简化设置，与实际深层 softmax 注意力的 Transformer 有差距
仅考虑有向图可达性问题，对更一般推理任务的推广需要额外工作
假设第一层的 copy 机制已经建立（引用已有工作），未分析其学习过程
排列对称性假设在实际 LLM 训练中未必严格成立
实验规模有限（2层Transformer，简单图结构），需要在更大模型和更复杂任务上验证

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次从训练动力学角度解释连续 CoT 中叠加态的涌现机制
实验充分度: ⭐⭐⭐ 实验规模有限，主要作为理论验证，缺少大规模模型和真实推理任务
写作质量: ⭐⭐⭐⭐ 数学推导清晰，图示直观，但前置知识要求较高
价值: ⭐⭐⭐⭐ 为理解连续 CoT 工作原理提供了坚实理论基础，对 latent reasoning 方向有广泛启发