Dynamics Within Latent Chain-of-Thought: An Empirical Study of Causal Structure¶

会议: ICLR2026
arXiv: 2602.08783
代码: GitHub
领域: LLM推理
关键词: 隐式思维链, 因果分析, do-干预, 结构因果模型, 可解释性

一句话总结¶

将隐式CoT建模为结构因果模型(SCM)，通过逐步do-干预分析Coconut和CODI两种范式，发现隐式推理步骤具有异质性因果杠杆、非局部跳跃传播结构、以及输出层早期偏向与表征层晚期提交之间的持续性差距。

研究背景与动机¶

显式CoT的固有缺陷：Chain-of-Thought虽然提升推理准确率，但带来大量解码开销、冗长输出，且可能产生事后合理化(post-hoc rationalization)而非真实反映模型计算

隐式CoT的兴起与挑战：Coconut、CODI等方法将推理转入连续表征空间，降低解码成本，但中间计算不再以离散可编辑步骤暴露，传统步骤编辑/消融方法无法直接应用

现有分析的局限：对隐式CoT的理解主要依赖相关性探测(correlation-based probes)，缺乏因果层面的系统分析，无法回答"哪些步骤因果上必要"等关键问题

步骤预算的本质未知：隐式推理中固定的隐步骤预算(如T=6)是均匀贡献额外计算深度，还是扮演不同功能角色？信息如何在步骤间路由？

输出承诺与表征承诺的关系不清：输出层面何时"锁定"某个答案？这与内部表征的状态是否同步？竞争假设是否在中间步骤中持续存在？

统一评估框架的缺失：需要一个适用于不同隐式推理范式的标准化干预-读出协议，以实现可比较的因果分析

方法详解¶

核心框架：隐式CoT作为因果系统¶

将隐式CoT的隐状态序列建模为结构因果模型(SCM)中的因果变量。对输入$x$，模型产生隐轨迹$H_{1:T}$和输出$Y$： $$H_t = f_t(H_{<t}, x, \epsilon_t; \theta), \quad t=1,\ldots,T$$ $$Y = g(H_{1:T}, x, \epsilon_y; \theta)$$ 其中$f_t$是转移机制，$g$是解码机制。通过$\mathrm{do}(h_t \leftarrow \tilde{h}_t)$干预单个步骤状态，切断该步骤与上游的因果关联，观察对下游计算和最终输出的影响。干预后的反事实轨迹按下式递推： $$\tilde{h}_{t'} := f_{t'}(\tilde{h}_{<t'}, x, \tilde{\epsilon}_{t'}; \theta), \quad t' > t$$

RQ1: 步骤必要性与充分性¶

零干预(Zero Intervention)：将目标步骤隐状态置零$\mathrm{do}(h_t \leftarrow \mathbf{0})$，计算flip rate——被干预后最终预测与基线不同的样本比例： $$\mathrm{Flip}(t) = \frac{1}{N}\sum_{i=1}^{N}\mathbb{I}[\tilde{y}_i^{(t)} \neq y_i]$$ 该指标衡量各步骤对最终决策的因果必要性。选择零干预因其确定性、无参数、跨架构公平。

早停解码(Early-Stop Decoding)：截断第$k$步后直接解码，定义最早可解码步$k_i$和累计解决率$S(k)$： $$k_i = \min(\{k : \hat{y}_i^{(\leq k)} = y_i^*\} \cup \{\infty\}), \quad S(k) = \frac{1}{N}\sum_{i=1}^{N}\mathbf{1}\{k_i \leq k\}$$

RQ2: 信息流与步间影响结构¶

结合单步干预与下游早期读出，通过teacher-forced输出分布的KL散度量化步$t$到步$s$的定向传播强度： $$\mathrm{KL}_{t \to s}^{(i)} = \frac{1}{|y_i^*|}\sum_{u=1}^{|y_i^*|}\mathrm{KL}(p_{\text{base}}^{(s)}(\cdot \mid y_{i,<u}^*) \| p_{\mathrm{do}(t)}^{(s)}(\cdot \mid y_{i,<u}^*))$$ 聚合构建影响矩阵$W_{t,s} = \mathbb{E}_i[\mathrm{KL}_{t \to s}^{(i)}]$。可视化时保留边权$> 0.1 \cdot \max(W)$的top-1出边，构建主导影响图。同时计算四个归一化结构指标： - Locality: 对角线附近的影响质量集中度 - Span: 期望跳跃距离 - Early-out: 来自早期步骤的影响占比 - Late-in: 汇聚到晚期步骤的影响占比

RQ3: 叠加与提交¶

在StrategyQA(Yes/No二元标签)上通过随机采样获取两模式prompt。对每个prompt，采样$K$次rollout划分为$\mathcal{C}_Y$和$\mathcal{C}_N$，用两种读出方式在每步测量对两个答案的支持度： - Teacher-forced readout：在固定答案模板上计算token级log概率 - Probe readout：固定探针将$h_t$映射到下一token概率

定义叠加分数$\mathrm{SS}(t) = \min(p_Y(t), p_N(t))$，高叠加分数意味着两个答案在中间步骤保持竞争。

关键设计选择¶

干预算子鲁棒性验证：对比6种干预方式(zero/mean/mean_step/gaussian_h/gaussian_mu/gaussian_mu_step)，定性结果一致，选择zero因其确定性
两种推理范式对比：Coconut(循环隐token)与CODI(自蒸馏压缩CoT)，架构不同但共享相同干预接口
三层分析递进：现象(RQ1: 哪些步骤重要) → 机制(RQ2: 信息如何传播) → 本质(RQ3: 竞争假设如何演化)

实验结果¶

表1: RQ1 步骤必要性——Flip Rate关键发现¶

设置	任务	Flip Rate范围	模式
Coconut (GPT-2)	GSM8K	0.10-0.20+	中间步峰值，波动大
CODI (GPT-2)	GSM8K	0.05-0.15	低于Coconut同backbone
Coconut (Llama3-1B)	GSM8K	较高	backbone增强但不消除结构
CODI (Llama3-1B)	GSM8K	中等	相对Coconut更稳定
Coconut (Qwen3-4B)	GSM8K	较低	强backbone显著抑制flip
CODI (Qwen3-4B)	GSM8K	最低	强backbone+CODI最稳定
各范式	CommonsenseQA	普遍<0.1	常识任务对干预更鲁棒

表2: RQ2 信息流结构指标对比 (GSM8K)¶

模型类型	Locality (↑=局部)	Span (↑=长程)	Early-out	Late-in
CoT-SFT (GPT-2)	≥0.6	低	中等	中等
CoT-SFT (Llama3-1B)	≥0.6	低	中等	中等
Coconut (各backbone)	显著低于CoT	高	高	高
CODI (各backbone)	低于CoT但高于Coconut	中高	中等	高

表3: RQ3 叠加分数对比 (StrategyQA)¶

读出方式	Coconut SS趋势	CODI SS趋势
Teacher-forced	全程低且几乎不变——早期输出提交	全程低且几乎不变——早期输出提交
Probe	中间步较高，末步骤显著下降	全程高于Coconut，末步下降

关键发现¶

因果杠杆异质分布：隐式推理步骤的flip rate随步骤索引显著变化，呈非均匀/中间步峰值模式。不同步骤扮演不同功能角色，某些"高杠杆"步骤的移除对下游计算造成不成比例的破坏
任务依赖的决策脆弱性：GSM8K(数学)的flip rate远高于CommonsenseQA，表明算术推理更依赖中间隐状态计算，而常识推理对步骤干预更鲁棒
非局部跳跃传播：隐式CoT影响图包含大量skip connection，信息常绕过中间步骤直接从早期传播到晚期，与显式CoT的近链式(局部)传播形成鲜明对比。Coconut偏向early→final直连，CODI更分散
输出提交与表征提交不同步：Teacher-forced readout显示输出早期就锁定答案(SS低)，但probe readout显示中间表征持续保留竞争假设(SS高)直到最后一步才坍缩。这意味着"可解码"不等于"已承诺"
范式与backbone的正交效应：更强的backbone降低绝对flip rate但不改变步骤依赖结构；Coconut在matched backbone下比CODI更脆弱，范式本身塑造因果结构
早停解码的任务差异：CommonsenseQA的$S(k)$前2-3步即快速饱和，GSM8K的$S(k)$持续增长到第6步，表明数学任务确实需要更多隐计算步

亮点¶

首次因果分析隐式CoT：建立了统一的"干预+读出"协议，区分了可用性(availability)与稳定性(stability)
三个RQ层层递进的分析框架：从现象(步骤重要性)到机制(传播结构)再到本质(模式竞争与承诺)，逻辑严密
揭示核心设计洞察：隐步骤预算并非均匀的"额外深度"，而是具有非局部路由的分阶段功能接口——改善隐式推理应塑造路由/提交机制而非简单加步数
输出vs表征提交的发现对推理系统设计有深远影响：表面上模型已"做出决定"，但内部表征仍在"犹豫"

局限性¶

仅研究Coconut和CODI两种隐式CoT范式，未覆盖Token Assorted、SoftCoT等更多方法
零干预(置零)虽鲁棒性已验证，但可能引入off-manifold分布偏移
固定隐步骤预算T=6，未探索不同预算长度下的因果结构变化
RQ3仅在StrategyQA(二元标签)上实验，开放式任务(如GSM8K)的模式分析因输出空间过大而困难
未提出具体的训练/解码改进方法，分析启发了方向但未验证
影响图稀疏化阈值α=0.1和early/late分界m=2/5的选择较主观

与相关工作的对比¶

对比维度	本文	Wu等(2025) "单线程推理"
核心观点	表征层面保留竞争假设（probe readout高SS）	连续推理本质上是贪心/单线程的
分析粒度	步级因果干预+读出	行为/输出层分析
关键区别	揭示"输出提交≠表征提交"，两者不矛盾但视角不同	未区分输出与表征层面的承诺

对比维度	本文	经典Mechanistic Interpretability (Elhage等)
分析单元	隐推理"步骤"（宏观）	神经元/注意力头/特征（微观）
干预方式	步级do-干预 + teacher-forced readout	activation patching/ablation
互补性	步级分析→发现功能路由	微观→定位具体计算机制

评分¶

新颖性: ⭐⭐⭐⭐ — 首次因果分析隐式CoT，三个RQ层层递进，框架有统一性和可扩展性
实验充分度: ⭐⭐⭐⭐ — 多范式(Coconut/CODI)×多backbone(GPT-2/Llama/Qwen)×多任务(GSM8K/CommonsenseQA/StrategyQA)
写作质量: ⭐⭐⭐⭐⭐ — 结构极清晰，"现象→机制→本质"的递进逻辑贯穿全文
实用价值: ⭐⭐⭐⭐ — 对隐式推理系统设计有重要启发(路由/提交而非堆步数)，但未提出具体改进方法