Dynamics Within Latent Chain-of-Thought: An Empirical Study of Causal Structure¶
会议: ICLR2026
arXiv: 2602.08783
代码: GitHub
领域: LLM推理
关键词: 隐式思维链, 因果分析, do-干预, 结构因果模型, 可解释性
一句话总结¶
将隐式CoT建模为结构因果模型(SCM),通过逐步do-干预分析Coconut和CODI两种范式,发现隐式推理步骤具有异质性因果杠杆、非局部跳跃传播结构、以及输出层早期偏向与表征层晚期提交之间的持续性差距。
研究背景与动机¶
显式CoT的固有缺陷:Chain-of-Thought虽然提升推理准确率,但带来大量解码开销、冗长输出,且可能产生事后合理化(post-hoc rationalization)而非真实反映模型计算
隐式CoT的兴起与挑战:Coconut、CODI等方法将推理转入连续表征空间,降低解码成本,但中间计算不再以离散可编辑步骤暴露,传统步骤编辑/消融方法无法直接应用
现有分析的局限:对隐式CoT的理解主要依赖相关性探测(correlation-based probes),缺乏因果层面的系统分析,无法回答"哪些步骤因果上必要"等关键问题
步骤预算的本质未知:隐式推理中固定的隐步骤预算(如T=6)是均匀贡献额外计算深度,还是扮演不同功能角色?信息如何在步骤间路由?
输出承诺与表征承诺的关系不清:输出层面何时"锁定"某个答案?这与内部表征的状态是否同步?竞争假设是否在中间步骤中持续存在?
统一评估框架的缺失:需要一个适用于不同隐式推理范式的标准化干预-读出协议,以实现可比较的因果分析
方法详解¶
核心框架:隐式CoT作为因果系统¶
将隐式CoT的隐状态序列建模为结构因果模型(SCM)中的因果变量。对输入\(x\),模型产生隐轨迹\(H_{1:T}\)和输出\(Y\): $\(H_t = f_t(H_{<t}, x, \epsilon_t; \theta), \quad t=1,\ldots,T\)$ $\(Y = g(H_{1:T}, x, \epsilon_y; \theta)\)$ 其中\(f_t\)是转移机制,\(g\)是解码机制。通过\(\mathrm{do}(h_t \leftarrow \tilde{h}_t)\)干预单个步骤状态,切断该步骤与上游的因果关联,观察对下游计算和最终输出的影响。干预后的反事实轨迹按下式递推: $\(\tilde{h}_{t'} := f_{t'}(\tilde{h}_{<t'}, x, \tilde{\epsilon}_{t'}; \theta), \quad t' > t\)$
RQ1: 步骤必要性与充分性¶
零干预(Zero Intervention):将目标步骤隐状态置零\(\mathrm{do}(h_t \leftarrow \mathbf{0})\),计算flip rate——被干预后最终预测与基线不同的样本比例: $\(\mathrm{Flip}(t) = \frac{1}{N}\sum_{i=1}^{N}\mathbb{I}[\tilde{y}_i^{(t)} \neq y_i]\)$ 该指标衡量各步骤对最终决策的因果必要性。选择零干预因其确定性、无参数、跨架构公平。
早停解码(Early-Stop Decoding):截断第\(k\)步后直接解码,定义最早可解码步\(k_i\)和累计解决率\(S(k)\): $\(k_i = \min(\{k : \hat{y}_i^{(\leq k)} = y_i^*\} \cup \{\infty\}), \quad S(k) = \frac{1}{N}\sum_{i=1}^{N}\mathbf{1}\{k_i \leq k\}\)$
RQ2: 信息流与步间影响结构¶
结合单步干预与下游早期读出,通过teacher-forced输出分布的KL散度量化步\(t\)到步\(s\)的定向传播强度: $\(\mathrm{KL}_{t \to s}^{(i)} = \frac{1}{|y_i^*|}\sum_{u=1}^{|y_i^*|}\mathrm{KL}(p_{\text{base}}^{(s)}(\cdot \mid y_{i,<u}^*) \| p_{\mathrm{do}(t)}^{(s)}(\cdot \mid y_{i,<u}^*))\)$ 聚合构建影响矩阵\(W_{t,s} = \mathbb{E}_i[\mathrm{KL}_{t \to s}^{(i)}]\)。可视化时保留边权\(> 0.1 \cdot \max(W)\)的top-1出边,构建主导影响图。同时计算四个归一化结构指标: - Locality: 对角线附近的影响质量集中度 - Span: 期望跳跃距离 - Early-out: 来自早期步骤的影响占比 - Late-in: 汇聚到晚期步骤的影响占比
RQ3: 叠加与提交¶
在StrategyQA(Yes/No二元标签)上通过随机采样获取两模式prompt。对每个prompt,采样\(K\)次rollout划分为\(\mathcal{C}_Y\)和\(\mathcal{C}_N\),用两种读出方式在每步测量对两个答案的支持度: - Teacher-forced readout:在固定答案模板上计算token级log概率 - Probe readout:固定探针将\(h_t\)映射到下一token概率
定义叠加分数\(\mathrm{SS}(t) = \min(p_Y(t), p_N(t))\),高叠加分数意味着两个答案在中间步骤保持竞争。
关键设计选择¶
- 干预算子鲁棒性验证:对比6种干预方式(zero/mean/mean_step/gaussian_h/gaussian_mu/gaussian_mu_step),定性结果一致,选择zero因其确定性
- 两种推理范式对比:Coconut(循环隐token)与CODI(自蒸馏压缩CoT),架构不同但共享相同干预接口
- 三层分析递进:现象(RQ1: 哪些步骤重要) → 机制(RQ2: 信息如何传播) → 本质(RQ3: 竞争假设如何演化)
实验结果¶
表1: RQ1 步骤必要性——Flip Rate关键发现¶
| 设置 | 任务 | Flip Rate范围 | 模式 |
|---|---|---|---|
| Coconut (GPT-2) | GSM8K | 0.10-0.20+ | 中间步峰值,波动大 |
| CODI (GPT-2) | GSM8K | 0.05-0.15 | 低于Coconut同backbone |
| Coconut (Llama3-1B) | GSM8K | 较高 | backbone增强但不消除结构 |
| CODI (Llama3-1B) | GSM8K | 中等 | 相对Coconut更稳定 |
| Coconut (Qwen3-4B) | GSM8K | 较低 | 强backbone显著抑制flip |
| CODI (Qwen3-4B) | GSM8K | 最低 | 强backbone+CODI最稳定 |
| 各范式 | CommonsenseQA | 普遍<0.1 | 常识任务对干预更鲁棒 |
表2: RQ2 信息流结构指标对比 (GSM8K)¶
| 模型类型 | Locality (↑=局部) | Span (↑=长程) | Early-out | Late-in |
|---|---|---|---|---|
| CoT-SFT (GPT-2) | ≥0.6 | 低 | 中等 | 中等 |
| CoT-SFT (Llama3-1B) | ≥0.6 | 低 | 中等 | 中等 |
| Coconut (各backbone) | 显著低于CoT | 高 | 高 | 高 |
| CODI (各backbone) | 低于CoT但高于Coconut | 中高 | 中等 | 高 |
表3: RQ3 叠加分数对比 (StrategyQA)¶
| 读出方式 | Coconut SS趋势 | CODI SS趋势 |
|---|---|---|
| Teacher-forced | 全程低且几乎不变——早期输出提交 | 全程低且几乎不变——早期输出提交 |
| Probe | 中间步较高,末步骤显著下降 | 全程高于Coconut,末步下降 |
关键发现¶
- 因果杠杆异质分布:隐式推理步骤的flip rate随步骤索引显著变化,呈非均匀/中间步峰值模式。不同步骤扮演不同功能角色,某些"高杠杆"步骤的移除对下游计算造成不成比例的破坏
- 任务依赖的决策脆弱性:GSM8K(数学)的flip rate远高于CommonsenseQA,表明算术推理更依赖中间隐状态计算,而常识推理对步骤干预更鲁棒
- 非局部跳跃传播:隐式CoT影响图包含大量skip connection,信息常绕过中间步骤直接从早期传播到晚期,与显式CoT的近链式(局部)传播形成鲜明对比。Coconut偏向early→final直连,CODI更分散
- 输出提交与表征提交不同步:Teacher-forced readout显示输出早期就锁定答案(SS低),但probe readout显示中间表征持续保留竞争假设(SS高)直到最后一步才坍缩。这意味着"可解码"不等于"已承诺"
- 范式与backbone的正交效应:更强的backbone降低绝对flip rate但不改变步骤依赖结构;Coconut在matched backbone下比CODI更脆弱,范式本身塑造因果结构
- 早停解码的任务差异:CommonsenseQA的\(S(k)\)前2-3步即快速饱和,GSM8K的\(S(k)\)持续增长到第6步,表明数学任务确实需要更多隐计算步
亮点¶
- 首次因果分析隐式CoT:建立了统一的"干预+读出"协议,区分了可用性(availability)与稳定性(stability)
- 三个RQ层层递进的分析框架:从现象(步骤重要性)到机制(传播结构)再到本质(模式竞争与承诺),逻辑严密
- 揭示核心设计洞察:隐步骤预算并非均匀的"额外深度",而是具有非局部路由的分阶段功能接口——改善隐式推理应塑造路由/提交机制而非简单加步数
- 输出vs表征提交的发现对推理系统设计有深远影响:表面上模型已"做出决定",但内部表征仍在"犹豫"
局限性¶
- 仅研究Coconut和CODI两种隐式CoT范式,未覆盖Token Assorted、SoftCoT等更多方法
- 零干预(置零)虽鲁棒性已验证,但可能引入off-manifold分布偏移
- 固定隐步骤预算T=6,未探索不同预算长度下的因果结构变化
- RQ3仅在StrategyQA(二元标签)上实验,开放式任务(如GSM8K)的模式分析因输出空间过大而困难
- 未提出具体的训练/解码改进方法,分析启发了方向但未验证
- 影响图稀疏化阈值α=0.1和early/late分界m=2/5的选择较主观
与相关工作的对比¶
| 对比维度 | 本文 | Wu等(2025) "单线程推理" |
|---|---|---|
| 核心观点 | 表征层面保留竞争假设(probe readout高SS) | 连续推理本质上是贪心/单线程的 |
| 分析粒度 | 步级因果干预+读出 | 行为/输出层分析 |
| 关键区别 | 揭示"输出提交≠表征提交",两者不矛盾但视角不同 | 未区分输出与表征层面的承诺 |
| 对比维度 | 本文 | 经典Mechanistic Interpretability (Elhage等) |
|---|---|---|
| 分析单元 | 隐推理"步骤"(宏观) | 神经元/注意力头/特征(微观) |
| 干预方式 | 步级do-干预 + teacher-forced readout | activation patching/ablation |
| 互补性 | 步级分析→发现功能路由 | 微观→定位具体计算机制 |
评分¶
- 新颖性: ⭐⭐⭐⭐ — 首次因果分析隐式CoT,三个RQ层层递进,框架有统一性和可扩展性
- 实验充分度: ⭐⭐⭐⭐ — 多范式(Coconut/CODI)×多backbone(GPT-2/Llama/Qwen)×多任务(GSM8K/CommonsenseQA/StrategyQA)
- 写作质量: ⭐⭐⭐⭐⭐ — 结构极清晰,"现象→机制→本质"的递进逻辑贯穿全文
- 实用价值: ⭐⭐⭐⭐ — 对隐式推理系统设计有重要启发(路由/提交而非堆步数),但未提出具体改进方法