Verifying Chain-of-Thought Reasoning via Its Computational Graph¶
会议: ICLR 2026
arXiv: 2510.09312
代码: 有
领域: LLM Reasoning / Mechanistic Interpretability
关键词: Chain-of-Thought, 归因图, Transcoder, 推理验证, 因果干预
一句话总结¶
提出 CRV(Circuit-based Reasoning Verification),通过将 LLM 的 MLP 替换为 transcoder 构建可解释归因图,从图的结构特征中提取推理错误的"指纹",实现白盒 CoT 推理验证,并可通过因果干预修正错误推理。
研究背景与动机¶
现有 CoT 验证方法分为两类:黑盒方法(分析输出文本或 logit 分布)和灰盒方法(利用隐层激活或隐状态轨迹的探针)。这些方法能检测到错误的"相关性",但无法揭示推理为何出错——即无法深入到模型的计算过程层面理解失败的原因。
作者的核心假设是:模型内部实现了特定的"潜在算法电路"来完成推理任务,推理失败本质上是电路执行中的缺陷。通过构建归因图(类似软件调试中的执行追踪),可以从计算图的结构属性中检测到错误的可辨识信号。
方法详解¶
整体框架¶
CRV 是一个四阶段流水线:
-
替换 MLP 为 Transcoder:为模型每一层的 MLP 训练对应的 transcoder(稀疏过完备表示),用 TopK 激活函数强制稀疏,使内部计算在可解释的特征基上进行
-
构建步级归因图:对每个推理步骤 \(s_i\),使用贪心路径查找算法从最终 logit 反向追踪高归因连接,得到稀疏有向图 \(G_i = (\mathcal{V}, \mathcal{E})\),节点包括输入 token、transcoder 特征和输出 logit
-
提取结构特征向量:从归因图中提取固定维度的"结构指纹" \(\mathbf{x}_i = \phi(G_i)\)
-
训练诊断分类器:使用梯度提升分类器 (GBC) 预测推理步骤的正确性 \(\hat{y}_i = f_\theta(\mathbf{x}_i)\)
关键设计¶
-
Transcoder 可解释化改造
功能:将目标模型每层的 MLP 替换为训练好的 transcoder,使前向传播通过稀疏、可解释的瓶颈层。
核心思路:Transcoder 的训练目标是 \(f(x) \approx \text{MLP}(x)\),即用稀疏过完备基来拟合 MLP 的输入-输出函数,而非自编码器式的自重构。输出的特征向量维度 \(D \gg d\),但大部分为零,每个非零元素对应一个可解释概念。
设计动机:标准 SAE 只是重构自身输入,而 transcoder 是 MLP 的功能替代品,能以可解释方式完成同等计算,为后续归因图分析提供语义基础。
-
三层次结构指纹提取
功能:从修剪后的归因图(保留贡献前 80% 影响力的节点/边)中提取三个层次的特征。
核心思路: - 全局图统计:活跃特征节点数、logit 概率与熵——衡量计算复杂度和不确定性 - 节点影响力统计:激活值和影响力分数的均值/最大值/标准差,以及按层的活跃特征直方图——区分"少数高激活特征驱动"与"大量弱特征扩散"两种计算模式 - 拓扑与路径特征:图密度、度中心性、介数中心性、连通性——分析信息流结构
设计动机:不同层次的特征互补,组合使用才能达到最优检测性能。消融实验证实节点统计最关键(移除后 FPR@95 上升 12 个百分点)。
-
因果干预验证
功能:利用 CRV 发现的错误特征指导针对性的模型修复——抑制或放大特定 transcoder 特征以纠正推理错误。
核心思路:当 CRV 检测到某推理步骤错误时,追溯到高重要性的 transcoder 特征(如"乘法"概念的特征),通过 forward hook 将其激活值钳制为零,从而改变模型的计算路径。
设计动机:这一闭环验证了 CRV 发现的结构指纹与推理错误之间存在因果关系,而非仅仅是相关性,为可解释的模型调试开辟了新方向。
损失函数 / 训练策略¶
- Transcoder 使用 L2 重构损失 + TopK 激活函数训练
- 诊断分类器使用梯度提升分类器 (GBC),直接在提取的表格化特征上训练
- 数据集构建:合成任务(布尔/算术)通过解析器自动标注;GSM8K 使用 Llama 3.3 70B Instruct 作为半自动评注器,并经人工审核
实验关键数据¶
主实验(表格)¶
| 方法 | 范式 | Boolean AUROC↑ | Arithmetic AUROC↑ | GSM8K AUROC↑ |
|---|---|---|---|---|
| MaxProb | Black-box | 58.81 | 61.87 | 54.91 |
| Energy | Black-box | 51.08 | 76.45 | 62.55 |
| CoE-C | Gray-box | 51.03 | 69.39 | 53.57 |
| MLP Probe | Gray-box | 53.63 | 54.41 | 56.02 |
| CRV (Ours) | White-box | 75.87 | 92.47 | 70.17 |
CRV 在所有数据集上全面超越黑盒和灰盒基线。在算术任务上 AUROC 达 92.47,FPR@95 降至 37.09%(最强基线为 63.33%)。
消融实验(表格)¶
| 特征集 | Arithmetic AUROC↑ | Arithmetic FPR@95↓ |
|---|---|---|
| CRV(全部三类) | 92.47 | 37.09 |
| w/o 全局统计 | 89.62 | 44.54 |
| w/o 节点统计 | 88.31 | 49.07 |
| w/o 拓扑统计 | 90.89 | 39.19 |
节点影响力统计是最关键的特征类别。
关键发现¶
- 错误指纹具有领域特异性:不同推理任务(布尔逻辑 vs 算术 vs 自然语言数学)的错误在计算图上表现为不同的结构模式。单独在算术上训练的分类器迁移到 GSM8K 仅获得 57.04 AUROC。
- 联合训练可恢复性能:用三个任务的联合数据训练的分类器在 GSM8K 上达到 70.62 AUROC,略超专用模型(70.17)。
- 因果干预成功:在算术任务中,通过抑制一个"乘法"概念的 transcoder 特征(ID 91814),成功将错误的运算顺序(先乘后加)修正为正确顺序(先加后乘),答案从 105 修正为 147。
亮点与洞察¶
- 首次将归因图作为"推理执行追踪"用于自动化验证,在检测与理解之间架起桥梁
- 揭示了"计算完整性区域"的存在——正确推理占据了错误推理不可达的结构空间
- 因果干预的闭环设计——从检测到诊断到修复的完整链路——是传统探针方法做不到的
局限与展望¶
- 计算开销大:需要训练每层 transcoder + 构建归因图 + 训练分类器,不适合作为即插即用的验证器
- 仅在标准指令微调模型上验证,未测试搜索/回溯等高级推理模型(如 o1)
- 跨域泛化有限,需要为新任务收集标注数据重新训练分类器
- 实验模型仅为 Llama 3.1 8B Instruct,更大模型上的表现未知
相关工作与启发¶
- 与 PRM(过程奖励模型)互补:PRM 是黑盒训练的步骤级判别器,CRV 提供白盒可解释诊断
- 基于 transcoder 归因图技术 (Ameisen et al., 2025),但从定性可视化推进到定量自动化验证
- 启发方向:可结合 CRV 的诊断能力与 PRM 的可扩展性,构建混合验证系统
评分¶
⭐⭐⭐⭐ 方法新颖度高,白盒归因图验证是全新视角,因果干预验证了因果性而非仅相关性,但计算开销限制了实用性。