ICLR 2026 Reasoning Chain-of-Thought 错误检测潜变量模型后验推断 MCMC 过程奖励模型自我纠错

Latent Veracity Inference for Identifying Errors in Stepwise Reasoning¶

会议: ICLR 2026
OpenReview: https://openreview.net/forum?id=eux1cp8GqC
代码: https://github.com/alstn12088/veracity_inference
领域: LLM 推理 / 过程验证
关键词: Chain-of-Thought, 错误检测, 潜变量模型, 后验推断, MCMC, 过程奖励模型, 自我纠错

一句话总结¶

把"CoT 每一步是否正确"建模成一组潜在 veracity 变量，用语言模型对「veracity + 最终答案」的联合似然作为代理奖励，通过离散 MCMC 搜索（Veracity Search）做后验推断来定位错误步骤，再把搜索结果蒸馏成一个无需真答案的零样本验证器（AVI），全程不需要逐步人工标注。

研究背景与动机¶

领域现状：Chain-of-Thought 让语言模型的推理能力和可解释性都上了一个台阶，但 CoT 里经常夹杂错误的中间步骤，这些错误既损害可解释性，又会沿着推理链传播污染最终答案，于是"自动定位推理链里的错误步骤"成了提升模型可信度的关键问题。

现有痛点：现有方案各有硬伤。①直接训练过程奖励模型（PRM）需要逐步的人工标注，标注成本极高、数据稀缺；②只用最终答案做 outcome supervision 训出来的 step reward，学到的是"这步对最终答案有没有用（value/advantage）"而非"这步本身对不对"，会奖励那些"有用但其实错了"的步骤；③基于外部证据检索的 fact verifier 受限于检索复杂度和证据覆盖；④直接 zero/few-shot prompt 让 LM 当 verifier 又对 prompt 极其敏感、表现脆弱。

核心矛盾：我们想要的是"步骤本身的正确性（veracity）"这个监督信号，但它既贵（人工标注）又不能从最终答案里直接蒸馏（outcome supervision 学到的是别的东西）。

本文目标：在不需要任何逐步监督的前提下，自动识别 CoT 中的错误步骤。

核心 idea（潜变量后验推断）：把错误识别重新表述成一个潜变量模型（LVM）里的后验推断问题——给 CoT 的每一步 \(z_i\) 配一个二值潜变量 \(V_{z_i}\in\{0,1\}\) 表示这步是否正确，把 CoT \(z\) 和最终答案 \(y\) 当作观测，去推断后验 \(\mathbb{P}(V_z\mid x,z,y^*)\)。语言模型对 \((v,y^*)\) 的联合似然 \(P_{\text{LM}}(vy^*\mid xz)\) 恰好可以当成这个后验的代理奖励，从而把"哪些步骤错了"变成"在 \(\{0,1\}^N\) 上找高奖励向量"的搜索问题。

方法详解¶

整体框架¶

方法分三层递进。先把 CoT 解析成 \(N\) 个原子语句 \(z=(z_1,\dots,z_N)\)，并定义条件潜变量模型 \(\mathbb{P}(V_z=v,Y=y\mid x,z):=P_{\text{LM}}(vy\mid xz)\)，于是定位错误等价于在观测到 \(Y\) 的情况下推断未观测的 \(V_z\)，也就是在序列 \(X\to Z\to V_z\to Y\) 里"填空" \(V_z\)；但精确后验要对 \(2^N\) 种取值求和，不可解。于是第二层提出 Veracity Search（VS）：在已知正确答案 \(y^*\) 时，用联合似然当代理奖励，跑带模拟退火的单比特 Metropolis 搜索去近似采样后验。第三层 Amortized Veracity Inference（AVI）：把 VS 搜出来的高奖励向量当伪标签，SFT 微调一个不依赖 \(y^*\)、不依赖搜索的零样本验证器，使其能在测试时直接对新 CoT 判对错。

flowchart LR
    A["输入 x + 含错 CoT z̃<br/>+ 正确答案 y*"] --> B["Veracity Search (VS)<br/>代理奖励 R(v)=P_LM(v·y*|xz)<br/>贪心树初始化 + 退火 Metropolis"]
    B --> C["高奖励 veracity 向量 v_z<br/>(作为伪标签)"]
    C --> D["SFT 微调 → AVI<br/>Q(V_z|x,z) 不依赖 y*"]
    D --> E["零样本错误识别<br/>→ 负词/贴标签纠错 → z′"]

关键设计¶

1. 潜变量建模：把 veracity 显式拆出来，避开"CoT 即正确"的隐含假设。 标准做法把 CoT \(z\) 当成"\(z\) 是正确的"这一命题来条件化，等于隐含假设每步 veracity 恒为 1，这正是大量工作去"纠正推理链"的根源。本文反其道而行：固定 CoT 的"身份" \(Z=z\) 不变，只新引入一组二值向量 \(V_z\) 来刻画它的正确性。由此后验写成

\[\mathbb{P}(V_z=v\mid Y=y,x,z)=\frac{P_{\text{LM}}(v\mid xz)\,P_{\text{LM}}(y\mid xzv)}{\sum_{v'\in\{0,1\}^N}P_{\text{LM}}(v'\mid xz)\,P_{\text{LM}}(y\mid xzv')}\]

关键洞察在于因子化顺序：真正想要的后验对应生成序 \(X\to Z\to V_z\to Y\)（先有 veracity 再预测答案），而一个朴素的 in-context baseline \(P_{\text{LM}}(v\mid xzy)\) 对应的是 \(X\to Z\to Y\to V_z\)，两者通常不相等——这解释了为什么直接 prompt LM 当 verifier 效果差，也说明了为什么要老老实实做后验推断。框架同时兼容二值之外的多类别 veracity。

2. Veracity Search：用联合似然当代理奖励，在低维离散空间跑退火 MCMC。 给定 \(x\)、（可能含错的）\(z\) 和正确答案 \(y^*\)，定义代理奖励 \(R(v):=P_{\text{LM}}(vy^*\mid xz)\propto\mathbb{P}(V_z=v\mid Y=y^*,x,z)\)（由 Bayes 规则得到正比关系），于是寻高奖励 \(v\) 就等价于从后验采样。工作假设是：LM 即便自己生成不出逻辑自洽的 CoT，却能在"veracity 向量越接近真值 \(v^*_z\) 时给联合分布越高的概率"——即后验概率与 Hamming 距离 \(|v_z-v^*_z|\) 呈负相关。搜索本身是单比特 Metropolis + 模拟退火：每步随机选一个坐标 \(j\) 翻转得到 \(v'_z=v^{(t)}_z\oplus e_j\)，因为提议对称且只翻一位，接受率退化成纯似然比

\[\alpha_t=\min\Big\{1,\big(R(v'_z)/R(v^{(t)}_z)\big)^{\beta_t}\Big\}\]

其中逆温 \(\beta_t\) 按退火 schedule 从小到大（高温多探索、低温多利用），帮助跳出局部最优。相比只用最终答案当奖励、或把 CoT 整体当潜变量（身份与 veracity 纠缠在一起）的做法，这里固定 \(Z=z\)、只在低维的 veracity 空间局部搜索，效率高得多。

3. 贪心树初始化：给随机搜索一个高质量起点。 在跑随机搜索前，用一个深度优先的贪心过程挑初始向量 \(v^{(0)}_z\)：从 \(i=1\) 到 \(N\)，对前 \(i-1\) 位已定、第 \(i\) 位分别试 0/1、后面位留空，让 LM 内部对未指定位做边缘化，算部分得分 \(\tilde R(v_{1:i})=P_{\text{LM}}(\,\cdot\mid xz_{1:i}v_{1:i}y^*)\)，取得分更高的值固定第 \(i\) 位。这个"树搜索"暖启动常常一上来就落在高奖励盆地附近，让后续 Metropolis 更新收敛更快——消融显示它显著提升样本效率。

4. Amortized Veracity Inference：把搜索蒸馏成无需真答案的零样本验证器。 仿照变分 EM，把 VS（退火到接近零温，逼近代理奖励的最大化点 \(Q(V_z\mid x,z)\propto\lim_{\beta\to\infty}R(V_z)^\beta\)）搜出的高奖励向量当伪标签，对 \(P_{\text{LM}}\) 做 SFT 得到摊还采样器 \(Q\)。与测试期搜索不同，\(Q(V_z\mid x,z)\) 不条件化最终答案 \(Y\)，带来两个好处：①测试时无需搜索、也无需先看到正确答案就能零样本验证 CoT；②可直接当自我纠错/自我提升的反馈模块——在 PRONTOQA 这类任务里，被判错的步骤可以直接加"not"取反得到纠正链 \(z'\)（期望 \(P_{\text{LM}}(y^*\mid xz')>P_{\text{LM}}(y^*\mid xz)\)）；不便取反的任务（如 COMMONSENSEQA）则把预测的 True/False 标签直接附在语句后面。

实验关键数据¶

主实验表格（Hamming 相似度，1000 样本/数据集）¶

数据集	方法	Qwen-4B	Qwen-8B	Llama-3B	Llama-8B
PRONTOQA	CoT	0.591	0.384	0.459	0.515
PRONTOQA	Voting	0.603	0.692	0.514	0.536
PRONTOQA	VS (ours)	0.910	0.945	0.948	0.964
GSM8K	CoT	0.614	0.695	0.496	0.496
GSM8K	VS (ours)	0.711	0.751	0.614	0.646
COMMONSENSEQA	CoT	0.695	0.590	0.507	0.535
COMMONSENSEQA	VS (ours)	0.935	0.931	0.836	0.903

VS 在三类推理任务（逻辑/数学/常识）上全面超过 in-context baselines，PRONTOQA 上近乎完美。GSM8K 增益相对小，因为数学步骤光"标记错误"还不够、还得重做计算才能纠错。

消融实验表格¶

消融维度	结论
模拟退火 (SA)	线性/余弦退火（\(T\) 从 2 降到 0.1）略胜恒温；恒定 \(T=0.1\) 会卡在局部最优
贪心树初始化	显著提升样本效率，高质量起点让搜索更快收敛
搜索算法对比	SA-Metropolis 明显优于均匀随机翻位（random search）和 Best-of-N，证明结构感知的局部移动很关键

AVI 泛化（PRONTOQA Hamming 相似度，仅在 4-hop 训练）：

Base LLM	方法	3-hop	4-hop	5-hop
Qwen 4B	Many2Many	0.710	0.779	0.684
Qwen 4B	AVI (ours)	0.886	0.921	0.913
Qwen 8B	AVI (ours)	0.956	0.967	0.955

AVI 用于下游纠错（推理准确率）：

方法	Qwen 4B (3/4/5-hop)	Qwen 8B (3/4/5-hop)
No Correction	0.60/0.52/0.59	0.54/0.65/0.52
Self Correction	0.54/0.60/0.48	0.54/0.58/0.46
AVI (ours)	0.68/0.72/0.77	0.87/0.85/0.81

关键发现¶

VS 对推理链长度鲁棒：1→5 hop（最多 13 步）范围内 Hamming 相似度几乎不衰减、稳定在 0.85 以上，比 baseline 高 20–25 点；exact-match 虽随 hop 指数衰减，VS 仍明显更稳，而 baseline 在 5-hop 时已经"一个错误都找不出来"。
AVI 跨长度泛化：仅用 4-hop 数据微调，却能在 3/5-hop 上良好工作，比最强 one-shot baseline 高 15–25 点。
纠错确实提升推理：把 AVI 判错的步骤取反，Qwen-8B 上真答案条件概率提升最多 25%，Qwen-4B 提升 10–12 点，且 3/4/5-hop 一致。
验证不是唯一瓶颈：当 AVI 作为 Self-Refine 的反馈模块时，仍超 baseline，但推理提升幅度小于验证准确率提升的幅度，说明 self-correction 框架里"验证"之外还有其他瓶颈。

亮点与洞察¶

重新定义了问题：把"找错误步骤"从一个分类/打分任务，重构成潜变量模型里的后验推断任务，这个视角解释了为什么直接 prompt LM 当 verifier 不靠谱（因子化顺序不对），理论框架干净。
代理奖励选得巧：用 \(P_{\text{LM}}(vy^*\mid xz)\) 这个联合似然，既绕开了对逐步标注的需求，又区别于 outcome-only reward（后者会奖励"有用但错"的步骤），直击 veracity 本身。
VS→AVI 的 EM 式蒸馏：测试期昂贵搜索→伪标签→摊还成零样本验证器，把"要真答案、要搜索"的限制全部去掉，工程落地友好。
低维搜索的效率优势：固定 CoT 身份、只在 \(\{0,1\}^N\) 的 veracity 空间做 MCMC，比在 token 级 CoT 空间搜索维度低得多，这是 VS 高效的根本原因。

局限与展望¶

VS 测试期需要正确答案 \(y^*\)：这一限制靠 AVI 蒸馏来消除，但 AVI 的质量上限受 VS 伪标签质量约束。
数学推理增益有限：GSM8K 上"标记错误"不等于"纠正错误"，需要重算才能修复，方法对这类"步骤即计算"的任务收益小。
依赖人造错误分布：GSM8K/COMMONSENSEQA 的"真值 CoT"靠 GPT-4.1 生成再人为加噪，veracity 准确率的衡量受这套 corruption scheme 影响，真实世界错误分布下的表现仍需更多验证。
验证非唯一瓶颈：用作自我纠错反馈时推理提升小于验证提升，self-correction/improvement 框架还需在 refinement 环节继续打磨。
展望：把 AVI 接入更强的 self-improvement pipeline、扩展到多类别 veracity（已在附录初探 block Metropolis 处理 veracity 间联合依赖）、以及更贴近真实错误分布的评测。

评分¶

新颖性: ⭐⭐⭐⭐⭐ 把 stepwise 错误检测重构为潜变量后验推断，并用联合似然代理奖励 + 退火 MCMC + 摊还蒸馏串成完整链路，视角新颖、理论自洽。
实验充分度: ⭐⭐⭐⭐ 覆盖逻辑/数学/常识三类任务、4 个开源 LM、长度可扩展性、三组消融与下游纠错，较扎实；但下游推理提升相对有限、且依赖人造错误分布，真实场景验证偏少。
写作质量: ⭐⭐⭐⭐ 公式推导清晰、因子化顺序的洞察讲得透，框架图与分节贡献明确；记号偏密集，读起来需要一点概率图模型基础。
价值: ⭐⭐⭐⭐ 提供了不需逐步标注的零样本步骤验证器，可作为各类 self-correction/improvement 框架的通用反馈模块，对提升 LM 推理可信度有实用价值。