Towards Better Chain-of-Thought: A Reflection on Effectiveness and Faithfulness¶

会议: ACL 2025
arXiv: 2405.18915
代码: 有
领域: LLM推理
关键词: 链式思维, 推理有效性, 推理忠实性, 信息增益, 信息流

一句话总结¶

从有效性和忠实性两个视角系统分析 CoT 的表现模式：发现问题难度、信息增益和信息流单调性决定 CoT 有效性，并揭示不忠实 CoT 的机制——模型在预测答案时从问题中召回了 CoT 遗漏的正确信息。在此基础上提出 QUIRE 算法，同时提升 CoT 的有效性（+2.4%）和忠实性（+5.6%）。

研究背景与动机¶

CoT 在数学推理上效果显著，但在其他任务上表现不一致甚至有害。已有评估工作存在两个缺陷：

有效性评估浅层：只报告"CoT 在哪些任务有效"，如"包含数学符号的任务"，但不深入探究影响因素

忠实性评估缺解释：只判断 CoT 是否忠实，但没有解释为什么出现不忠实

核心问题：为什么 CoT 在某些任务上有效而在其他任务上无效？为什么错误的 CoT 有时仍能导出正确答案？这两个问题看似独立，但本文揭示了内在联系——提升忠实性可以直接提升有效性。

方法详解¶

整体框架¶

分三部分：（1）分析 CoT 有效性的三个因素；（2）解释 CoT 不忠实机制；（3）设计 QUIRE 算法。

CoT 有效性分析¶

问题难度（Problem Difficulty）：
- 按无 CoT 时模型 pass@1 率分五个难度等级
- 结论 Cl.1：CoT 在难题上效果显著，在简单题上几乎无效甚至有害
- 数学推理难题比例高（CoT 整体有效），常识推理简单题多（CoT 整体无效）
- 这与直觉一致：简单问题不需要"思考"，强行加入 CoT 可能引入干扰
信息增益（Information Gain）：
- 定义 \(IG(C,Q) = H(C) - H(C|Q)\)
- \(IG\) 越大 → CoT 从问题中获取信息越多 → CoT 自身提供的额外信息越少
- 结论 Cl.2：CoT 有效当且仅当它提供了问题本身没有的额外信息
- 数学推理 IG 最低（CoT 包含大量推导步骤=新信息），常识推理 IG 最高（CoT 只是复述已知常识）
信息流（Information Flow）：
- 用集成梯度归因（IGA）追踪 CoT 各步骤对答案的影响强度
- 定义平均归因效果 AAE 和信息流单调性 MIF（Spearman 相关系数）
- 结论 Cl.3：当 CoT→答案的信息流随推理过程单调递增时，CoT 最有效
- 直觉：好的推理是"层层递进"式的，每步都在累积对最终答案的贡献

CoT 不忠实性分析¶

通过联合分析问题-CoT-答案三者的信息交互来解释不忠实现象。

不忠实识别：
- 手工标注 50 个 CoT-答案对的正确性
- 逻辑推理最严重：ProntoQA 50 个样本中 17 个（34%）错误 CoT→正确答案
- 数学推理几乎无此问题
问题→CoT（Cl.4）：不忠实 CoT 的 IG 低于忠实 CoT → 遗漏了问题中的正确信息
CoT→答案（Cl.5）：不忠实 CoT 对答案的信息传递（AAE）低于忠实 CoT → 模型较少依赖不忠实 CoT
问题→答案（Cl.6，核心发现）：
- 模型预测答案时直接从问题中"召回"了 CoT 遗漏的正确信息
- 实验：按 AAE 排序问题中语句，不忠实设置下更多缺失语句获得 top-k AAE → 模型绕过 CoT 从问题获取信息

QUIRE 算法¶

AAE 召回：
- 先生成原始答案（Self-Consistency），计算问题中每个语句对答案的 AAE
- 选 top-k 最相关语句作为额外提示注入 CoT 生成
- 动机：主动把模型会"偷偷召回"的信息显式喂给 CoT
IG 投票：
- 用 \(IG(Q,C)\) 为每条增强 CoT 评分
- IG 越高 → CoT 从问题获取越多信息 → 含幻觉越少
- 以 IG 分数作为 Self-Consistency 的加权投票权重

实验关键数据¶

主实验（Llama3.1-8B）¶

方法	PW Acc	PW BertScore	PW FBS	PQA Acc	PQA BertScore	PQA FBS
CoT	59.2	64.9	55.7	86.8	86.1	78.0
Self-Consistency	60.6	65.0	57.8	93.2	87.5	83.6
Least-to-Most	54.0	60.4	56.4	90.0	77.3	72.6
Self-Refine	51.6	65.9	53.4	88.5	91.5	84.5
QUIRE	63.0	66.6	58.0	95.0	92.7	89.2
- AAE Recall	60.2	65.1	57.0	95.0	87.5	84.6
- IG Vote	62.8	64.1	56.6	94.3	87.0	83.4

Gemma2-9B 验证¶

方法	PW Acc	PW FBS	PQA Acc	PQA FBS
CoT	65.0	52.9	77.0	57.7
SC	31.0	50.3	81.0	60.5
QUIRE	65.0	56.3	92.5	69.5

QUIRE 在 Gemma2-9B 上同样有效，ProntoQA FBS 从 60.5 提升至 69.5。

关键发现¶

CoT 有效性三因素：难题更有效、新信息越多越有效、信息流递增越有效
逻辑推理中 34%（ProntoQA）样本存在不忠实问题
不忠实根源：模型预测答案时绕过 CoT 直接从问题"召回"遗漏信息
忠实性和有效性正相关：FBS +5.6% 伴随 Acc +2.4%
AAE Recall 对 Acc 贡献大，IG Vote 对 FBS 贡献大，两者互补

亮点与洞察¶

统一分析框架：首次将有效性和忠实性联系起来，发现忠实性是有效性的关键因素
信息论的深入应用：用信息增益和集成梯度归因两种工具做"解机制"而非"看现象"
不忠实机制的解释：发现模型"绕过" CoT 直接从问题提取信息，为理解 LLM 推理黑箱提供重要线索
QUIRE 的理论对偶性：AAE Recall ← Cl.6（主动召回缺失信息），IG Vote ← Cl.2/Cl.4（用信息增益评价质量）

局限与展望¶

仅限白盒模型：IGA 需梯度信息，无法用于 GPT-4 等闭源模型
缺少理论证明：忠实性→有效性只有实验支撑
IGA 计算开销：多次前向+反向传播，实际部署成本较高
任务覆盖：QUIRE 主要在逻辑推理上验证，代码/数学效果待验证

评分¶

新颖性: ⭐⭐⭐⭐⭐ — 有效性-忠实性的统一分析和不忠实机制的信息论解释非常新颖
实验充分度: ⭐⭐⭐⭐ — 9 个数据集、4 个模型、大量附录补充实验
写作质量: ⭐⭐⭐⭐ — 分析到方法的逻辑链清晰
价值: ⭐⭐⭐⭐⭐ — 对理解 CoT 本质有重要贡献