Towards Better Chain-of-Thought: A Reflection on Effectiveness and Faithfulness¶
会议: ACL 2025
arXiv: 2405.18915
代码: 有
领域: LLM推理
关键词: 链式思维, 推理有效性, 推理忠实性, 信息增益, 信息流
一句话总结¶
从有效性和忠实性两个视角系统分析 CoT 的表现模式:发现问题难度、信息增益和信息流单调性决定 CoT 有效性,并揭示不忠实 CoT 的机制——模型在预测答案时从问题中召回了 CoT 遗漏的正确信息。在此基础上提出 QUIRE 算法,同时提升 CoT 的有效性(+2.4%)和忠实性(+5.6%)。
研究背景与动机¶
CoT 在数学推理上效果显著,但在其他任务上表现不一致甚至有害。已有评估工作存在两个缺陷:
有效性评估浅层:只报告"CoT 在哪些任务有效",如"包含数学符号的任务",但不深入探究影响因素
忠实性评估缺解释:只判断 CoT 是否忠实,但没有解释为什么出现不忠实
核心问题:为什么 CoT 在某些任务上有效而在其他任务上无效?为什么错误的 CoT 有时仍能导出正确答案?这两个问题看似独立,但本文揭示了内在联系——提升忠实性可以直接提升有效性。
方法详解¶
整体框架¶
分三部分:(1)分析 CoT 有效性的三个因素;(2)解释 CoT 不忠实机制;(3)设计 QUIRE 算法。
CoT 有效性分析¶
-
问题难度(Problem Difficulty):
- 按无 CoT 时模型 pass@1 率分五个难度等级
- 结论 Cl.1:CoT 在难题上效果显著,在简单题上几乎无效甚至有害
- 数学推理难题比例高(CoT 整体有效),常识推理简单题多(CoT 整体无效)
- 这与直觉一致:简单问题不需要"思考",强行加入 CoT 可能引入干扰
-
信息增益(Information Gain):
- 定义 \(IG(C,Q) = H(C) - H(C|Q)\)
- \(IG\) 越大 → CoT 从问题中获取信息越多 → CoT 自身提供的额外信息越少
- 结论 Cl.2:CoT 有效当且仅当它提供了问题本身没有的额外信息
- 数学推理 IG 最低(CoT 包含大量推导步骤=新信息),常识推理 IG 最高(CoT 只是复述已知常识)
-
信息流(Information Flow):
- 用集成梯度归因(IGA)追踪 CoT 各步骤对答案的影响强度
- 定义平均归因效果 AAE 和信息流单调性 MIF(Spearman 相关系数)
- 结论 Cl.3:当 CoT→答案的信息流随推理过程单调递增时,CoT 最有效
- 直觉:好的推理是"层层递进"式的,每步都在累积对最终答案的贡献
CoT 不忠实性分析¶
通过联合分析 问题-CoT-答案 三者的信息交互来解释不忠实现象。
-
不忠实识别:
- 手工标注 50 个 CoT-答案对的正确性
- 逻辑推理最严重:ProntoQA 50 个样本中 17 个(34%)错误 CoT→正确答案
- 数学推理几乎无此问题
-
问题→CoT(Cl.4):不忠实 CoT 的 IG 低于忠实 CoT → 遗漏了问题中的正确信息
-
CoT→答案(Cl.5):不忠实 CoT 对答案的信息传递(AAE)低于忠实 CoT → 模型较少依赖不忠实 CoT
-
问题→答案(Cl.6,核心发现):
- 模型预测答案时直接从问题中"召回"了 CoT 遗漏的正确信息
- 实验:按 AAE 排序问题中语句,不忠实设置下更多缺失语句获得 top-k AAE → 模型绕过 CoT 从问题获取信息
QUIRE 算法¶
-
AAE 召回:
- 先生成原始答案(Self-Consistency),计算问题中每个语句对答案的 AAE
- 选 top-k 最相关语句作为额外提示注入 CoT 生成
- 动机:主动把模型会"偷偷召回"的信息显式喂给 CoT
-
IG 投票:
- 用 \(IG(Q,C)\) 为每条增强 CoT 评分
- IG 越高 → CoT 从问题获取越多信息 → 含幻觉越少
- 以 IG 分数作为 Self-Consistency 的加权投票权重
实验关键数据¶
主实验(Llama3.1-8B)¶
| 方法 | PW Acc | PW BertScore | PW FBS | PQA Acc | PQA BertScore | PQA FBS |
|---|---|---|---|---|---|---|
| CoT | 59.2 | 64.9 | 55.7 | 86.8 | 86.1 | 78.0 |
| Self-Consistency | 60.6 | 65.0 | 57.8 | 93.2 | 87.5 | 83.6 |
| Least-to-Most | 54.0 | 60.4 | 56.4 | 90.0 | 77.3 | 72.6 |
| Self-Refine | 51.6 | 65.9 | 53.4 | 88.5 | 91.5 | 84.5 |
| QUIRE | 63.0 | 66.6 | 58.0 | 95.0 | 92.7 | 89.2 |
| - AAE Recall | 60.2 | 65.1 | 57.0 | 95.0 | 87.5 | 84.6 |
| - IG Vote | 62.8 | 64.1 | 56.6 | 94.3 | 87.0 | 83.4 |
Gemma2-9B 验证¶
| 方法 | PW Acc | PW FBS | PQA Acc | PQA FBS |
|---|---|---|---|---|
| CoT | 65.0 | 52.9 | 77.0 | 57.7 |
| SC | 31.0 | 50.3 | 81.0 | 60.5 |
| QUIRE | 65.0 | 56.3 | 92.5 | 69.5 |
QUIRE 在 Gemma2-9B 上同样有效,ProntoQA FBS 从 60.5 提升至 69.5。
关键发现¶
- CoT 有效性三因素:难题更有效、新信息越多越有效、信息流递增越有效
- 逻辑推理中 34%(ProntoQA)样本存在不忠实问题
- 不忠实根源:模型预测答案时绕过 CoT 直接从问题"召回"遗漏信息
- 忠实性和有效性正相关:FBS +5.6% 伴随 Acc +2.4%
- AAE Recall 对 Acc 贡献大,IG Vote 对 FBS 贡献大,两者互补
亮点与洞察¶
- 统一分析框架:首次将有效性和忠实性联系起来,发现忠实性是有效性的关键因素
- 信息论的深入应用:用信息增益和集成梯度归因两种工具做"解机制"而非"看现象"
- 不忠实机制的解释:发现模型"绕过" CoT 直接从问题提取信息,为理解 LLM 推理黑箱提供重要线索
- QUIRE 的理论对偶性:AAE Recall ← Cl.6(主动召回缺失信息),IG Vote ← Cl.2/Cl.4(用信息增益评价质量)
局限与展望¶
- 仅限白盒模型:IGA 需梯度信息,无法用于 GPT-4 等闭源模型
- 缺少理论证明:忠实性→有效性只有实验支撑
- IGA 计算开销:多次前向+反向传播,实际部署成本较高
- 任务覆盖:QUIRE 主要在逻辑推理上验证,代码/数学效果待验证
相关工作与启发¶
- Sprague et al. (2024) 发现 CoT 主要在数学/符号推理有用,本文进一步解释"为什么"
- Bao et al. (2024) 通过因果分析判断忠实性,本文更进一步解释不忠实的机制
- 核心启发:CoT 有效性取决于它能否为特定问题提供有价值的新信息
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ — 有效性-忠实性的统一分析和不忠实机制的信息论解释非常新颖
- 实验充分度: ⭐⭐⭐⭐ — 9 个数据集、4 个模型、大量附录补充实验
- 写作质量: ⭐⭐⭐⭐ — 分析到方法的逻辑链清晰
- 价值: ⭐⭐⭐⭐⭐ — 对理解 CoT 本质有重要贡献