ReTraceQA: Evaluating Reasoning Traces of Small Language Models in Commonsense Question Answering¶
会议: ACL 2026
arXiv: 2510.09351
代码: https://github.com/SapienzaNLP/ReTraceQA
领域: LLM评测/常识推理
关键词: 推理过程评估, 小语言模型, 常识推理, 过程奖励模型, LLM-as-Judge
一句话总结¶
本文提出 ReTraceQA,首个面向常识推理任务的推理过程评测基准,包含 2421 条由专家标注的步骤级错误定位和错误分类标注,揭示 14-24% 的 SLM 虽给出正确答案但推理过程有误,当采用推理感知评估替代仅答案评估时,SLM 性能最多下降 25 个百分点。
研究背景与动机¶
领域现状:小语言模型(SLM,≤10B 参数)在各种常识推理基准上表现越来越好,但当前评估实践几乎完全依赖最终答案的正确性——只要模型预测与标准答案匹配就算正确,完全不关注推理过程是否合理。
现有痛点:(1) 模型可以通过无效推理路径到达正确答案(如捷径推理、错误前提下的偶然正确),仅答案评估会人为膨胀性能指标;(2) 现有推理过程评测基准(ProcessBench、MR-Ben 等)集中在数学/科学领域,常识推理的过程评估完全空白;(3) 过程奖励模型(PRM)和 LLM 评委主要被用于 Best-of-N 选择以优化性能,而非用于审视正确答案是否经由有效推理路径获得。
核心矛盾:SLM 在排行榜上的高分与其真实推理能力之间存在显著落差——答案正确不等于推理正确,但目前的评估体系无法区分两者。
本文目标:构建首个面向常识推理的步骤级推理过程评测基准,量化仅答案评估对 SLM 能力的高估程度,并评估 LLM 作为推理评委和 PRM 在常识推理领域的表现。
切入角度:关注"过程错误"(process error)——即答案正确但推理过程有误的实例,通过专家标注建立黄金标准,然后用它衡量自动评估方法的可靠性。
核心 idea:用 7 个 SLM 在 4 个常识推理数据集上生成 CoT 推理链,经三位博士级专家标注步骤级错误位置和错误类别(Misinterpretation/Hallucination/Reasoning),构建 2421 个实例的基准,在无参考和有参考两种设置下评测 LLM 评委和 PRM。
方法详解¶
整体框架¶
ReTraceQA 把"常识推理过程评估"转化为一个可量化的首错定位问题:先用 7 个指令微调 SLM(Llama 3.2/3.1、Qwen 2.5、Phi-4-mini)在 CSQA、OBQA、QASC、StrategyQA 四个数据集上零样本生成 CoT 推理链,再切分成步骤,经平衡采样保证正确/错误链、模型来源和问题唯一性的均衡,最后交三位博士级专家标注每条链的首个错误步骤及其错误类别,得到 2421 个黄金实例。基准建好后,把 LLM 评委和 PRM 放进无参考、有参考两种设置下逐链评测,看它们能否复现专家的过程判断。
关键设计¶
1. 三级层次化错误分类体系:按认知层次切开三种本质不同的失败
仅答案评估之所以失真,是因为它把"不懂题""记错事实""逻辑跳错"全部塞进同一个对错里。本文据此定义三类互斥错误,并按"从接地到推理"的优先级判定:误解(Misinterpretation)属接地层,错解问题、选项或任务要求(如引用不存在的选项、给出多个答案);幻觉(Hallucination)属内容层,引入经验上错误或不可验证的世界知识,仅在逻辑结构本身可能成立、但事实"积木"有误时使用(如"狼不在北极地区生存");推理(Reasoning)属推理层,在正确前提之间做无效逻辑跳跃(如已知"盐降低冰点"却推出"这使冰更容易形成")。这套分层让诊断信息直接指向改进方向——是补事实、修逻辑还是改读题。
2. 首错定位任务定义:只追第一个错,绕开级联归因的歧义
给定问题 \(q\) 和推理链 \(S = [s_0, s_1, \ldots, s_n]\),任务要求预测索引 \(i \in \{-1, 0, \ldots, n\}\),其中 \(i = -1\) 表示全链正确,\(i \geq 0\) 表示首个错误落在步骤 \(s_i\)。之所以只标注首错,是因为一旦某步出错,后续步骤都建立在错误前提之上,其"对错"本身就变得模糊、无法干净归因。这一定义与 ProcessBench 对齐,既便于跨领域(数学 vs 常识)直接比较,又把评估收敛成单一可计算的定位准确率。
3. 双轴评估框架(无参考 / 有参考 × 评委 / PRM):把部署场景和评估场景分开测
同一个评估器在两类场景下可靠性可能截然不同,因此本文沿两条轴交叉测试。无参考设置只给推理链、不给正确答案,对应训练反馈与 Best-of-N 选择这类"拿不到标准答案"的真实部署;有参考设置额外给出正确答案,对应离线评估场景。两种设置统一用三个指标衡量:correct(识别全正确链的准确率)、error(定位首错步骤的准确率),以及二者的调和平均 F1。这样既能看出 LLM 评委和 PRM 各自的强弱,也能区分"判断整体对错"和"精确定位错误"这两种难度悬殊的能力。
损失函数 / 训练策略¶
本文为评测基准论文,不训练新模型。LLM 评委复用略作适配的 ProcessBench 提示模板,PRM 用 sigmoid 输出的阈值化判断或 F1 最大化选阈值。开源模型一律贪心解码,o1-mini 与 DeepSeek-R1 因 API 限制使用温度 1.0。
实验关键数据¶
主实验¶
| 模型 | CSQA F1 | OBQA F1 | QASC F1 | StrategyQA F1 | 平均 F1 |
|---|---|---|---|---|---|
| 有参考 LLM 评委 | |||||
| o1-mini | 65.7 | 79.2 | 74.2 | 78.3 | 74.4 |
| GPT-4o | 67.9 | 76.6 | 66.2 | 65.3 | 69.0 |
| Qwen2.5-72B | 64.7 | 69.9 | 69.7 | 67.3 | 67.9 |
| Gemini-2.0-Flash | 65.2 | 74.5 | 68.4 | 62.4 | 67.6 |
| DeepSeek-R1 | 57.4 | 56.4 | 56.7 | 47.2 | 54.4 |
| 无参考 PRM | |||||
| Qwen2.5-Math-PRM-7B | 33.8 | 42.8 | 48.6 | 37.4 | 40.7 |
| Math-Shepherd-PRM-7B | 8.0 | 11.5 | 17.9 | 28.4 | 16.5 |
| SLM 模型 | 仅答案准确率 | 推理感知准确率 | 性能膨胀Δ |
|---|---|---|---|
| Qwen2.5-7B | 81.0 | 67.5 | 13.5 |
| Llama-3.1-8B | 76.3 | 63.1 | 13.2 |
| Qwen2.5-3B | 70.4 | 48.5 | 22.0 |
| Llama-3.2-1B | 49.0 | 23.4 | 25.6 |
| 平均 | 68.3 | 49.7 | 18.6 |
消融实验¶
| 数据集 | 过程错误比例(答案正确但推理有误) |
|---|---|
| CSQA | 16.3% |
| OBQA | 14.7% |
| QASC | 16.6% |
| StrategyQA | 24.0% |
| 平均 | 17.9% |
关键发现¶
- 17.9% 的正确答案来自错误推理:平均每 5-6 个"正确"回答中就有一个推理过程有误,StrategyQA 上高达 24%,说明仅答案评估严重高估 SLM 能力。
- 推理感知评估导致性能大幅下降:使用 o1-mini 作为推理评委后,SLM 平均准确率从 68.3% 降至 49.7%(下降 18.6pp),最差的 Llama-3.2-1B 从 49.0% 降至 23.4%(下降 25.6pp)。
- 幻觉是 SLM 推理的主要失败模式:幻觉错误占所有错误的 41.9%-62.5%,其次是推理错误(27.9%-35.4%),误解错误占比最低(9.6%-24.1%)。SLM 能理解问题但常制造虚假"事实"。
- 数学 PRM 无法迁移到常识推理:最强数学 PRM 的平均 F1 仅 40.7%,而最强 LLM 评委达 74.4%,表明 PRM 的泛化能力极为有限。
- LLM 评委擅长整体判断但弱于错误定位:模型检测链整体正确性的 correct 分数远高于定位具体错误步骤的 error 分数,说明精确定位推理错误仍是开放挑战。
- 错误多发于中间步骤(3-4 步):早期上下文建立通常成功,错误出现在中级推理阶段。o1-mini 的预测分布与人工标注高度吻合,但对后期步骤有过度归因倾向。
亮点与洞察¶
- 首次量化"答案正确≠推理正确"在常识推理中的严重程度:17.9% 的过程错误率和高达 25pp 的性能膨胀,为社区敲响了警钟——排行榜分数比实际能力高出近 19 个百分点。
- 层次化错误分类的实用价值:Hallucination > Reasoning > Misinterpretation 的错误分布规律,清晰揭示 SLM 的核心弱点在于事实接地而非逻辑推理或问题理解,为改进方向提供了明确指引。
- 跨领域迁移的警示:数学 PRM 在常识推理上的惨败(平均 F1 仅 21.1% 无参考)证明了"数学推理≠通用推理",呼吁构建领域特定的过程奖励模型。
- 标注质量极高:三位 PhD 级专家标注,Fleiss's Kappa 0.84("几乎完美一致"),为该领域提供了可靠的黄金标准。
局限与展望¶
- 仅评估了 ≤10B 参数的 SLM,未涉及更大模型的推理过程质量。
- 常识推理的"正确性"本身有主观性——不同标注者可能对某些世界知识的"正确"与否有分歧。
- 仅使用零样本 CoT 生成推理链,未探索少样本或其他提示策略下的推理质量。
- 未来需构建面向常识推理的专用 PRM,而非依赖数学领域的迁移。
- 可扩展到更多推理领域(法律、伦理、社会推理等)。
相关工作与启发¶
- vs ProcessBench: ProcessBench 仅覆盖数学推理的错误定位,ReTraceQA 首次将过程评估扩展到常识推理领域。
- vs MR-Ben/MR-GSM8K: 这些基准提供错误定位+解释+纠正,但同样局限于数学/科学,ReTraceQA 证明了常识推理需要不同的评估框架。
- vs MMErroR: MMErroR 评估 VLM 对给定错误推理链的诊断能力,ReTraceQA 评估对 SLM 自身生成的推理链的过程级评估,两者互补。
- vs PRM (Math-Shepherd/Qwen2.5-Math-PRM): ReTraceQA 的实验证明数学 PRM 无法迁移到常识推理,凸显了领域特定评估的必要性。
评分¶
- 新颖性: ⭐⭐⭐⭐ 首个面向常识推理的步骤级推理过程评测基准,问题定义清晰
- 实验充分度: ⭐⭐⭐⭐⭐ 5 个 PRM + 8 个 LLM 评委、无参考/有参考双设置、7 个 SLM 的下游评估,分析极为全面
- 写作质量: ⭐⭐⭐⭐ 论文结构清晰,任务定义严谨,统计分析详尽
- 价值: ⭐⭐⭐⭐ 揭示了仅答案评估的严重缺陷,为推理感知评估提供了实用基准和工具