跳转至

ReTraceQA: Evaluating Reasoning Traces of Small Language Models in Commonsense Question Answering

会议: ACL 2026
arXiv: 2510.09351
代码: https://github.com/SapienzaNLP/ReTraceQA
领域: LLM评测/常识推理
关键词: 推理过程评估, 小语言模型, 常识推理, 过程奖励模型, LLM-as-Judge

一句话总结

本文提出 ReTraceQA,首个面向常识推理任务的推理过程评测基准,包含 2421 条由专家标注的步骤级错误定位和错误分类标注,揭示 14-24% 的 SLM 虽给出正确答案但推理过程有误,当采用推理感知评估替代仅答案评估时,SLM 性能最多下降 25 个百分点。

研究背景与动机

领域现状:小语言模型(SLM,≤10B 参数)在各种常识推理基准上表现越来越好,但当前评估实践几乎完全依赖最终答案的正确性——只要模型预测与标准答案匹配就算正确,完全不关注推理过程是否合理。

现有痛点:(1) 模型可以通过无效推理路径到达正确答案(如捷径推理、错误前提下的偶然正确),仅答案评估会人为膨胀性能指标;(2) 现有推理过程评测基准(ProcessBench、MR-Ben 等)集中在数学/科学领域,常识推理的过程评估完全空白;(3) 过程奖励模型(PRM)和 LLM 评委主要被用于 Best-of-N 选择以优化性能,而非用于审视正确答案是否经由有效推理路径获得。

核心矛盾:SLM 在排行榜上的高分与其真实推理能力之间存在显著落差——答案正确不等于推理正确,但目前的评估体系无法区分两者。

本文目标:构建首个面向常识推理的步骤级推理过程评测基准,量化仅答案评估对 SLM 能力的高估程度,并评估 LLM 作为推理评委和 PRM 在常识推理领域的表现。

切入角度:关注"过程错误"(process error)——即答案正确但推理过程有误的实例,通过专家标注建立黄金标准,然后用它衡量自动评估方法的可靠性。

核心 idea:用 7 个 SLM 在 4 个常识推理数据集上生成 CoT 推理链,经三位博士级专家标注步骤级错误位置和错误类别(Misinterpretation/Hallucination/Reasoning),构建 2421 个实例的基准,在无参考和有参考两种设置下评测 LLM 评委和 PRM。

方法详解

整体框架

ReTraceQA 的构建流程包括:(1) 从 CSQA、OBQA、QASC、StrategyQA 四个常识推理数据集中选取问题;(2) 用 7 个 SLM(Llama 3.2/3.1、Qwen 2.5、Phi-4-mini 的指令微调版本)通过零样本 CoT 生成推理链;(3) 对推理链进行步骤分割;(4) 平衡采样确保正确/错误链、各模型和问题唯一性的平衡;(5) 三位专家标注每条链的首个错误步骤位置和错误类别。

关键设计

  1. 三级层次化错误分类体系:

    • 功能:按错误的认知层次对推理错误进行互斥分类
    • 核心思路:从底层到高层定义三类错误——Misinterpretation(接地层:误解问题、选项含义或任务要求,包括引用不存在的选项或给出多个答案)、Hallucination(内容层:引入经验上错误或不可验证的世界知识,仅当逻辑结构可能正确但事实"积木"有误时使用,如"狼不在北极地区生存")、Reasoning(推理层:在正确前提之间进行无效逻辑跳跃,如正确陈述"盐降低冰点"后错误推断"这使冰更容易形成")。分类时遵循"从接地到推理"的优先级。
    • 设计动机:区分"不理解问题"、"不知道事实"和"不会逻辑推理"三种本质不同的失败模式,为改进 SLM 提供有针对性的诊断信息。
  2. 首错定位任务定义:

    • 功能:将推理过程评估形式化为可量化的任务
    • 核心思路:给定问题 \(q\) 和推理链 \(S = [s_0, s_1, \ldots, s_n]\),预测索引 \(i \in \{-1, 0, \ldots, n\}\),其中 \(i = -1\) 表示所有步骤正确,\(i \geq 0\) 表示首个错误出现在步骤 \(s_i\)。仅关注首个错误,因为后续步骤建立在错误前提上,其正确性变得模糊。
    • 设计动机:与 ProcessBench 保持一致的任务定义便于跨领域比较,且首错定位避免了级联错误归因的歧义性。
  3. 双轴评估框架(无参考 + 有参考 × 评委 + PRM):

    • 功能:全面评估自动推理评估方法在常识推理上的表现
    • 核心思路:无参考设置(仅提供推理链,不提供正确答案)测试 LLM 评委和 PRM 作为训练反馈/Best-of-N 选择的可靠性;有参考设置(提供正确答案和推理链)测试其作为评估工具的能力。两种设置下都用 correct(识别全正确链的准确率)、error(定位首错步骤的准确率)和 F1(两者的调和平均)来评估。
    • 设计动机:无参考设置反映实际部署场景(训练时无法获得标准答案),有参考设置反映评估场景,两者结合揭示不同模型在不同条件下的优劣。

损失函数 / 训练策略

本文为评测基准论文,不涉及模型训练。LLM 评委使用略微适配的 ProcessBench 提示模板,PRM 使用 sigmoid 激活输出的阈值化判断或 F1 最大化的阈值选择。所有开源模型使用贪心解码,o1-mini 和 DeepSeek-R1 因 API 限制使用温度 1.0。

实验关键数据

主实验

模型 CSQA F1 OBQA F1 QASC F1 StrategyQA F1 平均 F1
有参考 LLM 评委
o1-mini 65.7 79.2 74.2 78.3 74.4
GPT-4o 67.9 76.6 66.2 65.3 69.0
Qwen2.5-72B 64.7 69.9 69.7 67.3 67.9
Gemini-2.0-Flash 65.2 74.5 68.4 62.4 67.6
DeepSeek-R1 57.4 56.4 56.7 47.2 54.4
无参考 PRM
Qwen2.5-Math-PRM-7B 33.8 42.8 48.6 37.4 40.7
Math-Shepherd-PRM-7B 8.0 11.5 17.9 28.4 16.5
SLM 模型 仅答案准确率 推理感知准确率 性能膨胀Δ
Qwen2.5-7B 81.0 67.5 13.5
Llama-3.1-8B 76.3 63.1 13.2
Qwen2.5-3B 70.4 48.5 22.0
Llama-3.2-1B 49.0 23.4 25.6
平均 68.3 49.7 18.6

消融实验

数据集 过程错误比例(答案正确但推理有误)
CSQA 16.3%
OBQA 14.7%
QASC 16.6%
StrategyQA 24.0%
平均 17.9%

关键发现

  • 17.9% 的正确答案来自错误推理:平均每 5-6 个"正确"回答中就有一个推理过程有误,StrategyQA 上高达 24%,说明仅答案评估严重高估 SLM 能力。
  • 推理感知评估导致性能大幅下降:使用 o1-mini 作为推理评委后,SLM 平均准确率从 68.3% 降至 49.7%(下降 18.6pp),最差的 Llama-3.2-1B 从 49.0% 降至 23.4%(下降 25.6pp)。
  • 幻觉是 SLM 推理的主要失败模式:幻觉错误占所有错误的 41.9%-62.5%,其次是推理错误(27.9%-35.4%),误解错误占比最低(9.6%-24.1%)。SLM 能理解问题但常制造虚假"事实"。
  • 数学 PRM 无法迁移到常识推理:最强数学 PRM 的平均 F1 仅 40.7%,而最强 LLM 评委达 74.4%,表明 PRM 的泛化能力极为有限。
  • LLM 评委擅长整体判断但弱于错误定位:模型检测链整体正确性的 correct 分数远高于定位具体错误步骤的 error 分数,说明精确定位推理错误仍是开放挑战。
  • 错误多发于中间步骤(3-4 步):早期上下文建立通常成功,错误出现在中级推理阶段。o1-mini 的预测分布与人工标注高度吻合,但对后期步骤有过度归因倾向。

亮点与洞察

  • 首次量化"答案正确≠推理正确"在常识推理中的严重程度:17.9% 的过程错误率和高达 25pp 的性能膨胀,为社区敲响了警钟——排行榜分数比实际能力高出近 19 个百分点。
  • 层次化错误分类的实用价值:Hallucination > Reasoning > Misinterpretation 的错误分布规律,清晰揭示 SLM 的核心弱点在于事实接地而非逻辑推理或问题理解,为改进方向提供了明确指引。
  • 跨领域迁移的警示:数学 PRM 在常识推理上的惨败(平均 F1 仅 21.1% 无参考)证明了"数学推理≠通用推理",呼吁构建领域特定的过程奖励模型。
  • 标注质量极高:三位 PhD 级专家标注,Fleiss's Kappa 0.84("几乎完美一致"),为该领域提供了可靠的黄金标准。

局限与展望

  • 仅评估了 ≤10B 参数的 SLM,未涉及更大模型的推理过程质量。
  • 常识推理的"正确性"本身有主观性——不同标注者可能对某些世界知识的"正确"与否有分歧。
  • 仅使用零样本 CoT 生成推理链,未探索少样本或其他提示策略下的推理质量。
  • 未来需构建面向常识推理的专用 PRM,而非依赖数学领域的迁移。
  • 可扩展到更多推理领域(法律、伦理、社会推理等)。

相关工作与启发

  • vs ProcessBench: ProcessBench 仅覆盖数学推理的错误定位,ReTraceQA 首次将过程评估扩展到常识推理领域。
  • vs MR-Ben/MR-GSM8K: 这些基准提供错误定位+解释+纠正,但同样局限于数学/科学,ReTraceQA 证明了常识推理需要不同的评估框架。
  • vs MMErroR: MMErroR 评估 VLM 对给定错误推理链的诊断能力,ReTraceQA 评估对 SLM 自身生成的推理链的过程级评估,两者互补。
  • vs PRM (Math-Shepherd/Qwen2.5-Math-PRM): ReTraceQA 的实验证明数学 PRM 无法迁移到常识推理,凸显了领域特定评估的必要性。

评分

  • 新颖性: ⭐⭐⭐⭐ 首个面向常识推理的步骤级推理过程评测基准,问题定义清晰
  • 实验充分度: ⭐⭐⭐⭐⭐ 5 个 PRM + 8 个 LLM 评委、无参考/有参考双设置、7 个 SLM 的下游评估,分析极为全面
  • 写作质量: ⭐⭐⭐⭐ 论文结构清晰,任务定义严谨,统计分析详尽
  • 价值: ⭐⭐⭐⭐ 揭示了仅答案评估的严重缺陷,为推理感知评估提供了实用基准和工具