ReTraceQA: Evaluating Reasoning Traces of Small Language Models in Commonsense Question Answering¶

会议: ACL 2026
arXiv: 2510.09351
代码: https://github.com/SapienzaNLP/ReTraceQA
领域: LLM评测/常识推理
关键词: 推理过程评估, 小语言模型, 常识推理, 过程奖励模型, LLM-as-Judge

一句话总结¶

本文提出 ReTraceQA，首个面向常识推理任务的推理过程评测基准，包含 2421 条由专家标注的步骤级错误定位和错误分类标注，揭示 14-24% 的 SLM 虽给出正确答案但推理过程有误，当采用推理感知评估替代仅答案评估时，SLM 性能最多下降 25 个百分点。

研究背景与动机¶

领域现状：小语言模型（SLM，≤10B 参数）在各种常识推理基准上表现越来越好，但当前评估实践几乎完全依赖最终答案的正确性——只要模型预测与标准答案匹配就算正确，完全不关注推理过程是否合理。

现有痛点：(1) 模型可以通过无效推理路径到达正确答案（如捷径推理、错误前提下的偶然正确），仅答案评估会人为膨胀性能指标；(2) 现有推理过程评测基准（ProcessBench、MR-Ben 等）集中在数学/科学领域，常识推理的过程评估完全空白；(3) 过程奖励模型（PRM）和 LLM 评委主要被用于 Best-of-N 选择以优化性能，而非用于审视正确答案是否经由有效推理路径获得。

核心矛盾：SLM 在排行榜上的高分与其真实推理能力之间存在显著落差——答案正确不等于推理正确，但目前的评估体系无法区分两者。

本文目标：构建首个面向常识推理的步骤级推理过程评测基准，量化仅答案评估对 SLM 能力的高估程度，并评估 LLM 作为推理评委和 PRM 在常识推理领域的表现。

切入角度：关注"过程错误"（process error）——即答案正确但推理过程有误的实例，通过专家标注建立黄金标准，然后用它衡量自动评估方法的可靠性。

核心 idea：用 7 个 SLM 在 4 个常识推理数据集上生成 CoT 推理链，经三位博士级专家标注步骤级错误位置和错误类别（Misinterpretation/Hallucination/Reasoning），构建 2421 个实例的基准，在无参考和有参考两种设置下评测 LLM 评委和 PRM。

方法详解¶

整体框架¶

ReTraceQA 的构建流程包括：(1) 从 CSQA、OBQA、QASC、StrategyQA 四个常识推理数据集中选取问题；(2) 用 7 个 SLM（Llama 3.2/3.1、Qwen 2.5、Phi-4-mini 的指令微调版本）通过零样本 CoT 生成推理链；(3) 对推理链进行步骤分割；(4) 平衡采样确保正确/错误链、各模型和问题唯一性的平衡；(5) 三位专家标注每条链的首个错误步骤位置和错误类别。

关键设计¶

三级层次化错误分类体系:
- 功能：按错误的认知层次对推理错误进行互斥分类
- 核心思路：从底层到高层定义三类错误——Misinterpretation（接地层：误解问题、选项含义或任务要求，包括引用不存在的选项或给出多个答案）、Hallucination（内容层：引入经验上错误或不可验证的世界知识，仅当逻辑结构可能正确但事实"积木"有误时使用，如"狼不在北极地区生存"）、Reasoning（推理层：在正确前提之间进行无效逻辑跳跃，如正确陈述"盐降低冰点"后错误推断"这使冰更容易形成"）。分类时遵循"从接地到推理"的优先级。
- 设计动机：区分"不理解问题"、"不知道事实"和"不会逻辑推理"三种本质不同的失败模式，为改进 SLM 提供有针对性的诊断信息。
首错定位任务定义:
- 功能：将推理过程评估形式化为可量化的任务
- 核心思路：给定问题 \(q\) 和推理链 \(S = [s_0, s_1, \ldots, s_n]\)，预测索引 \(i \in \{-1, 0, \ldots, n\}\)，其中 \(i = -1\) 表示所有步骤正确，\(i \geq 0\) 表示首个错误出现在步骤 \(s_i\)。仅关注首个错误，因为后续步骤建立在错误前提上，其正确性变得模糊。
- 设计动机：与 ProcessBench 保持一致的任务定义便于跨领域比较，且首错定位避免了级联错误归因的歧义性。
双轴评估框架（无参考 + 有参考 × 评委 + PRM）:
- 功能：全面评估自动推理评估方法在常识推理上的表现
- 核心思路：无参考设置（仅提供推理链，不提供正确答案）测试 LLM 评委和 PRM 作为训练反馈/Best-of-N 选择的可靠性；有参考设置（提供正确答案和推理链）测试其作为评估工具的能力。两种设置下都用 correct（识别全正确链的准确率）、error（定位首错步骤的准确率）和 F1（两者的调和平均）来评估。
- 设计动机：无参考设置反映实际部署场景（训练时无法获得标准答案），有参考设置反映评估场景，两者结合揭示不同模型在不同条件下的优劣。

损失函数 / 训练策略¶

本文为评测基准论文，不涉及模型训练。LLM 评委使用略微适配的 ProcessBench 提示模板，PRM 使用 sigmoid 激活输出的阈值化判断或 F1 最大化的阈值选择。所有开源模型使用贪心解码，o1-mini 和 DeepSeek-R1 因 API 限制使用温度 1.0。

实验关键数据¶

主实验¶

模型	CSQA F1	OBQA F1	QASC F1	StrategyQA F1	平均 F1
有参考 LLM 评委
o1-mini	65.7	79.2	74.2	78.3	74.4
GPT-4o	67.9	76.6	66.2	65.3	69.0
Qwen2.5-72B	64.7	69.9	69.7	67.3	67.9
Gemini-2.0-Flash	65.2	74.5	68.4	62.4	67.6
DeepSeek-R1	57.4	56.4	56.7	47.2	54.4
无参考 PRM
Qwen2.5-Math-PRM-7B	33.8	42.8	48.6	37.4	40.7
Math-Shepherd-PRM-7B	8.0	11.5	17.9	28.4	16.5

SLM 模型	仅答案准确率	推理感知准确率	性能膨胀Δ
Qwen2.5-7B	81.0	67.5	13.5
Llama-3.1-8B	76.3	63.1	13.2
Qwen2.5-3B	70.4	48.5	22.0
Llama-3.2-1B	49.0	23.4	25.6
平均	68.3	49.7	18.6

消融实验¶

数据集	过程错误比例（答案正确但推理有误）
CSQA	16.3%
OBQA	14.7%
QASC	16.6%
StrategyQA	24.0%
平均	17.9%

关键发现¶

17.9% 的正确答案来自错误推理：平均每 5-6 个"正确"回答中就有一个推理过程有误，StrategyQA 上高达 24%，说明仅答案评估严重高估 SLM 能力。
推理感知评估导致性能大幅下降：使用 o1-mini 作为推理评委后，SLM 平均准确率从 68.3% 降至 49.7%（下降 18.6pp），最差的 Llama-3.2-1B 从 49.0% 降至 23.4%（下降 25.6pp）。
幻觉是 SLM 推理的主要失败模式：幻觉错误占所有错误的 41.9%-62.5%，其次是推理错误（27.9%-35.4%），误解错误占比最低（9.6%-24.1%）。SLM 能理解问题但常制造虚假"事实"。
数学 PRM 无法迁移到常识推理：最强数学 PRM 的平均 F1 仅 40.7%，而最强 LLM 评委达 74.4%，表明 PRM 的泛化能力极为有限。
LLM 评委擅长整体判断但弱于错误定位：模型检测链整体正确性的 correct 分数远高于定位具体错误步骤的 error 分数，说明精确定位推理错误仍是开放挑战。
错误多发于中间步骤（3-4 步）：早期上下文建立通常成功，错误出现在中级推理阶段。o1-mini 的预测分布与人工标注高度吻合，但对后期步骤有过度归因倾向。

亮点与洞察¶

首次量化"答案正确≠推理正确"在常识推理中的严重程度：17.9% 的过程错误率和高达 25pp 的性能膨胀，为社区敲响了警钟——排行榜分数比实际能力高出近 19 个百分点。
层次化错误分类的实用价值：Hallucination > Reasoning > Misinterpretation 的错误分布规律，清晰揭示 SLM 的核心弱点在于事实接地而非逻辑推理或问题理解，为改进方向提供了明确指引。
跨领域迁移的警示：数学 PRM 在常识推理上的惨败（平均 F1 仅 21.1% 无参考）证明了"数学推理≠通用推理"，呼吁构建领域特定的过程奖励模型。
标注质量极高：三位 PhD 级专家标注，Fleiss's Kappa 0.84（"几乎完美一致"），为该领域提供了可靠的黄金标准。

局限与展望¶

仅评估了 ≤10B 参数的 SLM，未涉及更大模型的推理过程质量。
常识推理的"正确性"本身有主观性——不同标注者可能对某些世界知识的"正确"与否有分歧。
仅使用零样本 CoT 生成推理链，未探索少样本或其他提示策略下的推理质量。
未来需构建面向常识推理的专用 PRM，而非依赖数学领域的迁移。
可扩展到更多推理领域（法律、伦理、社会推理等）。

评分¶

新颖性: ⭐⭐⭐⭐ 首个面向常识推理的步骤级推理过程评测基准，问题定义清晰
实验充分度: ⭐⭐⭐⭐⭐ 5 个 PRM + 8 个 LLM 评委、无参考/有参考双设置、7 个 SLM 的下游评估，分析极为全面
写作质量: ⭐⭐⭐⭐ 论文结构清晰，任务定义严谨，统计分析详尽
价值: ⭐⭐⭐⭐ 揭示了仅答案评估的严重缺陷，为推理感知评估提供了实用基准和工具