ARCHE: A Novel Task to Evaluate LLMs on Latent Reasoning Chain Extraction¶
会议: AAAI 2026
arXiv: 2511.12485
代码: GitHub
领域: LLM评测 / 科学推理
关键词: 潜在推理链提取, Peirce推理范式, 演绎/归纳/溯因, 推理逻辑树, benchmark
一句话总结¶
提出潜在推理链提取 (ARCHE) 任务,要求 LLM 将科学论文中的论证分解为基于 Peirce 三种推理范式的推理逻辑树 (RLT),并通过 Entity Coverage 和 Reasoning Edge Accuracy 两个指标揭示了 10 个主流 LLM 在内容完整性与逻辑正确性之间的本质权衡。
研究背景与动机¶
领域现状: LLM 在科学领域广泛应用——文献综述、假设生成、实验设计等,CoT 等提示方法可以产生"类推理"输出。
现有痛点: CoT 产生的推理链是非结构化的自然语言叙述,缺乏形式化逻辑基础,无法验证模型是否真正理解推理范式。现有基准大多只关注最终答案正确性,且演绎/归纳/溯因被孤立评估。
核心矛盾: 语言层面的流畅推理 ≠ 范式层面的结构化推理。模型能"说得像在推理"但不一定真正掌握推理的基本逻辑形式。
本文目标: 评估 LLM 能否 (i) 从科学论证中识别三种推理范式,(ii) 组装成连贯推理链,(iii) 将每步推理锚定到可验证的文本证据。
切入角度: 从 Peirce 哲学出发,定义一个统一框架将演绎、归纳、溯因整合进同一棵推理逻辑树中,用真实科学论文作为测试载体。
核心 idea: 用推理逻辑树 (RLT) 将科学文本中的隐性推理链显式化、结构化,以此检验 LLM 是否真正理解推理范式。
方法详解¶
整体框架¶
三阶段流水线:数据处理 → RLT 生成 → 评估。
- 输入: 科学论文的引言部分 + 从引言本身及引用文献摘要中提取的观点 (viewpoints)
- 输出: 推理逻辑树 (RLT),用 DOT 图描述语言表示的有向无环图
- 评估: 两个互补指标 EC + REA
关键设计¶
推理逻辑树 (RLT) 结构: - 节点: 每个节点包含一个观点 (viewpoint) 及其来源坐标 (x,y,z),分别对应引言句子、句内观点、引用文献观点三个层次 - 边: 六种有向标注边,是 Peirce 三种推理范式的细粒度实例化 - 演绎: Deduction-Rule (DR) 和 Deduction-Case (DC) - 归纳: Induction-Common (ICo) 和 Induction-Case (ICa) - 溯因: Abduction-Knowledge (AK) 和 Abduction-Phenomenon (AP) - 约束: 单根 DAG,所有节点必须连通到根节点,每个推理步必须恰好对应一种推理范式的一对边类型 - 设计动机: 树结构比线性 CoT 更能捕获科学论证中的分支、汇聚和多跳关系;六种边类型将推理范式操作化为可验证的结构约束
RLT 生成流水线 (两阶段): 1. 初始提取: LLM 根据 prompt 从引言和观点中生成初始 RLT (DOT格式) 2. 结构修复: 自动验证脚本检查多根、环路、孤立节点、非法标签等结构缺陷,若发现则重新提示 LLM 修正
评估指标: - Entity Coverage (EC): 用 o3 模型提取论文核心科学实体 (通常 8-10 个),计算 RLT 中正确推理步骤覆盖的实体比例 - Reasoning Edge Accuracy (REA): 三模型投票 (o3 + Claude-Sonnet-4 + Gemini-2.5-Pro) 判断每步推理的逻辑有效性,取多数票,准确率超 88%
损失函数 / 训练策略¶
本工作是评测框架而非训练方法,不涉及损失函数。所有模型采用一致的 zero-shot 评测,温度设为 0.1。
实验关键数据¶
主实验¶
| 模型 | REA (Overall) | EC (Overall) |
|---|---|---|
| Claude-Opus-4 (Thinking) | 24.2% | 69.7% |
| Claude-Sonnet-4 (Thinking) | 28.8% | 53.1% |
| DeepSeek-R1 | 20.1% | 28.7% |
| Doubao-Seed-1.6 (Thinking) | 28.2% | 55.3% |
| Gemini-2.5-Pro | 39.5% | 56.7% |
| Gemini-2.5-Pro (Thinking) | 41.4% | 54.1% |
| GPT-4o | 15.8% | 24.3% |
| Grok-3 | 33.1% | 53.8% |
| Grok-4 | 22.2% | 61.7% |
| o3 | 35.6% | 60.5% |
最佳 REA: Gemini-2.5-Pro-thinking (41.4%),最佳 EC: Claude-Opus-4 (69.7%)。没有模型能同时在两个维度取得高分。
消融实验¶
| 模型 | 溯因准确率 | 演绎准确率 | 归纳准确率 | 平均总步数 (ATS) | 平均有效步数 (AES) |
|---|---|---|---|---|---|
| Grok-3 | 87.1% | 74.0% | 77.9% | 11.0 | 4.0 |
| GPT-4o | 56.9% | 63.4% | 59.3% | 9.2 | 1.2 |
| Gemini-2.5-Pro | 60.3% | 59.5% | 56.7% | 12.4 | 5.8 |
| Gemini-2.5-Pro (Thinking) | 72.5% | 56.9% | 55.5% | 13.2 | 5.3 |
| o3 | 57.4% | 40.0% | 42.2% | 11.7 | 4.9 |
| Grok-4 | 58.3% | 36.6% | 40.0% | 20.1 | 4.9 |
| Claude-Opus-4 | 58.9% | 42.4% | 57.1% | 11.0 | 3.3 |
| DeepSeek-R1 | 48.8% | 40.6% | 59.0% | 8.9 | 1.9 |
注: 推理类型准确率仅统计格式合法的推理步骤,因此高于 Table 1 中的 REA。
关键发现¶
- EC-REA 权衡: 高EC模型 (如 Claude-Opus-4, 69.7% EC) 往往 REA 较低 (24.2%),说明模型倾向于覆盖更多内容但同时引入更多逻辑错误
- 格式违规严重: GPT-4o 的 AES 仅 1.2,大量输出存在结构违规 (混合不兼容的推理类型),说明模型难以掌握推理范式的结构约束
- 链长 ≠ 质量: Grok-4 生成最多步骤 (ATS=20.1) 但有效步数与 o3 (ATS=11.7) 相当,冗余严重
- 推理优化有效但有限: o3 显著优于 GPT-4o,但最佳模型仍然平均只能从 30+ 句引言中提取不到 6 个有效推理步骤
- 性能边界: 最优模型沿一条光滑曲线分布 (trade-off frontier),暗示当前架构存在内在的推理能力上界
亮点与洞察¶
- 任务定义新颖: 从"能否推理"转向"能否用标准逻辑范式形式化推理",将推理哲学引入 LLM 评估,视角独特且有深度
- 评估设计精巧: EC 和 REA 分别度量完整性和正确性,三模型投票消除单模型偏见,准确率 >88%
- 数据高质量: 70 篇 Nature Communications 2025 年文章,经同行评审,确保科学论证的严谨性和逻辑完整性
- Trade-off frontier 洞察: 最优模型沿光滑曲线分布,说明不同架构和训练目标的 LLM 共享某种推理能力的内在边界,这一发现对理解 LLM 推理本质具有启发意义
- 名称寓意: ARCHE 源自古希腊哲学 arché (本原/第一原理),呼应了回归推理根基的研究旨趣
局限与展望¶
- 数据规模小: 仅 70 篇文章,每篇评测约 $4 API 费用,经济成本限制了扩展
- 领域单一: 仅 Nature Communications,缺少化学、AI、法律、医学等领域,跨领域泛化性未知
- 仅评估引言: 排除了 Methods/Results 部分,可能低估 LLM 在实验推理和迭代假设方面的能力
- 推理边界模糊: 演绎/归纳/溯因在实际科学文本中的边界有时含混,标注一致性可能存在问题
- 未探索训练改进: 仅做 zero-shot 评测,未尝试 few-shot 或 fine-tuning 是否能缓解 trade-off
相关工作与启发¶
- CoT 系列 (Wei et al., Kojima et al.): CoT 虽然提升了推理性能,但产出的是非类型化叙述,本文的 RLT 进一步要求形式化和范式标注
- EntailmentBank (Dalvi et al.): 要求构建演绎证明树,但仅限演绎推理;ARCHE 统一了三种推理范式
- LINC (Olausson et al.): 将自然语言翻译为形式逻辑让外部求解器处理,脆弱性强;ARCHE 要求 LLM 自身完成结构化推理
- 启发: 可以考虑将 Peirce 推理范式作为预训练/指令微调的监督信号,或设计范式对齐的奖励模型来引导推理
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 全新任务定义,将三种推理范式统一到推理逻辑树中
- 实验充分度: ⭐⭐⭐⭐ 10个LLM、多维度分析 (按推理类型/步数效率/领域),但数据量偏小
- 写作质量: ⭐⭐⭐⭐ 任务动机、形式化定义和名称寓意都很用心
- 实用价值: ⭐⭐⭐⭐ 为理解LLM推理本质提供了新视角,trade-off frontier 有启发性