ARCHE: A Novel Task to Evaluate LLMs on Latent Reasoning Chain Extraction¶

会议: AAAI 2026
arXiv: 2511.12485
代码: GitHub
领域: LLM评测 / 科学推理
关键词: 潜在推理链提取, Peirce推理范式, 演绎/归纳/溯因, 推理逻辑树, benchmark

一句话总结¶

提出潜在推理链提取 (ARCHE) 任务，要求 LLM 将科学论文中的论证分解为基于 Peirce 三种推理范式的推理逻辑树 (RLT)，并通过 Entity Coverage 和 Reasoning Edge Accuracy 两个指标揭示了 10 个主流 LLM 在内容完整性与逻辑正确性之间的本质权衡。

研究背景与动机¶

领域现状: LLM 在科学领域广泛应用——文献综述、假设生成、实验设计等，CoT 等提示方法可以产生"类推理"输出。

现有痛点: CoT 产生的推理链是非结构化的自然语言叙述，缺乏形式化逻辑基础，无法验证模型是否真正理解推理范式。现有基准大多只关注最终答案正确性，且演绎/归纳/溯因被孤立评估。

核心矛盾: 语言层面的流畅推理 ≠ 范式层面的结构化推理。模型能"说得像在推理"但不一定真正掌握推理的基本逻辑形式。

本文目标: 评估 LLM 能否 (i) 从科学论证中识别三种推理范式，(ii) 组装成连贯推理链，(iii) 将每步推理锚定到可验证的文本证据。

切入角度: 从 Peirce 哲学出发，定义一个统一框架将演绎、归纳、溯因整合进同一棵推理逻辑树中，用真实科学论文作为测试载体。

核心 idea: 用推理逻辑树 (RLT) 将科学文本中的隐性推理链显式化、结构化，以此检验 LLM 是否真正理解推理范式。

方法详解¶

整体框架¶

三阶段流水线：数据处理 → RLT 生成 → 评估。

输入: 科学论文的引言部分 + 从引言本身及引用文献摘要中提取的观点 (viewpoints)
输出: 推理逻辑树 (RLT)，用 DOT 图描述语言表示的有向无环图
评估: 两个互补指标 EC + REA

关键设计¶

推理逻辑树 (RLT) 结构: - 节点: 每个节点包含一个观点 (viewpoint) 及其来源坐标 (x,y,z)，分别对应引言句子、句内观点、引用文献观点三个层次 - 边: 六种有向标注边，是 Peirce 三种推理范式的细粒度实例化 - 演绎: Deduction-Rule (DR) 和 Deduction-Case (DC) - 归纳: Induction-Common (ICo) 和 Induction-Case (ICa) - 溯因: Abduction-Knowledge (AK) 和 Abduction-Phenomenon (AP) - 约束: 单根 DAG，所有节点必须连通到根节点，每个推理步必须恰好对应一种推理范式的一对边类型 - 设计动机: 树结构比线性 CoT 更能捕获科学论证中的分支、汇聚和多跳关系；六种边类型将推理范式操作化为可验证的结构约束

RLT 生成流水线 (两阶段): 1. 初始提取: LLM 根据 prompt 从引言和观点中生成初始 RLT (DOT格式) 2. 结构修复: 自动验证脚本检查多根、环路、孤立节点、非法标签等结构缺陷，若发现则重新提示 LLM 修正

评估指标: - Entity Coverage (EC): 用 o3 模型提取论文核心科学实体 (通常 8-10 个)，计算 RLT 中正确推理步骤覆盖的实体比例 - Reasoning Edge Accuracy (REA): 三模型投票 (o3 + Claude-Sonnet-4 + Gemini-2.5-Pro) 判断每步推理的逻辑有效性，取多数票，准确率超 88%

损失函数 / 训练策略¶

本工作是评测框架而非训练方法，不涉及损失函数。所有模型采用一致的 zero-shot 评测，温度设为 0.1。

实验关键数据¶

主实验¶

模型	REA (Overall)	EC (Overall)
Claude-Opus-4 (Thinking)	24.2%	69.7%
Claude-Sonnet-4 (Thinking)	28.8%	53.1%
DeepSeek-R1	20.1%	28.7%
Doubao-Seed-1.6 (Thinking)	28.2%	55.3%
Gemini-2.5-Pro	39.5%	56.7%
Gemini-2.5-Pro (Thinking)	41.4%	54.1%
GPT-4o	15.8%	24.3%
Grok-3	33.1%	53.8%
Grok-4	22.2%	61.7%
o3	35.6%	60.5%

最佳 REA: Gemini-2.5-Pro-thinking (41.4%)，最佳 EC: Claude-Opus-4 (69.7%)。没有模型能同时在两个维度取得高分。

消融实验¶

模型	溯因准确率	演绎准确率	归纳准确率	平均总步数 (ATS)	平均有效步数 (AES)
Grok-3	87.1%	74.0%	77.9%	11.0	4.0
GPT-4o	56.9%	63.4%	59.3%	9.2	1.2
Gemini-2.5-Pro	60.3%	59.5%	56.7%	12.4	5.8
Gemini-2.5-Pro (Thinking)	72.5%	56.9%	55.5%	13.2	5.3
o3	57.4%	40.0%	42.2%	11.7	4.9
Grok-4	58.3%	36.6%	40.0%	20.1	4.9
Claude-Opus-4	58.9%	42.4%	57.1%	11.0	3.3
DeepSeek-R1	48.8%	40.6%	59.0%	8.9	1.9

注: 推理类型准确率仅统计格式合法的推理步骤，因此高于 Table 1 中的 REA。

关键发现¶

EC-REA 权衡: 高EC模型 (如 Claude-Opus-4, 69.7% EC) 往往 REA 较低 (24.2%)，说明模型倾向于覆盖更多内容但同时引入更多逻辑错误
格式违规严重: GPT-4o 的 AES 仅 1.2，大量输出存在结构违规 (混合不兼容的推理类型)，说明模型难以掌握推理范式的结构约束
链长 ≠ 质量: Grok-4 生成最多步骤 (ATS=20.1) 但有效步数与 o3 (ATS=11.7) 相当，冗余严重
推理优化有效但有限: o3 显著优于 GPT-4o，但最佳模型仍然平均只能从 30+ 句引言中提取不到 6 个有效推理步骤
性能边界: 最优模型沿一条光滑曲线分布 (trade-off frontier)，暗示当前架构存在内在的推理能力上界

亮点与洞察¶

任务定义新颖: 从"能否推理"转向"能否用标准逻辑范式形式化推理"，将推理哲学引入 LLM 评估，视角独特且有深度
评估设计精巧: EC 和 REA 分别度量完整性和正确性，三模型投票消除单模型偏见，准确率 >88%
数据高质量: 70 篇 Nature Communications 2025 年文章，经同行评审，确保科学论证的严谨性和逻辑完整性
Trade-off frontier 洞察: 最优模型沿光滑曲线分布，说明不同架构和训练目标的 LLM 共享某种推理能力的内在边界，这一发现对理解 LLM 推理本质具有启发意义
名称寓意: ARCHE 源自古希腊哲学 arché (本原/第一原理)，呼应了回归推理根基的研究旨趣

局限与展望¶

数据规模小: 仅 70 篇文章，每篇评测约 $4 API 费用，经济成本限制了扩展
领域单一: 仅 Nature Communications，缺少化学、AI、法律、医学等领域，跨领域泛化性未知
仅评估引言: 排除了 Methods/Results 部分，可能低估 LLM 在实验推理和迭代假设方面的能力
推理边界模糊: 演绎/归纳/溯因在实际科学文本中的边界有时含混，标注一致性可能存在问题
未探索训练改进: 仅做 zero-shot 评测，未尝试 few-shot 或 fine-tuning 是否能缓解 trade-off

评分¶

新颖性: ⭐⭐⭐⭐⭐ 全新任务定义，将三种推理范式统一到推理逻辑树中
实验充分度: ⭐⭐⭐⭐ 10个LLM、多维度分析 (按推理类型/步数效率/领域)，但数据量偏小
写作质量: ⭐⭐⭐⭐ 任务动机、形式化定义和名称寓意都很用心
实用价值: ⭐⭐⭐⭐ 为理解LLM推理本质提供了新视角，trade-off frontier 有启发性